告警OnCall事件中心建设方法白皮书
机器的告警收敛成另一个故障。或者按照服务维度,某个时间段内所有 A 服务的告警 收敛成一个故障,所有 B 服务的告警收敛成另一个故障。看起来效果好多了,只是没办法和现实中的告 警和故障建立完美的对应关系,不过从降噪收敛角度来看,够用了。 3、根据时间 + 文本相似度做收敛 文本相似度需要引入算法,但是算法总得有个规律,我们很想把某个故障相关的告警聚拢到一起,但是显 然,很难有个行之有效的规律,没有规律的算法效果自然好不到哪儿去。0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通值的大小。 还是上面的例子,平均响应时间是1.18秒,但是99分位时间是10秒,相差巨大,更容易暴露问 题。这里所谓的99分位延迟10秒,可以理解为,99%的请求都在10秒内返回。 从监控系统角度,如何来存储和计算出99分位值呢?如果每分钟有1亿个请求,难道真的要在监 控系统中存储这1亿个请求,然后排序,然后求取分位值?那这个代价就太大了。监控数据是采 样数据,对准确性要求没有那么的高,0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













