告警OnCall事件中心建设方法白皮书
了,当重要的告警来临的时候,也容易忽略。这样的规则如果不经过治理,日积月累,就会产生很多无用 的告警。 第二个常见的原因是底层出问题导致所有的上层依赖都告警,越是底层影响越大,比如基础网络如果出问 题,发出几万条告警都是正常的。 第三个原因是渠道错配。一些不重要的告警也使用打扰性很高的渠道发出,用户可能会觉得单一渠道不可 靠,想用多个渠道同时发送的方式来保障告警触达率,这也属于告警规则配置不合理的范畴。0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通的分位值, 就是把一段时间内的所有延迟数据从小到大排序,99分位就是看第99%位置的那个值的大小。 还是上面的例子,平均响应时间是1.18秒,但是99分位时间是10秒,相差巨大,更容易暴露问 题。这里所谓的99分位延迟10秒,可以理解为,99%的请求都在10秒内返回。 从监控系统角度,如何来存储和计算出99分位值呢?如果每分钟有1亿个请求,难道真的要在监 控系统中存储这1亿个请求,然后排0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













