告警OnCall事件中心建设方法白皮书
从告警规 则的源头做好优化,自然是事半功倍。很多公司的告警规则配置没有原则可循,每次故障复盘先看告警是 否漏报,一线工程师为了不背锅,自然是尽量多地提高告警覆盖面,但这么做的后果,就是告警过多,无 效告警占多数,长此以往,工程师疲惫不堪。 那么告警规则的配置应该遵照一个什么原则呢?虽然每个公司业务不同,总有一些通用的原则可循吧?的 确如此,这里我分享一下我个人的做法,希望对你有所启发。0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通总共有1000个请求,我们来计算其90分位的值,即1000*0.9=900,第900个请求,显然,第 900个请求落在了10~20这个区间,即90分位的延迟是10秒~20秒,那具体是多少?其实是无 法知晓的,不过 Prometheus 的 histogram_quantile 有个估计算法,它假设落在各个 bucket 的数据是均匀分布的,即10~20这个区间的150个请求,延迟最小的那个请求是10s,延迟最大0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













