无剑 SoC - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

告警OnCall事件中心建设方法白皮书

从告警规则的源头做好优化，自然是事半功倍。很多公司的告警规则配置没有原则可循，每次故障复盘先看告警是否漏报，一线工程师为了不背锅，自然是尽量多地提高告警覆盖面，但这么做的后果，就是告警过多，无效告警占多数，长此以往，工程师疲惫不堪。那么告警规则的配置应该遵照一个什么原则呢？虽然每个公司业务不同，总有一些通用的原则可循吧？的确如此，这里我分享一下我个人的做法，希望对你有所启发。

0 码力 | 23 页 | 1.75 MB | 1 年前
3
PromQL 从入门到精通

总共有1000个请求，我们来计算其90分位的值，即1000*0.9=900，第900个请求，显然，第 900个请求落在了10~20这个区间，即90分位的延迟是10秒~20秒，那具体是多少？其实是无法知晓的，不过 Prometheus 的 histogram_quantile 有个估计算法，它假设落在各个 bucket 的数据是均匀分布的，即10~20这个区间的150个请求，延迟最小的那个请求是10s，延迟最大

0 码力 | 16 页 | 2.77 MB | 1 年前
3

共 2 条前往

页

告警 OnCall 事件中心建设方法白皮皮书白皮书 PromQL Prometheus