键值对 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

告警OnCall事件中心建设方法白皮书

多，无效告警占多数，长此以往，工程师疲惫不堪。那么告警规则的配置应该遵照一个什么原则呢？虽然每个公司业务不同，总有一些通用的原则可循吧？的确如此，这里我分享一下我个人的做法，希望对你有所启发。每个规则都应该对应具体的 Runbook Runbook 就是告警处理手册，也就是告警触发之后，应该细化排查哪些方面，按照一个什么方式执行动作，应该有一个手册参考。如果个告警的意义就不大了。在 Nightingale 的告警规则配置页面，可以看到一个专门的 Runbook 配置，Grafana 的告警配置页面，也有一个 Runbook 的选项，就能看出他们对它的重视程度。这个原则看起来是不是很合理？但是真要落地的时候，又会发现紧急需要处理的告警事件通常容易对应 Runbook，但是有些告警规则产生的告警确实没有那么紧急，有些只是想作为一个通知，好像又确实难以的事情，不至于总是被告警打断。排班系统通常不开源，通常是作为事件中心的一个功能，PagerDuty 就提供了排班能力，即使没有系统支持，也建议人为制定一个排班表，把这个制度落实下去，对告警闭环处理也会有很大帮助。值班人员在值班期间，虽然已经高度重视了，但也难免疏漏，这就需要告警升级机制了。告警升级机制告警升级是指在第一责任人收到告警之后没有及时响应，然

0 码力 | 23 页 | 1.75 MB | 1 年前
3
PromQL 从入门到精通

PromQL 从⼊⻔到精通对于 Prometheus 生态的监控系统，PromQL 是必备技能，本文着重点讲解这个查询语言，掺杂一些生产实践场景，希望对你有所帮助。 ? 本文作者：秦晓辉，Open-Falcon、Nightingale 等开源项目创始人之一，极客时间《运维监控系统实战笔记》作者；当前在创业（快猫星云联创），为客户提供监控/可观测性产品方案，有需求的朋友欢迎联系我的微信，就要放到服务端来实现了，所以服务端必须要能对这种类型的数据建模抽象，也就是所谓的 Counter 类型。时序数据 PromQL 就是查询时序数据的一种 Query Language，要想对 PromQL 有了解，得先搞清楚时序数据。认识时序数据我们先来看一张图，图上是 5 台机器的内存可用率：每个机器的内存可用率数据，体现为图上的一条线，我们称为 series，某个机器在某一时刻的内 _over_time 这类聚合函数和聚合运算章节提供的sum、avg等聚合运算符非常像，容易混淆，着重做一个说明，比如avg，参数是instant-vector，是在同一时刻，对多个series的多个值求平均，而 avg_over_time，参数是 range-vector，是根据指定的时间范围，求取时间范围内的多个值的平均。比如 avg_over_time(mem

0 码力 | 16 页 | 2.77 MB | 1 年前
3

共 2 条前往

页

告警 OnCall 事件中心建设方法白皮皮书白皮书 PromQL Prometheus

分类

语言

格式

告警OnCall事件中心建设方法白皮书

PromQL 从入门到精通