告警OnCall事件中心建设方法白皮书
多,无 效告警占多数,长此以往,工程师疲惫不堪。 那么告警规则的配置应该遵照一个什么原则呢?虽然每个公司业务不同,总有一些通用的原则可循吧?的 确如此,这里我分享一下我个人的做法,希望对你有所启发。 每个规则都应该对应具体的 Runbook Runbook 就是告警处理手册,也就是告警触发之后,应该细化排查哪些方面,按照一个什么方式执行动 作,应该有一个手册参考。如果 个告警的意义就不大了。在 Nightingale 的告警规则配置页面,可以看到一个专门的 Runbook 配置,Grafana 的告警配置页面, 也有一个 Runbook 的选项,就能看出他们对它的重视程度。 这个原则看起来是不是很合理?但是真要落地的时候,又会发现紧急需要处理的告警事件通常容易对应 Runbook,但是有些告警规则产生的告警确实没有那么紧急,有些只是想作为一个通知,好像又确实难以 的事情,不至于总是被告警打断。 排班系统通常不开源,通常是作为事件中心的一个功能,PagerDuty 就提供了排班能力,即使没有系统 支持,也建议人为制定一个排班表,把这个制度落实下去,对告警闭环处理也会有很大帮助。 值班人员在值班期间,虽然已经高度重视了,但也难免疏漏,这就需要告警升级机制了。 告警升级机制 告警升级是指在第一责任人收到告警之后没有及时响应,然0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通PromQL 从⼊⻔到精通 对于 Prometheus 生态的监控系统,PromQL 是必备技能,本文着重点讲解这个查询语言,掺 杂一些生产实践场景,希望对你有所帮助。 ? 本文作者:秦晓辉,Open-Falcon、Nightingale 等开源项目创始人之一,极客时间《运 维监控系统实战笔记》作者;当前在创业(快猫星云联创),为客户提供监控/可观测性产品 方案,有需求的朋友欢迎联系我的微信 ,就要放到服务端来实现了,所以服务 端必须要能对这种类型的数据建模抽象,也就是所谓的 Counter 类型。 时序数据 PromQL 就是查询时序数据的一种 Query Language,要想对 PromQL 有了解,得先搞清楚时 序数据。 认识时序数据 我们先来看一张图,图上是 5 台机器的内存可用率: 每个机器的内存可用率数据,体现为图上的一条线,我们称为 series,某个机器在某一时刻的内_over_time 这类聚合函数和聚合运算章节提供的sum、avg等聚合运算符非常像,容易混淆,着重做一个说 明,比如avg,参数是instant-vector,是在同一时刻,对多个series的多个值求平均,而 avg_over_time,参数是 range-vector,是根据指定的时间范围,求取时间范围内的多个值的 平均。 比如 avg_over_time(mem 0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













