告警OnCall事件中心建设方法白皮书
员,我们应该怎么处理?我的建议是分产品线统计一个指标:“Runbook 预置率”,就是各个产品线有 多少告警规则配置了 Runbook,有多少没有配置,这个比例要统计出来,然后做成红黑榜,让大家去治 理,治理一段时间之后有经验了,知道预置率大概在一个什么范围是合理的,然后就可以要求大家至少达 到预置率下限的值。否则,就一定是有问题的。 Runbook 这个配置原则,是我最为推荐的原则,效果非常明显,其次就是告警分级原则。 如上,是从思路方法层面,对事件的处理做了逻辑讲解。要求所有的监控系统实现这些能力不太现实,而 且会造成一个一个的事件孤岛,所以典型的做法是把所有监控系统生成的事件统一聚合到一个平台来处 理,这就是 OnCall 中心,下面我们以 FlashDuty 来举例,讲解 OnCall 中心的工具实践。 工具实践篇 称手好用的工具是可以大幅提升效率的,同时,好的工具可以沉淀最佳实践,沉淀经验,假设由你来设计 总结 告警事件的后续处理,不只是发往各个通知媒介那么简单。涉及到收敛、降噪、排班、认领、升级、协 同、IM 打通 等非常多的细节功能,各个监控系统通常不会在这个方面发力,但是告警的统一处理又是非 常强的需求,故而,我们推荐您使用 FlashDuty 来处理。下面是 FlashDuty 相关信息: ● 注册地址:https://console.flashcat.cloud/signup0 码力 | 23 页 | 1.75 MB | 1 年前3
共 1 条
- 1













