告警OnCall事件中心建设方法白皮书
统一的 OnCall 中心功能更强大,我们留待工具实践篇再详细阐述。 接下来我们聊一下“告警疏漏、无法闭环”的问题,核心就是告警发出来得有人处理,所谓的闭环,就是 指告警发出、认领、协作处理、问题恢复、复盘改进的整个过程。 虽然事件降噪的几个手段落实之后,事件数量确实变少了,但是处理告警事件显然不是一个让人愉快的事 情,不愉快的事情就要团队共担,所以第一个手段就是排班,专人做专事。 度,来讲解产品设计逻辑和实践方法,会更容易理解。 空间管理 通常来讲,一个公司不但会使用多个监控系统,而且会有很多个团队,如果所有的告警事件都在一个地方 查看、管理,就会相互打扰。所以,OnCall 中心首先要设计一个协作空间的概念,来归类处理不同的事 件,比如根据团队划分,或者根据系统、子系统划分。FlashDuty 第一个菜单就是协作空间,就是这个设 计初衷。 比如我们 比如我们团队是负责公司的支付系统,我们就可以创建一个以“支付”命名的协作空间。之后把支付团队 相关的告警都接入这个协作空间,支付团队可能用了 Zabbix、Prometheus 等多个监控系统,所以, OnCall 这个产品需要提供多种数据集成方式,让告警事件很方便地上报上来。 集成中心 比如要接入 Prometheus 的告警事件,就需要创建一个 Prometheus 类型的集成(Integration),要接0 码力 | 23 页 | 1.75 MB | 1 年前3
共 1 条
- 1













