告警OnCall事件中心建设方法白皮书
关的人,这个 时候就可以在故障下面添加评论,其他人就可以及时看到。等到止损之后,大家还要根据故障时间线复 盘,产出一系列跟进项,这个时候就需要这个故障管理模块具备跟进项管理的功能,或者至少能够跟任务 管理系统良好打通。 有了这样一个故障协同的机制之后,故障被处理掉的概率就大幅提升了,后续再配合一些运营统计手段, 统计各个团队的平均故障止损时间,建立红黑榜,大家就会有更高的热情来处理故障。当然,人的热情再 的事件,Info 的就被忽略了。 相关策略配置好之后,就可以收告警了,比如利用钉钉发送,会呈现为一张告警消息卡片: 我们可以直接在钉钉(或飞书、企微等 IM)内部点击跟进,或直接关闭、临时屏蔽,方便地移动办公。 当然,也可以登录 FlashDuty,在 WEB 上查看,需要有个非常直观的页面告诉用户您当前有哪些告 警,分成了几类,每一类有多少条之类的。 告警/故障查看 就可以提前快速了解相关信息,极大提升 故障排查、止损效率。 告警/故障处理 通常,我们并不会基于告警来做协同,更多的是基于故障来做协同。点击某个故障,可以看到故障详情, 会有认领、关闭、合并故障、评论等相关操作,示例图如下: 对于一些大故障,跨多个团队,拉齐信息是非常关键的,如果有某个团队发现了一些线索,可以通过评论 的方式让其他团队快速知悉,新进的故障处理人员0 码力 | 23 页 | 1.75 MB | 1 年前3
共 1 条
- 1













