告警OnCall事件中心建设方法白皮书
么办? 这就需要制定运维准入规则,哪个系统要交给运维人员来运维,首先要提供一些信息。 ● 相关联系人,出了问题能够及时找到人,联系不上的话得能直接联系研发领导。 ● 服务相关信息,比如代码仓库、系统架构、依赖哪些服务、依赖哪些系统参数、哪些 JVM 参数、常 见问题还有处理办法等等。 然后进行准入评审及准入测试,如果系统架构有明显问题,就没办法通过准入要求,不接受运维,如果老 提升 故障排查、止损效率。 告警/故障处理 通常,我们并不会基于告警来做协同,更多的是基于故障来做协同。点击某个故障,可以看到故障详情, 会有认领、关闭、合并故障、评论等相关操作,示例图如下: 对于一些大故障,跨多个团队,拉齐信息是非常关键的,如果有某个团队发现了一些线索,可以通过评论 的方式让其他团队快速知悉,新进的故障处理人员也可以通过这些评论以及故障关联的告警快速得知故障0 码力 | 23 页 | 1.75 MB | 1 年前3
共 1 条
- 1













