告警OnCall事件中心建设方法白皮书
Warning 短信、即时消息、邮件 无需立刻处理,但是如果不处理,时间久了就会 演化为 Critical 的问题,可以先放入 TODO 列 表,手头上的紧急事务搞定之后就去处理 Info 邮件 每天下班前稍微看一眼,偶尔一两天忘了看也无 伤大雅 另外,如果 Critical 的告警规则很多,大概率也有问题,说明系统架构不够鲁棒,出点什么事都要立刻介 入,系统没有 抑制规则 典型的场景是 Critical 的告警抑制同类的 Warning、Info 的告警。比如产生了两个告警事件,一个是 Info 事件:机器的内存使用率超过 70%,另一个是 Critical 事件:机器的内存使用率超过 90%,实际 机器的内存使用率已经 95%,此时就只会发送 Critical 的事件,Info 的就被忽略了。 相关策略配置好之后,就可以收告警了,比如0 码力 | 23 页 | 1.75 MB | 1 年前3
OpenMetrics - Standing on the shoulders of TitansThanks for listening! Questions? Email me if you want a job in Munich. See slide footer for contact info. Richard Hartmann, RichiH@{freenode,OFTC,IRCnet}, richih@{fosdem,debian,richih}.org, @TwitchiH OpenMetrics0 码力 | 21 页 | 84.83 KB | 1 年前3
共 2 条
- 1













