告警OnCall事件中心建设方法白皮书
OK,接下来就是通知给谁以及如何通知的问题了。比如通知某个人或者通知某个团队,也可以通知某个 值班表,值班表的值班人接收告警。不同的严重程度的告警,还可以有不同的通知媒介,比如飞书、钉 钉、企微、电话、短信、邮箱等。 通知了之后,相关的人可能没注意到,可以配置重复通知,比如 10 分钟之后再次通知。如果多次通知, 接收人一直没有响应,就要启动升级策略了,比如 30 分钟后,告警仍然没有恢复而且没有被人工处理, 95%,此时就只会发送 Critical 的事件,Info 的就被忽略了。 相关策略配置好之后,就可以收告警了,比如利用钉钉发送,会呈现为一张告警消息卡片: 我们可以直接在钉钉(或飞书、企微等 IM)内部点击跟进,或直接关闭、临时屏蔽,方便地移动办公。 当然,也可以登录 FlashDuty,在 WEB 上查看,需要有个非常直观的页面告诉用户您当前有哪些告 警,分成了几类,每一类有多少条之类的。 另外,FlashDuty 不但提供了故障视图,还直接提供了告警视图,两个视图都有两种展示方式:列表展示 方式、聚合展示方式,方便您查看处理。 另外,FlashDuty 提供了和 IM(飞书、企微、钉钉等)深度集成,用户无需使用电脑,在手机上就可以 快速查看故障/告警信息,比如在路上,赶去拿电脑的过程中,就可以提前快速了解相关信息,极大提升 故障排查、止损效率。 告警/故障处理0 码力 | 23 页 | 1.75 MB | 1 年前3
1.6 利用夜莺扩展能力打造全方位监控系统com/didi/nightingale 官网:https://n9e.didiyun.com/ Nightingale 众多企业已上生产,共同打磨夜莺 上图展示部分社区用户,加入夜莺社群,请联系微信:UlricQin Nightingale 众多企业已上生产,共同打磨夜莺 Server01 Server02 Agentd Agentd LoadBalance 1. 单机版Prom0 码力 | 40 页 | 3.85 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享核⼼心功能 API⽹网关 服务树 告警收敛 屏蔽规则 事件管理理 告警渠道 报表系统 ⼯工单系统 鉴权 频控 标准化 时间维度 业务维度 关联关系 rms 告警升级 企业微信 钉钉 邮件 短信 ACK应答 屏蔽 告警等级 对应处理理⽅方式 监控系统 其他系统 告警中⼼心 告警源 meta信息 获取业务信息 获取关联关系 告警统计 有意思的尝试0 码力 | 34 页 | 650.25 KB | 1 年前3
PromQL 从入门到精通本文作者:秦晓辉,Open-Falcon、Nightingale 等开源项目创始人之一,极客时间《运 维监控系统实战笔记》作者;当前在创业(快猫星云联创),为客户提供监控/可观测性产品 方案,有需求的朋友欢迎联系我的微信 picobyte。 数据类型 Prometheus 有四种数据类型:Gauge、Counter、Histogram、Summary,其中最关键的是 Gauge 和 Counter,Histogram0 码力 | 16 页 | 2.77 MB | 1 年前3
共 4 条
- 1













