告警OnCall事件中心建设方法白皮书
标。很明显,这两个告警事件是有关联关系的,指代的是一个问题,只是时间戳不同,这样的两个 event,就可以收敛为一个 alert。 从实现上来说,告警策略(也称告警规则)+ 指标标签集的哈希值,可以作为 alert 的唯一标识。比如 刚才的例子,告警策略的 ID 假设为 32,标签集是:[“name=cpu_usage_idle”, “host=host1”], 这两个时间戳产生的告警事件,哈希值都是一样的。 来过滤告警事件,把过滤到的告警事件订阅到“私有云”协作空间。 排除规则 告警事件进入协作空间之后,有些特殊的告警事件想要丢弃掉,即可使用排除规则实现,配置位置就在订 阅规则下面,这里不再赘述。 分派策略 告警事件进入 FlashDuty,会自动收敛,目前采用三级收敛:event -> alert -> incident,具体逻辑可 以参考:【思路方法篇】-【告警收敛逻辑】章节。这样的三级收敛机制,会有非常好的降噪效果,大幅减 知媒介,比如飞书、钉 钉、企微、电话、短信、邮箱等。 通知了之后,相关的人可能没注意到,可以配置重复通知,比如 10 分钟之后再次通知。如果多次通知, 接收人一直没有响应,就要启动升级策略了,比如 30 分钟后,告警仍然没有恢复而且没有被人工处理, 则升级到下一个通知环节(通知环节可以有多个)。 通知的触发,最为推荐的是值班表(OnCall 排班是践行 SRE 的有效手段),其次是团队(团队可以降低人0 码力 | 23 页 | 1.75 MB | 1 年前3B站统⼀监控系统的设计,演进 与实践分享
• 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp • 邮件 短信 ACK应答 屏蔽 告警等级 对应处理理⽅方式 监控系统 其他系统 告警中⼼心 告警源 meta信息 获取业务信息 获取关联关系 告警统计 有意思的尝试 科学的告警策略略 科学? machine learning? deep learning? 不不要盲⽬目的使⽤用机器器学习 先让告警有意义 可读的 • 时间 • 源头 • 规则 • 影响0 码力 | 34 页 | 650.25 KB | 1 年前3PromQL 从入门到精通
PromQL 从⼊⻔到精通 对于 Prometheus 生态的监控系统,PromQL 是必备技能,本文着重点讲解这个查询语言,掺 杂一些生产实践场景,希望对你有所帮助。 ? 本文作者:秦晓辉,Open-Falcon、Nightingale 等开源项目创始人之一,极客时间《运 维监控系统实战笔记》作者;当前在创业(快猫星云联创),为客户提供监控/可观测性产品 方案,有需求的朋友欢迎联系我的微信 。 更多函数就不过多介绍了,相对容易理解,参考 Prometheus 官方文档即可。最后扩展介绍一 个 MetricsQL(MetricsQL 是 VictoriaMetrics 提供的一种查询语言,兼容 PromQL 并对其做 了增强,如果你的存储是 VictoriaMetrics,则可以使用这些扩展函数) 中的扩展函数。 count_gt_over_time 假设原始需求:某个指标(0 码力 | 16 页 | 2.77 MB | 1 年前31.6 利用夜莺扩展能力打造全方位监控系统
监控数据采集,all in one的agentd Agentd 进程存 活 端口监 控 插件脚 本 日志监 控 网络设 备 中间件 类 数据库 类 • 支持在web上配置采集策略,不同的采集可以指定 不同的探针机器、目标机器,便于管理和知识传 承 • 独创在端上流式读取日志,根据正则提取指标的 机制,轻量易用,无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设0 码力 | 40 页 | 3.85 MB | 1 年前3
共 4 条
- 1