B站统⼀监控系统的设计,演进 与实践分享
告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 降低使⽤用成本 agent prometheus target target target alert_manager 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 1. 降低编写规则的成本 降低使⽤用成本 agent prometheus target target 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 1. 降低编写规则的成本 2. 降低多idc维护成本 规则管理理⻚页⾯面 例例⼦子 - 业务监控 稿件0 码力 | 34 页 | 650.25 KB | 1 年前31.6 利用夜莺扩展能力打造全方位监控系统
01.监控数据采集,all in one的agentd Agentd 进程存 活 端口监 控 插件脚 本 日志监 控 网络设 备 中间件 类 数据库 类 • 支持在web上配置采集策略,不同的采集可以指定 不同的探针机器、目标机器,便于管理和知识传 承 • 独创在端上流式读取日志,根据正则提取指标的 机制,轻量易用,无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设0 码力 | 40 页 | 3.85 MB | 1 年前3告警OnCall事件中心建设方法白皮书
用钉钉发送,会呈现为一张告警消息卡片: 我们可以直接在钉钉(或飞书、企微等 IM)内部点击跟进,或直接关闭、临时屏蔽,方便地移动办公。 当然,也可以登录 FlashDuty,在 WEB 上查看,需要有个非常直观的页面告诉用户您当前有哪些告 警,分成了几类,每一类有多少条之类的。 告警/故障查看 OnCall 中心需要对接各类监控系统,同一时间可能会有很多告警事件发到0 码力 | 23 页 | 1.75 MB | 1 年前3
共 3 条
- 1