B站统⼀监控系统的设计,演进
与实践分享cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点 现状: • 性能 • ⾼高可⽤用 • 分布式 • 使⽤用成本 问题: ? 性能问题 • 本地ssd prometheus Shard A prometheus Shard B prometheus Shard C targets hash Federation pr s s s pr I pr s s s pr I IDC1 IDC2 prometheus prometheus filter数据 精度降低 建议 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 target target target IDC_2 获取 监控⽬目标 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生0 码力 | 34 页 | 650.25 KB | 1 年前3
 PromQL 从入门到精通的那个请求, 其延迟数据是11秒,而这里算出13秒,显然与现实不符,不符也没办法,这本来就是个预估 值,知道大概数量级就可以了,还是那句话,监控数据是采样数据,这么计算虽然不是那么准 确,但是成本低。 实际上,我们基于某个指标的历史所有数据计算分位值,意义不大,通常我们是基于最近一段时 间的增量数据来计算,比如基于10分钟区间的增量数据计算,就可以较为方便的知道,当前这 个10分钟的延0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1
 













