B站统⼀监控系统的设计,演进
与实践分享慢请求量量 > 10k/s 固定阈值 告警阈值需要随着流量量变化⽽而调整 wrong 建议: 告警规则: 业务A 慢请求⽐比例例 > 80% 案例例2 告警规则: 磁盘容量量可⽤用率 <10% 告警规则: 磁盘容量量预计将于3⼩小时后饱和 0 now -1h +3h predict_linear(node_filesystem_free{}[1h], 3 * 3600) < 0 异常检测 • 全联路路模块调⽤用分析 • 瓶颈分析 针对历史事件 针对当前事件 • 异常检查(动态阈值) • 异常定位(根因分析) • 快速⽌止损 针对未来事件 • 故障预测 • 容量量预测 • 趋势预测 Thank You! 哔哩哔哩 - ( ゜- ゜)つロ 乾杯~ - bilibili0 码力 | 34 页 | 650.25 KB | 1 年前3
共 1 条
- 1













