| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 摘要 | ||
文档详细介绍了B站统一监控系统的设计、演进与实践。面对技术栈多、业务爆发式增长带来的监控问题,B站重新定义了监控体系,涵盖用户端、服务端、客户端、播放质量、业务层、应用层和基础层等多方面。通过科学的告警策略和完整的监控体系,解决了监控覆盖率低、误报漏报多、告警风暴等问题,确保了系统的稳定性和高效运维。 | ||
| AI总结 | ||
## 文档总结
### 一、背景与挑战
- **业务特点**:
- 业务快速增长,技术栈多样,模块复杂。
- 运维要求高,系统规模大。
- **监控问题**:
- 覆盖率低,误报、漏报多。
- 告警风暴频发,影响运维效率。
### 二、监控体系设计
- **目标**:
- 建立统一、科学的监控系统,提升告警准确性,降低误报率。
- **监控层次**:
- **用户端监控**:网络质量、劫持情况、崩溃、卡顿、响应时间、错误率等。
- **客户端质量**:播放卡顿、平均首帧、失败率、弹幕加载、CDN质量等。
- **业务层监控**:QPS/TPS、耗时分布、饱和度、吞吐量、依赖响应、缓存命中率、调用链、SLA等。
- **应用层监控**:Cache、DB、MQ、LB、ES、分布式文件、进程监控等。
- **基础层监控**:虚拟机、物理设备、容器、专线质量、机房出口质量、交换设备(HTTP、TCP、PING)等。
- **告警策略**:
- 采用科学的告警策略,避免无效告警。
- 建立统一的告警中心,实现告警的集中管理与处理。
### 三、系统推进与实践
- **监控场景与手段对应**:
- **服务端监控**:
- **Metric类型**:时间序列数据。
- **日志类型**:日志处理流。
- **自定义类型**:自研工具。
- **客户端监控**:
- **用户端**:自研APM。
- **播放器**:自研工具。
- **总结**:
- B站通过统一监控系统的建设,解决了监控覆盖率低、误报漏报多、告警风暴等问题。
- 监控系统的科学设计与实践,为业务的稳定运行提供了有力保障。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
27 页请下载阅读 -
文档评分














B站统⼀监控系统的设计,演进
与实践分享