搜索

pdf文档 B站统⼀监控系统的设计,演进 与实践分享

650.25 KB 34 页 12 下载 322 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档详细介绍了B站统一监控系统的设计、演进与实践。面对技术栈多、业务爆发式增长带来的监控问题,B站重新定义了监控体系,涵盖用户端、服务端、客户端、播放质量、业务层、应用层和基础层等多方面。通过科学的告警策略和完整的监控体系,解决了监控覆盖率低、误报漏报多、告警风暴等问题,确保了系统的稳定性和高效运维。
AI总结
## 文档总结 ### 一、背景与挑战 - **业务特点**: - 业务快速增长,技术栈多样,模块复杂。 - 运维要求高,系统规模大。 - **监控问题**: - 覆盖率低,误报、漏报多。 - 告警风暴频发,影响运维效率。 ### 二、监控体系设计 - **目标**: - 建立统一、科学的监控系统,提升告警准确性,降低误报率。 - **监控层次**: - **用户端监控**:网络质量、劫持情况、崩溃、卡顿、响应时间、错误率等。 - **客户端质量**:播放卡顿、平均首帧、失败率、弹幕加载、CDN质量等。 - **业务层监控**:QPS/TPS、耗时分布、饱和度、吞吐量、依赖响应、缓存命中率、调用链、SLA等。 - **应用层监控**:Cache、DB、MQ、LB、ES、分布式文件、进程监控等。 - **基础层监控**:虚拟机、物理设备、容器、专线质量、机房出口质量、交换设备(HTTP、TCP、PING)等。 - **告警策略**: - 采用科学的告警策略,避免无效告警。 - 建立统一的告警中心,实现告警的集中管理与处理。 ### 三、系统推进与实践 - **监控场景与手段对应**: - **服务端监控**: - **Metric类型**:时间序列数据。 - **日志类型**:日志处理流。 - **自定义类型**:自研工具。 - **客户端监控**: - **用户端**:自研APM。 - **播放器**:自研工具。 - **总结**: - B站通过统一监控系统的建设,解决了监控覆盖率低、误报漏报多、告警风暴等问题。 - 监控系统的科学设计与实践,为业务的稳定运行提供了有力保障。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 27 页请下载阅读 -
文档评分
请文明评论,理性发言.