pdf文档 B站统⼀监控系统的设计,演进 与实践分享

650.25 KB 34 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档介绍了B站统一监控系统的设计与演进。面对技术栈多样、产品模块复杂、业务快速增长等挑战,B站建设了完整的监控体系,包括基础层、应用层和业务层,覆盖虚拟机、物理设备、容器、专线质量、机房出口质量等基础设施,以及Cache、DB、MQ等应用资源。同时,系统提供了播放质量、客户端质量等业务监控,并采用Prometheus进行时间序列数据管理。文档还提到了告警策略的优化,包括告警等级、处理方式以及多样化的通知渠道,如企业微信、钉钉、邮件和短信。
AI总结
《B站统一监控系统的设计、演进与实践分享》 讲者:梁晓聪(B站DevOps,2015年加入,热爱新技术与开源)。 ### 故事的开始 B站曾因业务增长迅速导致系统监控问题频发,例如舆情监控失控、告警风暴等,暴露了监控系统的不足。 ### 当前挑战 - **技术栈多样**:系统复杂,监控难度大。 - **业务爆发式增长**:监控需求激增。 - **运维要求高**:对系统稳定性和响应速度要求高。 ### 当前情况 - **覆盖率低**:监控范围有限。 - **误报与漏报多**:告警准确性不足。 - **告警风暴**:告警量大且杂乱,难以处理。 --- ### 解决方案:重新定义监控系统 目标: 1. **完整的监控体系**:覆盖所有关键环节。 2. **科学的告警策略**:减少误报与漏报,优化告警处理。 3. **统一的告警中心**:整合所有告警信息,提升效率。 #### 监控体系结构 1. **基础层**: - 物理设备、虚拟机、容器、专线质量、机房出口、交换设备。 - 监控项:HTTP、TCP、Ping等。 2. **应用层**: - Cache、DB、MQ、LB、ES、分布式文件系统、进程监控。 3. **业务层**: - QPS、TPS、耗时分布、饱和度、吞吐量、依赖响应、缓存命中率、调用链、SLA、日志。 4. **播放质量**: - 点播/直播、播放卡顿、平均首帧、播放失败率、弹幕加载、CDN质量。 5. **客户端质量**: - 用户端网络质量、劫持情况、崩溃与卡顿、返回码、响应时间、错误率。 #### 监控手段 - **服务端监控**:时间序列数据、日志处理流、自研解决方案。 - **用户端监控**:APM(自研)、播放器Metric方案。 #### Metric数据特征 - **数据类型**:Counter、Gauge等。 - **特征**:具有统计特性和规律性。 #### 选型原则 - 基于开源方案,二次开发。 - 具备现代时间序列数据库特性。 - 活跃项目,成熟生态环境。 #### 结论 - **Prometheus**:支持任意维度Label,CNCF基金会项目,频控标准化,支持时间和业务维度。 --- ### 未来规划 - 完成监控系统的扩展和优化。 -覆盖更多业务场景,提升告警处理效率。 - 提供全面的监控支持,确保系统稳定性与用户体验。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 27 页请下载阅读 -
文档评分
请文明评论,理性发言.