B站统⼀监控系统的设计,演进
与实践分享
650.25 KB
34 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档介绍了B站统一监控系统的设计与演进。面对技术栈多样、产品模块复杂、业务快速增长等挑战,B站建设了完整的监控体系,包括基础层、应用层和业务层,覆盖虚拟机、物理设备、容器、专线质量、机房出口质量等基础设施,以及Cache、DB、MQ等应用资源。同时,系统提供了播放质量、客户端质量等业务监控,并采用Prometheus进行时间序列数据管理。文档还提到了告警策略的优化,包括告警等级、处理方式以及多样化的通知渠道,如企业微信、钉钉、邮件和短信。 | ||
AI总结 | ||
《B站统一监控系统的设计、演进与实践分享》
讲者:梁晓聪(B站DevOps,2015年加入,热爱新技术与开源)。
### 故事的开始
B站曾因业务增长迅速导致系统监控问题频发,例如舆情监控失控、告警风暴等,暴露了监控系统的不足。
### 当前挑战
- **技术栈多样**:系统复杂,监控难度大。
- **业务爆发式增长**:监控需求激增。
- **运维要求高**:对系统稳定性和响应速度要求高。
### 当前情况
- **覆盖率低**:监控范围有限。
- **误报与漏报多**:告警准确性不足。
- **告警风暴**:告警量大且杂乱,难以处理。
---
### 解决方案:重新定义监控系统
目标:
1. **完整的监控体系**:覆盖所有关键环节。
2. **科学的告警策略**:减少误报与漏报,优化告警处理。
3. **统一的告警中心**:整合所有告警信息,提升效率。
#### 监控体系结构
1. **基础层**:
- 物理设备、虚拟机、容器、专线质量、机房出口、交换设备。
- 监控项:HTTP、TCP、Ping等。
2. **应用层**:
- Cache、DB、MQ、LB、ES、分布式文件系统、进程监控。
3. **业务层**:
- QPS、TPS、耗时分布、饱和度、吞吐量、依赖响应、缓存命中率、调用链、SLA、日志。
4. **播放质量**:
- 点播/直播、播放卡顿、平均首帧、播放失败率、弹幕加载、CDN质量。
5. **客户端质量**:
- 用户端网络质量、劫持情况、崩溃与卡顿、返回码、响应时间、错误率。
#### 监控手段
- **服务端监控**:时间序列数据、日志处理流、自研解决方案。
- **用户端监控**:APM(自研)、播放器Metric方案。
#### Metric数据特征
- **数据类型**:Counter、Gauge等。
- **特征**:具有统计特性和规律性。
#### 选型原则
- 基于开源方案,二次开发。
- 具备现代时间序列数据库特性。
- 活跃项目,成熟生态环境。
#### 结论
- **Prometheus**:支持任意维度Label,CNCF基金会项目,频控标准化,支持时间和业务维度。
---
### 未来规划
- 完成监控系统的扩展和优化。
-覆盖更多业务场景,提升告警处理效率。
- 提供全面的监控支持,确保系统稳定性与用户体验。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
27 页请下载阅读 -
文档评分