B站统⼀监控系统的设计,演进
与实践分享
                
  
              650.25 KB
             
              34 页
               
              0 评论
              
| 语言 | 格式 | 评分 | 
|---|---|---|
中文(简体)  | .pdf  | 3  | 
| 摘要 | ||
文档介绍了B站统一监控系统的设计与演进。面对技术栈多样、产品模块复杂、业务快速增长等挑战,B站建设了完整的监控体系,包括基础层、应用层和业务层,覆盖虚拟机、物理设备、容器、专线质量、机房出口质量等基础设施,以及Cache、DB、MQ等应用资源。同时,系统提供了播放质量、客户端质量等业务监控,并采用Prometheus进行时间序列数据管理。文档还提到了告警策略的优化,包括告警等级、处理方式以及多样化的通知渠道,如企业微信、钉钉、邮件和短信。  | ||
| AI总结 | ||
《B站统一监控系统的设计、演进与实践分享》  
讲者:梁晓聪(B站DevOps,2015年加入,热爱新技术与开源)。  
### 故事的开始  
B站曾因业务增长迅速导致系统监控问题频发,例如舆情监控失控、告警风暴等,暴露了监控系统的不足。  
### 当前挑战  
- **技术栈多样**:系统复杂,监控难度大。  
- **业务爆发式增长**:监控需求激增。  
- **运维要求高**:对系统稳定性和响应速度要求高。  
### 当前情况  
- **覆盖率低**:监控范围有限。  
- **误报与漏报多**:告警准确性不足。  
- **告警风暴**:告警量大且杂乱,难以处理。  
---
### 解决方案:重新定义监控系统  
目标:  
1. **完整的监控体系**:覆盖所有关键环节。  
2. **科学的告警策略**:减少误报与漏报,优化告警处理。  
3. **统一的告警中心**:整合所有告警信息,提升效率。  
#### 监控体系结构  
1. **基础层**:  
   - 物理设备、虚拟机、容器、专线质量、机房出口、交换设备。  
   - 监控项:HTTP、TCP、Ping等。  
2. **应用层**:  
   - Cache、DB、MQ、LB、ES、分布式文件系统、进程监控。  
3. **业务层**:  
   - QPS、TPS、耗时分布、饱和度、吞吐量、依赖响应、缓存命中率、调用链、SLA、日志。  
4. **播放质量**:  
   - 点播/直播、播放卡顿、平均首帧、播放失败率、弹幕加载、CDN质量。  
5. **客户端质量**:  
   - 用户端网络质量、劫持情况、崩溃与卡顿、返回码、响应时间、错误率。  
#### 监控手段  
- **服务端监控**:时间序列数据、日志处理流、自研解决方案。  
- **用户端监控**:APM(自研)、播放器Metric方案。  
#### Metric数据特征  
- **数据类型**:Counter、Gauge等。  
- **特征**:具有统计特性和规律性。  
#### 选型原则  
- 基于开源方案,二次开发。  
- 具备现代时间序列数据库特性。  
- 活跃项目,成熟生态环境。  
#### 结论  
- **Prometheus**:支持任意维度Label,CNCF基金会项目,频控标准化,支持时间和业务维度。  
---
### 未来规划  
- 完成监控系统的扩展和优化。  
-覆盖更多业务场景,提升告警处理效率。  
- 提供全面的监控支持,确保系统稳定性与用户体验。  | ||
 P1 
 P2 
 P3 
 P4 
 P5 
 P6 
 P7 
下载文档到本地,方便使用
    
                - 可预览页数已用完,剩余
                27 页请下载阅读 -
              
文档评分 
  












