分布式架构 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

4 【王琼】容器监控架构演进王琼 YY直播

参考文档：https://valyala.medium.com/prometheus-vs-victoriametrics-benchmark-on-node-exporter-metrics-4ca29c75590f 总体架构总体架构 T H A N K S !

0 码力 | 23 页 | 2.17 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层应⽤用层 • cache资源 • db资源 • mq资源 • lb资源 • es资源 • 分布式⽂文件 • 进程监控业务层 • qps/tps • 耗时分布 • 饱和度 • 吞吐量量 • 依赖响应 • 缓存命中率 • 调⽤用链 • SLA • ⽇日志播放质量量 • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点现状: • 性能 • ⾼高可⽤用 • 分布式 • 使⽤用成本问题: ? 性能问题 • 本地ssd prometheus Shard A prometheus Shard B prometheus Shard C targets

0 码力 | 34 页 | 650.25 KB | 1 年前
3
告警OnCall事件中心建设方法白皮书

的告警规则很多，大概率也有问题，说明系统架构不够鲁棒，出点什么事都要立刻介入，系统没有自愈能力。这样的系统，需要配备更多运维人员，而且还很难跟老板讲清楚价值。怎么办？这就需要制定运维准入规则，哪个系统要交给运维人员来运维，首先要提供一些信息。 ● 相关联系人，出了问题能够及时找到人，联系不上的话得能直接联系研发领导。 ● 服务相关信息，比如代码仓库、系统架构、依赖哪些服务、依赖哪些系统参数、哪些数、哪些 JVM 参数、常见问题还有处理办法等等。然后进行准入评审及准入测试，如果系统架构有明显问题，就没办法通过准入要求，不接受运维，如果老板要求必须接，那就只能加人了，或者明确说明在架构调整好之前，不负责 SLA，反推业务改造。上面介绍的两个告警规则优化原则，是最重要的两个原则。照做的话，可以搞定大部分无效告警。除了原则方面，另一个应对过多告警的方法

0 码力 | 23 页 | 1.75 MB | 1 年前
3

共 3 条前往

页

王琼容器监控架构演进 YY 直播系统设计实践分享告警 OnCall 事件中心建设方法白皮皮书白皮书

分类

语言

格式

4 【王琼】容器监控架构演进王琼 YY直播

B站统⼀监控系统的设计,演进与实践分享

告警OnCall事件中心建设方法白皮书

分类

语言

格式

4 【王琼】容器监控架构演进 王琼 YY直播

B站统⼀监控系统的设计,演进 与实践分享

告警OnCall事件中心建设方法白皮书

4 【王琼】容器监控架构演进王琼 YY直播

B站统⼀监控系统的设计,演进与实践分享