B站统⼀监控系统的设计,演进
与实践分享机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层 应⽤用层 • cache资源 • db资源 • mq资源 • lb资源 • es资源 • 分布式⽂文件 • 进程监控 业务层 • qps/tps • 耗时分布 • 饱和度 • 吞吐量量 • 依赖响应 • 缓存命中率 • 调⽤用链 • SLA • ⽇日志 播放质量量 ⾃自定义类型 ⼿手段 时间序列列数据 ⽇日志处理理流 ⾃自研 ⽤用户端监控 apm ⾃自研 客户端 播放器器 如何推进? 服务端监控 场景 分析监控场景对应监控⼿手段 类型 metric类型 ⽇日志类型 ⾃自定义类型 ⼿手段 时间序列列数据 ⽇日志处理理流 ⾃自研 ⽤用户端监控 apm ⾃自研 客户端 播放器器 metric⽅方案选型 • 能覆盖⼤大部分监控场景0 码力 | 34 页 | 650.25 KB | 1 年前3
1.6 利用夜莺扩展能力打造全方位监控系统国产开源监控产品相对比较匮乏,夜莺希望重新定义国产开 源监控,支持云原生监控,经受了滴滴大规模生产检验 Nightingale 夜莺是新一代国产智能监控平台,既可以解决传统物理机虚拟机的场景,也可以解 决容器的场景。衍生自Open-Falcon和滴滴Odin监控,经受了包括小米、美团、滴滴 在内的数百家企业的生产环境验证,简单可依赖,好用到爆! 3500+ 600+ 500+ star issue fork 项目:https://github0 码力 | 40 页 | 3.85 MB | 1 年前3
OpenMetrics - Standing on the shoulders of Titansstatement Goldrush So about fragmentation... Cloud native is in the buzz phase Explosive growth always equals goldrush and stake claiming, aka fragmentation I don’t have a profit motive, so I can easily decide decide to try and consolidate this space without profit loss ..so that’s what I decided to do Richard Hartmann, RichiH@{freenode,OFTC,IRCnet}, richih@{fosdem,debian,richih}.org, @TwitchiH OpenMetrics0 码力 | 21 页 | 84.83 KB | 1 年前3
Intro to Prometheus - With a dash of operations & observabilityan alert Important but non-urgent incidents are handled during business hours Predict your usage so you add capacity during business hours If there’s no playbook, it does not go into production If Operations & observability Outro Post-Mortems Mistakes happen It is important to learn from mistakes so not to repeat them To write a good incident report, there must be no fear of retribution Blame-free0 码力 | 19 页 | 63.73 KB | 1 年前3
Prometheus Deep Dive - Monitoring. At scale.Deep Dive Introduction Intro 2.0 to 2.2.1 2.4 - 2.6 Beyond Outro Cloudy with a chance of buzzwords So it’s built with highly dynamic environments in mind It’s the second project to ever join CNCF and0 码力 | 34 页 | 370.20 KB | 1 年前3
共 5 条
- 1













