B站统⼀监控系统的设计,演进
与实践分享机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层 应⽤用层 • cache资源 • db资源 • mq资源 • lb资源 • es资源 • 分布式⽂文件 • 进程监控 业务层 • qps/tps • 耗时分布 • 饱和度 • 吞吐量量 • 依赖响应 • 缓存命中率 • 调⽤用链 • SLA • ⽇日志 播放质量量 • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点 现状: • 性能 • ⾼高可⽤用 • 分布式 • 使⽤用成本 问题: ? 性能问题 • 本地ssd prometheus Shard A prometheus Shard B prometheus Shard C targets0 码力 | 34 页 | 650.25 KB | 1 年前3
PromQL 从入门到精通2022-08-25 15:48:03 这个时 刻,未必恰好有监控数据啊,那这个 Table 中的数据是哪里来的? 实际上,Prometheus 有个启动参数,--query.lookback-delta=2m 来控制这个行为,如果配 置为 2m,就表示,Prometheus 会查询 2022-08-25 15:46:03 ~ 2022-08-25 15:48:03 这 2 分钟之间的数据,然后返回最新的那个。 Range Query 理论上是没法绘制 Graph 的(当然有些时序库可能会做容错处理),因为从原 理上说不通。绘图的时候,我们要选择一个时间范围,比如最近一小时,然后传给后端一个 step 参数用于控制分辨率,即数据间隔,比如 step=60,即表示希望每个 series 每分钟返回一 个点,但如果是 Range Query,相当于在某个时刻返回多个点,这就无所适从了。 Prometheus0 码力 | 16 页 | 2.77 MB | 1 年前3
告警OnCall事件中心建设方法白皮书
对于一些大故障,跨多个团队,拉齐信息是非常关键的,如果有某个团队发现了一些线索,可以通过评论 的方式让其他团队快速知悉,新进的故障处理人员也可以通过这些评论以及故障关联的告警快速得知故障 历史信息,快速启动排查工作。 下个版本还会继续增强和 IM 的联动,在 FlashDuty 中的一些评论回复,会自动发到 IM 端,进而提升 协同效率。 另外,我们非常建议大家认真处理每一个故障,认真填写故障处理过程、止损手段,这是极好的知识库,0 码力 | 23 页 | 1.75 MB | 1 年前3
Intro to Prometheus - With a dash of operations & observabilitywith your service” If teams are busy firefighting, they don’t have time to engineer Keep legacy systems working, but have clear path forward Keep extra effort on the team low, if possible Strive for0 码力 | 19 页 | 63.73 KB | 1 年前3
Prometheus Deep Dive - Monitoring. At scale.Thanos Remote API can now send WAL over the wire to fill gaps in data There are twelve different systems which are able to ingest Proemtheus data this way We deliberately do no endorse any particular approach0 码力 | 34 页 | 370.20 KB | 1 年前3
共 5 条
- 1













