分布式版本控制 systems - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

B站统⼀监控系统的设计,演进与实践分享

机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层应⽤用层 • cache资源 • db资源 • mq资源 • lb资源 • es资源 • 分布式⽂文件 • 进程监控业务层 • qps/tps • 耗时分布 • 饱和度 • 吞吐量量 • 依赖响应 • 缓存命中率 • 调⽤用链 • SLA • ⽇日志播放质量量 • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点现状: • 性能 • ⾼高可⽤用 • 分布式 • 使⽤用成本问题: ? 性能问题 • 本地ssd prometheus Shard A prometheus Shard B prometheus Shard C targets

0 码力 | 34 页 | 650.25 KB | 1 年前
3
PromQL 从入门到精通

2022-08-25 15:48:03 这个时刻，未必恰好有监控数据啊，那这个 Table 中的数据是哪里来的？实际上，Prometheus 有个启动参数，--query.lookback-delta=2m 来控制这个行为，如果配置为 2m，就表示，Prometheus 会查询 2022-08-25 15:46:03 ~ 2022-08-25 15:48:03 这 2 分钟之间的数据，然后返回最新的那个。 Range Query 理论上是没法绘制 Graph 的（当然有些时序库可能会做容错处理），因为从原理上说不通。绘图的时候，我们要选择一个时间范围，比如最近一小时，然后传给后端一个 step 参数用于控制分辨率，即数据间隔，比如 step=60，即表示希望每个 series 每分钟返回一个点，但如果是 Range Query，相当于在某个时刻返回多个点，这就无所适从了。 Prometheus

0 码力 | 16 页 | 2.77 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

对于一些大故障，跨多个团队，拉齐信息是非常关键的，如果有某个团队发现了一些线索，可以通过评论的方式让其他团队快速知悉，新进的故障处理人员也可以通过这些评论以及故障关联的告警快速得知故障历史信息，快速启动排查工作。下个版本还会继续增强和 IM 的联动，在 FlashDuty 中的一些评论回复，会自动发到 IM 端，进而提升协同效率。另外，我们非常建议大家认真处理每一个故障，认真填写故障处理过程、止损手段，这是极好的知识库，

0 码力 | 23 页 | 1.75 MB | 1 年前
3
Intro to Prometheus - With a dash of operations & observability

with your service” If teams are busy firefighting, they don’t have time to engineer Keep legacy systems working, but have clear path forward Keep extra effort on the team low, if possible Strive for

0 码力 | 19 页 | 63.73 KB | 1 年前
3
Prometheus Deep Dive - Monitoring. At scale.

Thanos Remote API can now send WAL over the wire to fill gaps in data There are twelve different systems which are able to ingest Proemtheus data this way We deliberately do no endorse any particular approach

0 码力 | 34 页 | 370.20 KB | 1 年前
3

共 5 条前往

页

监控系统设计演进实践分享 PromQL Prometheus 告警 OnCall 事件中心建设方法白皮皮书白皮书 Intro to With dash of operations observability Deep Dive Monitoring At scale

分类

语言

格式

B站统⼀监控系统的设计,演进与实践分享

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

Intro to Prometheus - With a dash of operations & observability

Prometheus Deep Dive - Monitoring. At scale.

分类

语言

格式

B站统⼀监控系统的设计,演进 与实践分享

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

Intro to Prometheus - With a dash of operations & observability

Prometheus Deep Dive - Monitoring. At scale.

B站统⼀监控系统的设计,演进与实践分享