资源控制不当 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

B站统⼀监控系统的设计,演进与实践分享

• 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层应⽤用层 • cache资源 • db资源 • mq资源 • lb资源 • es资源 • 分布式⽂文件 • 进程监控业务层 • qps/tps • 耗时分布 • 饱和度 • 吞吐量量 • 依赖响应 • 缓存命中率

0 码力 | 34 页 | 650.25 KB | 1 年前
3
1.6 利用夜莺扩展能力打造全方位监控系统

『定位』都是面向尽快『止损』来实现。监控痛点：全面完备、跨云第二部分端上、链路、资源、组件、应用多维度跨云监控，不管哪个环节出问题都能及时感知产品要求 01.端上、链路、资源、组件、应用多维度跨云监控端上卡顿崩溃链路连通性链路质量服务端硬件资源组件服务业务应用夜莺介绍：国产开源监控系统第三部分国产开源监控产品相对比较匮乏，夜莺希望重新定义国产开

0 码力 | 40 页 | 3.85 MB | 1 年前
3
PromQL 从入门到精通

2022-08-25 15:48:03 这个时刻，未必恰好有监控数据啊，那这个 Table 中的数据是哪里来的？实际上，Prometheus 有个启动参数，--query.lookback-delta=2m 来控制这个行为，如果配置为 2m，就表示，Prometheus 会查询 2022-08-25 15:46:03 ~ 2022-08-25 15:48:03 这 2 分钟之间的数据，然后返回最新的那个。 Range Query 理论上是没法绘制 Graph 的（当然有些时序库可能会做容错处理），因为从原理上说不通。绘图的时候，我们要选择一个时间范围，比如最近一小时，然后传给后端一个 step 参数用于控制分辨率，即数据间隔，比如 step=60，即表示希望每个 series 每分钟返回一个点，但如果是 Range Query，相当于在某个时刻返回多个点，这就无所适从了。 Prometheus

0 码力 | 16 页 | 2.77 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

的目的。告警自动处理的这段逻辑，未必一定能够做到告警自愈，有的时候只是使用这个机制来抓现场，也是非常有价值的。比如某个进程挂掉了，在挂掉的时候我想知道当时机器的一些运行情况，比如各项资源的占用情况、系统日志的信息等等，我们就可以借助告警自动处理的这个方式，来自动跑个脚本抓取当时机器上的一些现场信息，相比收到告警之后手工登录机器查看要高效得多。如上，是从思路方法层

0 码力 | 23 页 | 1.75 MB | 1 年前
3

共 4 条前往

页

监控系统设计演进实践分享 1.6 利用夜莺扩展能力打造方位全方位 PromQL Prometheus 告警 OnCall 事件中心建设方法白皮皮书白皮书

分类

语言

格式

B站统⼀监控系统的设计,演进与实践分享

1.6 利用夜莺扩展能力打造全方位监控系统

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

分类

语言

格式

B站统⼀监控系统的设计,演进 与实践分享

1.6 利用夜莺扩展能力打造全方位监控系统

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进与实践分享