PromQL 从入门到精通维监控系统实战笔记》作者;当前在创业(快猫星云联创),为客户提供监控/可观测性产品 方案,有需求的朋友欢迎联系我的微信 picobyte。 数据类型 Prometheus 有四种数据类型:Gauge、Counter、Histogram、Summary,其中最关键的是 Gauge 和 Counter,Histogram 和 Summary 只是为了上报监控数据的 Client 侧的便利,可 以看做是组合使用了 Gauge 和 和 Counter。所以我们重点就来讲解 Gauge 和 Counter 类型。 Gauge 类型 Gauge 类型的值表示当前的状态,可大可小、可负可正,比如某个虚机实例挂了,用 0 表示, 如果实例存活,用 1 表示;再比如内存使用率,这个时刻采集是 33.7%,下个周期采集可能就 变成了 25.8%;还有像机器最近 5 分钟的 load、正在运行的进程数量等等,都使用 Gauge 类 出去的总的包量,都是很大的值,我们通常不太关注这个值当前是多少,更关注的是最近 1 分 钟收到/发出多少包,或者每秒收到/发出多少包。 1 2 3 4 5 6 7 8 而对于监控数据采集器而言,一般是周期性运行的,比如每 10 秒采集一次,每次采集网卡收 到/发出的包这个数据的时候,都只能采集到当前的值,就像执行 ifconfig 命令,每 10 秒执行 一次,每次都看到一个巨大的当前值,而且一次比0 码力 | 16 页 | 2.77 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享metric⽅方案选型 • 能覆盖⼤大部分监控场景 • 固定⼏几种数据类型 ✦ Counter ✦ Gauge ✦ 等.. • 时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征 选型原则 • 基于开源⽅方案,⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境 结论 • prometheus • ⽀支持任意维度label ⽀支持任意维度label • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点 现状: • 性能 • ⾼高可⽤用 • 分布式 • 使⽤用成本 问题: ? 性能问题 • 本地ssd prometheus Shard A prometheus Shard B prometheus Shard 告警规则: 业务A 慢请求量量 > 10k/s 固定阈值 告警阈值需要随着流量量变化⽽而调整 wrong 建议: 告警规则: 业务A 慢请求⽐比例例 > 80% 案例例2 告警规则: 磁盘容量量可⽤用率 <10% 告警规则: 磁盘容量量预计将于3⼩小时后饱和 0 now -1h +3h predict_linear(node_filesystem_free{}[1h], 3 * 3600)0 码力 | 34 页 | 650.25 KB | 1 年前3
告警OnCall事件中心建设方法白皮书
的告警。 第二个常见的原因是底层出问题导致所有的上层依赖都告警,越是底层影响越大,比如基础网络如果出问 题,发出几万条告警都是正常的。 第三个原因是渠道错配。一些不重要的告警也使用打扰性很高的渠道发出,用户可能会觉得单一渠道不可 靠,想用多个渠道同时发送的方式来保障告警触达率,这也属于告警规则配置不合理的范畴。 第四个原因是预期内的维护动作导致的。比如程序升级变更,如果进程重启时间过长,可能会导致关联的 incident,具体逻辑可 以参考:【思路方法篇】-【告警收敛逻辑】章节。这样的三级收敛机制,会有非常好的降噪效果,大幅减 少打扰。示意图如下: 监控系统会产生原始的告警事件(event),属于同一个告警的多个事件被合并成告警(alert),类似的告 警(比如某个标签相同,或者文本相似度很高)被合并成故障(incident),最终通知用户的是一个个故 障,大幅降低了打扰性。0 码力 | 23 页 | 1.75 MB | 1 年前3
1.6 利用夜莺扩展能力打造全方位监控系统集群版m3db 3. 集群版n9e-tsdb 3种存储方案,按需选择 Agentd 夜莺设计实现 Agentd 数据采集 第四部分 监控系统的核心功能,是数据采集、存储、分析、展示,完 备性看采集能力,是否能够兼容并包,纳入更多生态的能力, 至关重要 夜莺数据采集 01.监控数据采集,all in one的agentd Agentd 进程存 活 端口监 控 插件脚 本 数据库 类 • 支持在web上配置采集策略,不同的采集可以指定 不同的探针机器、目标机器,便于管理和知识传 承 • 独创在端上流式读取日志,根据正则提取指标的 机制,轻量易用,无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设 备的采集,复用telegraf和datadog-agent的能力 • 支持statsd的udp协议,用于业务应用的apm监控 分析 夜莺数据采集0 码力 | 40 页 | 3.85 MB | 1 年前3
共 4 条
- 1













