PromQL 从入门到精通PromQL 从⼊⻔到精通 对于 Prometheus 生态的监控系统,PromQL 是必备技能,本文着重点讲解这个查询语言,掺 杂一些生产实践场景,希望对你有所帮助。 ? 本文作者:秦晓辉,Open-Falcon、Nightingale 等开源项目创始人之一,极客时间《运 维监控系统实战笔记》作者;当前在创业(快猫星云联创),为客户提供监控/可观测性产品 方案,有需求的朋友欢迎联系我的微信 钟收到/发出多少包,或者每秒收到/发出多少包。 1 2 3 4 5 6 7 8 而对于监控数据采集器而言,一般是周期性运行的,比如每 10 秒采集一次,每次采集网卡收 到/发出的包这个数据的时候,都只能采集到当前的值,就像执行 ifconfig 命令,每 10 秒执行 一次,每次都看到一个巨大的当前值,而且一次比一次大。如果采集器不做计算,把这个值原封 不动上报给监控服务端,那计算 } offset 1d) 运算符 PromQL 支持基本的算术运算符和比较运算符,可以对不同的即时向量做运算,这为监控系统 带来了巨大的进步,算术运算符让很多计算不需要在采集端做了,可以轻易挪到服务端,而比较 运算符则为告警逻辑提供了支撑。 算术运算符 + (addition) - (subtraction) * (multiplication) / (division)0 码力 | 16 页 | 2.77 MB | 1 年前3
告警OnCall事件中心建设方法白皮书
多少告警规则配置了 Runbook,有多少没有配置,这个比例要统计出来,然后做成红黑榜,让大家去治 理,治理一段时间之后有经验了,知道预置率大概在一个什么范围是合理的,然后就可以要求大家至少达 到预置率下限的值。否则,就一定是有问题的。 Runbook 这个配置原则,是我最为推荐的原则,效果非常明显,其次就是告警分级原则。 每个告警都应该合理分级 基本每个监控系统都支持 这个手段听起来并不高大上,但确实非常有效。值班期间虽然提心吊胆的,生怕背锅,但因为是轮班制, 心里总有个盼头,挺过这个周期就好了。 轮班的人在值班期间是第一责任人,会拿出 120% 的精力来处理问题,责任到人显然更容易推进问题解 决,其他不值班的人则可以心无旁骛地做一些长线的事情,不至于总是被告警打断。 排班系统通常不开源,通常是作为事件中心的一个功能,PagerDuty 就提供了排班能力,即使没有系统 "host=host1"]) 从 event 到 alert 的这个收敛逻辑,我们叫做一级收敛。只有这个收敛逻辑还不够,告警信息还是比较 散,不能基于这些散乱的告警分别做协同,把多个 alert 收敛成一个 incident(故障),基于 incident 做协同才比较方便。但是,event 到 alert 是有一个固定的收敛逻辑的,可以通过程序自动收敛,而 alert 到 incident 却很难自动0 码力 | 23 页 | 1.75 MB | 1 年前3
共 2 条
- 1













