相对性判断 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PromQL 从入门到精通

这个机器在最近5m内如果上报过system_load_norm_1指标，即 tt-fc-dev02.nj 机器存活，则什么都不返回，如果机器挂了，不再上报监控数据了，即指标在最近5m内不存在了，即可判断机器失联。这种方法有个弊端，就是得把指标的所有标签都写上，比如我们的需求可能是，100台机器，任何一台失联了就告警，想当然的我们可能会这么写： absent_over_time(system_load_norm_1[5m]) 所以实际上，如果我们想要对100台机器使用absent_over_time做失联告警，就要配置100条告警规则，每个规则里的promql都要把机器标识信息写上。 ? 对于拉模式的监控系统，比如 Prometheus，很容易判断机器失联，因为 pull 不到数据了，就知道 target 挂了，通过 up 指标就可以告警；对于推模式的监控系统，比如 Open- Falcon、Datadog、Nightingale，就不

0 码力 | 16 页 | 2.77 MB | 1 年前
3

共 1 条前往

页

PromQL Prometheus