PromQL 从入门到精通这个机器在最近5m内如果上报过system_load_norm_1指 标,即 tt-fc-dev02.nj 机器存活,则什么都不返回,如果机器挂了,不再上报监控数据了,即指 标在最近5m内不存在了,即可判断机器失联。 这种方法有个弊端,就是得把指标的所有标签都写上,比如我们的需求可能是,100台机器,任 何一台失联了就告警,想当然的我们可能会这么写: absent_over_time(system_load_norm_1[5m]) 所以实际上,如果我们想要对100台机器使用absent_over_time做失联告警,就要配置100条告 警规则,每个规则里的promql都要把机器标识信息写上。 ? 对于拉模式的监控系统,比如 Prometheus,很容易判断机器失联,因为 pull 不到数据 了,就知道 target 挂了,通过 up 指标就可以告警;对于推模式的监控系统,比如 Open- Falcon、Datadog、Nightingale,就不0 码力 | 16 页 | 2.77 MB | 1 年前3
共 1 条
- 1
相关搜索词













