告警OnCall事件中心建设方法白皮书
alert 到 incident 却很难自动收敛。不过业界也会有一些常见的做法,下面我举几个例子。 1、根据时间做收敛 把告警中心收到的所有告警,按照时间维度做收敛,比如按照分钟颗粒度,一分钟内所有告警收敛成一个 故障,下一分钟所有告警收敛成另一个故障。显然,一个故障内的多个告警相互之间可能没有关联关系, 所以这种收敛方法不是太好。 2、根据时间 + 标签做收敛0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通上面的例子,是会对每个请求分别做计算,假设有两个模块:n9e-proxy、n9e-webapi,都统 计了 http_request_duration_seconds_bucket ,我们可能希望以模块为颗粒度,分别计算每 个模块的90分位延迟,写法是: histogram_quantile( 0.9, sum by (job, le) (rate(http_request_duration_s0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













