原始字符串 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PromQL 从入门到精通

称为查询表达式，不同的表达式，会返回不同的内容，返回的内容总共有 4 种格式，分别是：Instant vector（瞬时向量）、Range vector（范围向量）、Scalar（标量）、String（字符串）。返回瞬时向量的查询表达式，我们称为 Instant Query，返回范围向量的查询表达式，我们称为 Range Query。上例中的 mem_available_percent{app="clickhouse"} + Table 视图，可以让我们直观看到原始上报的监控数据以及上报的具体时刻（对于排查监控数据采集相关的问题尤为有用），如果在 Graph 视图，返回的数据取决于 step 参数，查询时传给时序库的 step = 10，返回的图形就是每 10s 一个点，step = 20 就是每 20s 一个点，返回的数据的时间间隔取决于 step 参数而非原始数据的上报间隔。 Range Query 举一个例子来演示真实环境下的算术运算符的应用，比如之前的例子，对于内存可用率的指标 mem_available_percent 这个指标是采集器直接计算好的，如果采集器没有计算，而是上报了原始指标 mem_available 和 mem_total，我们仍然可以使用 promql 计算出可用率指标：逻辑上，是先根据 mem_available{app="clickhouse"} 找到相关指标数据，会找到5条，再根

0 码力 | 16 页 | 2.77 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

别协同，这就需要把这多个事件收敛成一个故障，下面我们来聊一下这个收敛逻辑。告警收敛逻辑一般收敛逻辑是三级收敛，event -> alert -> incident。举个例子，最原始的告警事件，比如 host1 在 timestamp1 产生了一条 cpu_usage_idle 的告警，我们称为一个 event。如果没有恢复，一段时间之后，比如 timestamp1 + alert -> incident，具体逻辑可以参考：【思路方法篇】-【告警收敛逻辑】章节。这样的三级收敛机制，会有非常好的降噪效果，大幅减少打扰。示意图如下：监控系统会产生原始的告警事件（event），属于同一个告警的多个事件被合并成告警（alert），类似的告警（比如某个标签相同，或者文本相似度很高）被合并成故障（incident），最终通知用户的是一个个故障，大幅降低了打扰性。员管理的负担），其次是个人（最不推荐，难以维护）。FlashDuty 提供了值班表功能，可以做日常排班以及节假日临时排班：在 FlashDuty 里，通知的对象不是原始的告警事件，因为原始的告警事件可能会非常多，如上文所述， FlashDuty 会把事件聚合为告警，告警聚合为故障，最终通知的是故障。那具体如何聚合呢？告警聚合事件到告警的聚合比较容易，通常是用类似下面的算法来计算不同事件的关联关系：

0 码力 | 23 页 | 1.75 MB | 1 年前
3
1.6 利用夜莺扩展能力打造全方位监控系统

运维监控需求来源 01.监控的原始需求来自业务稳定性左图是2013年的一个新闻，讲 Google宕机的影响。2020年也出现过aws大规模宕机的情况，影响不止是55万美元，直接影响大半个互联网！ 2018年有美国调研机构指出，如果服务器宕机1分钟，银行会损失 27万美元，制造业会损失42万美元美团故障？滴滴故障？腾讯故障？运维监控需求来源 01.监控的原始需求来自业务稳定性

0 码力 | 40 页 | 3.85 MB | 1 年前
3

共 3 条前往

页

PromQL Prometheus 告警 OnCall 事件中心建设方法白皮皮书白皮书 1.6 利用夜莺扩展能力打造方位全方位监控系统

分类

语言

格式

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

1.6 利用夜莺扩展能力打造全方位监控系统