参数配置 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PromQL 从入门到精通

22- 08-25 15:48:03 用 Chrome 开发者工具可以看到发的请求参数：但是，监控数据是周期性上报的，比如每 10 秒上报一次，在 2022-08-25 15:48:03 这个时刻，未必恰好有监控数据啊，那这个 Table 中的数据是哪里来的？实际上，Prometheus 有个启动参数，--query.lookback-delta=2m 来控制这个行为，如果配置为具体时刻（对于排查监控数据采集相关的问题尤为有用），如果在 Graph 视图，返回的数据取决于 step 参数，查询时传给时序库的 step = 10，返回的图形就是每 10s 一个点，step = 20 就是每 20s 一个点，返回的数据的时间间隔取决于 step 参数而非原始数据的上报间隔。 Range Query 理论上是没法绘制 Graph 的（当然有些时序库可能会做容错处理），因为从原的（当然有些时序库可能会做容错处理），因为从原理上说不通。绘图的时候，我们要选择一个时间范围，比如最近一小时，然后传给后端一个 step 参数用于控制分辨率，即数据间隔，比如 step=60，即表示希望每个 series 每分钟返回一个点，但如果是 Range Query，相当于在某个时刻返回多个点，这就无所适从了。 Prometheus 文档中有一个章节专门介绍函数，各个函数的介绍中，都会写明是用于 instant-

0 码力 | 16 页 | 2.77 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

题，发出几万条告警都是正常的。第三个原因是渠道错配。一些不重要的告警也使用打扰性很高的渠道发出，用户可能会觉得单一渠道不可靠，想用多个渠道同时发送的方式来保障告警触达率，这也属于告警规则配置不合理的范畴。第四个原因是预期内的维护动作导致的。比如程序升级变更，如果进程重启时间过长，可能会导致关联的服务告警，或者某个机器重启，忘记提前屏蔽了，也会产生一堆关联告警。这种产品，一定程度上是可以解决一些告警过多的问题，但如果能从告警规则的源头做好优化，自然是事半功倍。很多公司的告警规则配置没有原则可循，每次故障复盘先看告警是否漏报，一线工程师为了不背锅，自然是尽量多地提高告警覆盖面，但这么做的后果，就是告警过多，无效告警占多数，长此以往，工程师疲惫不堪。那么告警规则的配置应该遵照一个什么原则呢？虽然每个公司业务不同，总有一些通用的原则可循吧？的确如此，这里我分享一下我个人的做法，希望对你有所启发。查哪些方面，按照一个什么方式执行动作，应该有一个手册参考。如果告警发生之后没有后续动作，那这个告警的意义就不大了。在 Nightingale 的告警规则配置页面，可以看到一个专门的 Runbook 配置，Grafana 的告警配置页面，也有一个 Runbook 的选项，就能看出他们对它的重视程度。这个原则看起来是不是很合理？但是真要落地的时候，又会发现紧急需要处理的告警事件通常容易对应

0 码力 | 23 页 | 1.75 MB | 1 年前
3
1.6 利用夜莺扩展能力打造全方位监控系统

监控数据采集，all in one的agentd Agentd 进程存活端口监控插件脚本日志监控网络设备中间件类数据库类 • 支持在web上配置采集策略，不同的采集可以指定不同的探针机器、目标机器，便于管理和知识传承 • 独创在端上流式读取日志，根据正则提取指标的机制，轻量易用，无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设

0 码力 | 40 页 | 3.85 MB | 1 年前
3

共 3 条前往

页

PromQL Prometheus 告警 OnCall 事件中心建设方法白皮皮书白皮书 1.6 利用夜莺扩展能力打造方位全方位监控系统

分类

语言

格式

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

1.6 利用夜莺扩展能力打造全方位监控系统