1.6 利用夜莺扩展能力打造全方位监控系统
进程存 活 端口监 控 插件脚 本 日志监 控 网络设 备 中间件 类 数据库 类 • 支持在web上配置采集策略,不同的采集可以指定 不同的探针机器、目标机器,便于管理和知识传 承 • 独创在端上流式读取日志,根据正则提取指标的 机制,轻量易用,无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设 备的采集,复用telegraf和datadog-agent的能力0 码力 | 40 页 | 3.85 MB | 1 年前3PromQL 从入门到精通
22- 08-25 15:48:03 用 Chrome 开发者工具可以看到发的请求参数: 但是,监控数据是周期性上报的,比如每 10 秒上报一次,在 2022-08-25 15:48:03 这个时 刻,未必恰好有监控数据啊,那这个 Table 中的数据是哪里来的? 实际上,Prometheus 有个启动参数,--query.lookback-delta=2m 来控制这个行为,如果配 置为 具 体时刻(对于排查监控数据采集相关的问题尤为有用),如果在 Graph 视图,返回的数据取 决于 step 参数,查询时传给时序库的 step = 10,返回的图形就是每 10s 一个点,step = 20 就是每 20s 一个点,返回的数据的时间间隔取决于 step 参数而非原始数据的上报间隔。 Range Query 理论上是没法绘制 Graph 的(当然有些时序库可能会做容错处理),因为从原 的(当然有些时序库可能会做容错处理),因为从原 理上说不通。绘图的时候,我们要选择一个时间范围,比如最近一小时,然后传给后端一个 step 参数用于控制分辨率,即数据间隔,比如 step=60,即表示希望每个 series 每分钟返回一 个点,但如果是 Range Query,相当于在某个时刻返回多个点,这就无所适从了。 Prometheus 文档中有一个章节专门介绍函数,各个函数的介绍中,都会写明是用于 instant-0 码力 | 16 页 | 2.77 MB | 1 年前3告警OnCall事件中心建设方法白皮书
员来运维,首先要提供一些信息。 ● 相关联系人,出了问题能够及时找到人,联系不上的话得能直接联系研发领导。 ● 服务相关信息,比如代码仓库、系统架构、依赖哪些服务、依赖哪些系统参数、哪些 JVM 参数、常 见问题还有处理办法等等。 然后进行准入评审及准入测试,如果系统架构有明显问题,就没办法通过准入要求,不接受运维,如果老 板要求必须接,那就只能加人了,或者明确说明在架构调整好之前,不负责0 码力 | 23 页 | 1.75 MB | 1 年前3
共 3 条
- 1