1.6 利用夜莺扩展能力打造全方位监控系统
控 网络设 备 中间件 类 数据库 类 • 支持在web上配置采集策略,不同的采集可以指定 不同的探针机器、目标机器,便于管理和知识传 承 • 独创在端上流式读取日志,根据正则提取指标的 机制,轻量易用,无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设 备的采集,复用telegraf和datadog-agent的能力 • 支持statsd的udp协议,用于业务应用的apm监控0 码力 | 40 页 | 3.85 MB | 1 年前3告警OnCall事件中心建设方法白皮书
收敛成一个故障,所有 B 服务的告警收敛成另一个故障。看起来效果好多了,只是没办法和现实中的告 警和故障建立完美的对应关系,不过从降噪收敛角度来看,够用了。 3、根据时间 + 文本相似度做收敛 文本相似度需要引入算法,但是算法总得有个规律,我们很想把某个故障相关的告警聚拢到一起,但是显 然,很难有个行之有效的规律,没有规律的算法效果自然好不到哪儿去。 既然没办法把告警自动 常好的降噪效果,大幅减 少打扰。示意图如下: 监控系统会产生原始的告警事件(event),属于同一个告警的多个事件被合并成告警(alert),类似的告 警(比如某个标签相同,或者文本相似度很高)被合并成故障(incident),最终通知用户的是一个个故 障,大幅降低了打扰性。 不同的告警事件,通常有不同的分发逻辑,比如不同时段不同的分发逻辑:白天用短信通知,晚上用电话0 码力 | 23 页 | 1.75 MB | 1 年前3PromQL 从入门到精通
value+timestamp 的组合,我们直观理解就是,直接把时间范围内最后一个值减去第一个值, 不就可以得到增量了吗?非也!如下图: 1 1 1 这个图上的一些关键信息,我们摘录出文本,具体如下: promql: net_bytes_recv{interface="eth0"}[1m] @ 1661570908 965304237246 @1661570850 9653079539820 码力 | 16 页 | 2.77 MB | 1 年前3
共 3 条
- 1