1.6 利用夜莺扩展能力打造全方位监控系统
活 端口监 控 插件脚 本 日志监 控 网络设 备 中间件 类 数据库 类 • 支持在web上配置采集策略,不同的采集可以指定 不同的探针机器、目标机器,便于管理和知识传 承 • 独创在端上流式读取日志,根据正则提取指标的 机制,轻量易用,无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设 备的采集,复用telegraf和datadog-agent的能力0 码力 | 40 页 | 3.85 MB | 1 年前3告警OnCall事件中心建设方法白皮书
并成故障(incident),最终通知用户的是一个个故 障,大幅降低了打扰性。 不同的告警事件,通常有不同的分发逻辑,比如不同时段不同的分发逻辑:白天用短信通知,晚上用电话 通知,比如对象存储的告警要发给存储团队,物理机故障要发给运维团队。这都可以灵活定义。 也可以配置聚合窗口,比如延迟 120 秒,如果在延迟等待期内,告警自动恢复或被人工处理,则不会发送 该条告警。 的有效手段),其次是团队(团队可以降低人 员管理的负担),其次是个人(最不推荐,难以维护)。FlashDuty 提供了值班表功能,可以做日常排班以 及节假日临时排班: 在 FlashDuty 里,通知的对象不是原始的告警事件,因为原始的告警事件可能会非常多,如上文所述, FlashDuty 会把事件聚合为告警,告警聚合为故障,最终通知的是故障。那具体如何聚合呢? 告警聚合 事件到告警的聚合比0 码力 | 23 页 | 1.75 MB | 1 年前3B站统⼀监控系统的设计,演进 与实践分享
Counter ✦ Gauge ✦ 等.. • 时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征 选型原则 • 基于开源⽅方案,⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境 结论 • prometheus • ⽀支持任意维度label • cncf基⾦金金会 metric • 40w+/s的指标采集 •0 码力 | 34 页 | 650.25 KB | 1 年前3PromQL 从入门到精通
group_left。 另外举一个例子,说明 group_left group_right 的一个常见用法,比如我们使用 kube-state- metrics 来采集 Kubernetes 各个对象的指标数据,其中针对 pod 有个指标是 kube_pod_labels,会把 pod 的一些信息放到这个指标的标签里,指标值是1,相当于一个元信 息,比如: kube_pod_labels{0 码力 | 16 页 | 2.77 MB | 1 年前3
共 4 条
- 1