数据库可视化工具 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

告警OnCall事件中心建设方法白皮书

Prometheus 可能有多套）或者 Nightingale，日志的监控可能用的 Elastalert，如果上云了，可能还会有多套不同的云监控（尤其是多云场景下）。监控系统的重心，通常是采集、存储、可视化、生成告警事件，但通常都不具有完备的事件后续处理能力。这里说的后续处理主要包括：多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力，但是通常都不完备，而这，正是 FlashDuty 这种产品存在的价值。这些产品都是以 Duty 命名，核心就是支持告警 OnCall 值班处理的场景。对于告警事件的后续处理，有哪些问题和需求以及何为最佳实践？我们从思路方法和工具实践两个方面分别进行探讨，下面先行探讨思路方法，看看要解决这些问题和需求，我们有哪些可能的解法。思路方法篇告警事件的后续处理：多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环除了原则方面，另一个应对过多告警的方法就是靠产品工具了，比如告警事件在哪些时间段发送、如何过滤、如何屏蔽、如何抑制等等，通常，监控系统和统一的 OnCall 中心（ PagerDuty FlashDuty 这种产品）在这些功能上会有一定的重叠，不过监控系统在这方面做得参差不齐，整体能力偏弱，使用统一的 OnCall 中心功能更强大，我们留待工具实践篇再详细阐述。接下来我们聊一下

0 码力 | 23 页 | 1.75 MB | 1 年前
3
1.6 利用夜莺扩展能力打造全方位监控系统

美团故障？滴滴故障？腾讯故障？运维监控需求来源 01.监控的原始需求来自业务稳定性如何减少服务停摆导致的经济损失？尽快发现故障并止损！故障处理过程中，监控是『发现』和『定位』两个环节的关键工具。故障处理过程的首要原则是『止损』，因此，过程中的『发现』和『定位』都是面向尽快『止损』来实现。监控痛点：全面完备、跨云第二部分端上、链路、资源、组件、应用多维度跨云监控，不管哪个活端口监控插件脚本日志监控网络设备中间件类数据库类 • 支持在web上配置采集策略，不同的采集可以指定不同的探针机器、目标机器，便于管理和知识传承 • 独创在端上流式读取日志，根据正则提取指标的机制，轻量易用，无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设备的采集，复用telegraf和datadog-agent的能力

0 码力 | 40 页 | 3.85 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

Counter ✦ Gauge ✦ 等.. • 时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征选型原则 • 基于开源⽅方案，⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境结论 • prometheus • ⽀支持任意维度label • cncf基⾦金金会 metric • 40w+/s的指标采集 •

0 码力 | 34 页 | 650.25 KB | 1 年前
3
PromQL 从入门到精通

上面的图是查询的最近一小时的，我们切换到 Table 视图，得到如下结果：这个表格的内容，是这 5 台机器在当前这个时间点的最新值，当前我做查询的时刻是：2022- 08-25 15:48:03 用 Chrome 开发者工具可以看到发的请求参数：但是，监控数据是周期性上报的，比如每 10 秒上报一次，在 2022-08-25 15:48:03 这个时刻，未必恰好有监控数据啊，那这个 Table 中的数据是哪里来的？

0 码力 | 16 页 | 2.77 MB | 1 年前
3

共 4 条前往

页

告警 OnCall 事件中心建设方法白皮皮书白皮书 1.6 利用夜莺扩展能力打造方位全方位监控系统设计演进实践分享 PromQL Prometheus

分类

语言

格式

告警OnCall事件中心建设方法白皮书

1.6 利用夜莺扩展能力打造全方位监控系统

B站统⼀监控系统的设计,演进与实践分享

PromQL 从入门到精通

分类

语言

格式

告警OnCall事件中心建设方法白皮书

1.6 利用夜莺扩展能力打造全方位监控系统

B站统⼀监控系统的设计,演进 与实践分享

PromQL 从入门到精通

B站统⼀监控系统的设计,演进与实践分享