自动流量切换 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

告警OnCall事件中心建设方法白皮书

处理也会有很大帮助。值班人员在值班期间，虽然已经高度重视了，但也难免疏漏，这就需要告警升级机制了。告警升级机制告警升级是指在第一责任人收到告警之后没有及时响应，然后系统自动通知二线、三线人员的一种机制。一线人员没有及时响应的原因可能有很多，比如手机静音了没有听到，晚上睡着了，或者临时出去有事忘带手机了等等。这个时候系统发现某个告警一直没有恢复，也没有被认领，一段时间之后，就应该通知值 alert 收敛成一个 incident（故障），基于 incident 做协同才比较方便。但是，event 到 alert 是有一个固定的收敛逻辑的，可以通过程序自动收敛，而 alert 到 incident 却很难自动收敛。不过业界也会有一些常见的做法，下面我举几个例子。 1、根据时间做收敛把告警中心收到的所有告警，按照时间维度做收敛，比如按照分钟颗粒度，一分钟内所有告警收敛成一个文本相似度做收敛文本相似度需要引入算法，但是算法总得有个规律，我们很想把某个故障相关的告警聚拢到一起，但是显然，很难有个行之有效的规律，没有规律的算法效果自然好不到哪儿去。既然没办法把告警自动收敛成故障，那就手工来做。一个故障关联的关键告警，还是相对容易区分的，只要把关键告警关联到故障，后续基于这个故障做协同就可以了。所谓协同，一个是信息同步、协同处理，一个是共同复盘、管理跟进项。

0 码力 | 23 页 | 1.75 MB | 1 年前
3
PromQL 从入门到精通

series，某个机器在某一时刻的内存可用率数据，我们称为数据点，比如上图，2022-08-25 15:05:22 这个时刻，每个机器都有一个可用率数据点，共计 5 个数据点。上面的图是查询的最近一小时的，我们切换到 Table 视图，得到如下结果：这个表格的内容，是这 5 台机器在当前这个时间点的最新值，当前我做查询的时刻是：2022- 08-25 15:48:03 用 Chrome 开发者工具可以看到发的请求参数：一个值和第一个值做数据外推，一些毛刺现象就会被平滑掉，如果想要得到更敏感的数据，可以使用 irate 函数。irate 是拿时间范围内的最后两个值来做计算，变化就会更剧烈，我们还是拿网卡入向流量这个指标来做个对比：蓝色的更变化更剧烈的线是 irate 函数计算的，紫色的相对平滑的线是 rate 函数计算得到的。 histogram_quantile 要了解 histogram_quantile

0 码力 | 16 页 | 2.77 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

告警阈值需要随着流量量变化⽽而调整 wrong 建议: 告警规则: 业务A 慢请求⽐比例例 > 80% 案例例2 告警规则: 磁盘容量量可⽤用率 <10% 告警规则: 磁盘容量量预计将于3⼩小时后饱和 0 now -1h +3h predict_linear(node_filesystem_free{}[1h], 3 * 3600) < 0 异常检测异常流量量 abs(requests

0 码力 | 34 页 | 650.25 KB | 1 年前
3
1.6 利用夜莺扩展能力打造全方位监控系统

夜莺Server数据处理 05. data - write 夜莺Server数据处理 06. data - read 夜莺Server数据处理夜莺设计实现技术难点及细节第六部分 0１. 规则集中化管理及自动发现夜莺技术难点及细节 0２. 采集器夜莺技术难点及细节 0２. 数据序列化及传输问题夜莺技术难点及细节 Thank you

0 码力 | 40 页 | 3.85 MB | 1 年前
3

共 4 条前往

页

告警 OnCall 事件中心建设方法白皮皮书白皮书 PromQL Prometheus 监控系统设计演进实践分享 1.6 利用夜莺扩展能力打造方位全方位

分类

语言

格式

告警OnCall事件中心建设方法白皮书

PromQL 从入门到精通

B站统⼀监控系统的设计,演进与实践分享

1.6 利用夜莺扩展能力打造全方位监控系统

分类

语言

格式

告警OnCall事件中心建设方法白皮书

PromQL 从入门到精通

B站统⼀监控系统的设计,演进 与实践分享

1.6 利用夜莺扩展能力打造全方位监控系统

B站统⼀监控系统的设计,演进与实践分享