用户界面优化 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

告警OnCall事件中心建设方法白皮书

性很高的渠道发出，用户可能会觉得单一渠道不可靠，想用多个渠道同时发送的方式来保障告警触达率，这也属于告警规则配置不合理的范畴。第四个原因是预期内的维护动作导致的。比如程序升级变更，如果进程重启时间过长，可能会导致关联的服务告警，或者某个机器重启，忘记提前屏蔽了，也会产生一堆关联告警。了解了常见原因，下面我们来看一下有哪些常见解法。优化告警规则类似 PagerDuty PagerDuty FlashDuty 这种产品，一定程度上是可以解决一些告警过多的问题，但如果能从告警规则的源头做好优化，自然是事半功倍。很多公司的告警规则配置没有原则可循，每次故障复盘先看告警是否漏报，一线工程师为了不背锅，自然是尽量多地提高告警覆盖面，但这么做的后果，就是告警过多，无效告警占多数，长此以往，工程师疲惫不堪。那么告警规则的配置应该遵照一个什么原则呢？虽然 Runbook 这个配置原则，是我最为推荐的原则，效果非常明显，其次就是告警分级原则。每个告警都应该合理分级基本每个监控系统都支持为告警规则配置不同的级别，基本上每个监控系统的用户也都知道应该做分级告警。但是具体怎么分级，却没有一个行业共识，大家各做各的。这里我也分享一下我的理解，你可以参考借鉴。首先，不同级别的告警应该对应不同的处理逻辑，这样分级才有意义，比如通知渠道不同，通知范围不

0 码力 | 23 页 | 1.75 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

cdn质量量客户端质量量 • ⽤用户端⽹网络质量量 • 劫持情况 • 崩溃&卡顿 • 返回码 • 响应时间 • 错误率服务端监控⽤用户端监控如何推进？服务端监控场景分析监控场景对应监控⼿手段类型 metric类型⽇日志类型⾃自定义类型⼿手段时间序列列数据⽇日志处理理流⾃自研⽤用户端监控 apm ⾃自研客户端播放器器如何推进？服务端监控场景分析监控场景对应监控⼿手段类型 metric类型⽇日志类型⾃自定义类型⼿手段时间序列列数据⽇日志处理理流⾃自研⽤用户端监控 apm ⾃自研客户端播放器器 metric⽅方案选型 • 能覆盖⼤大部分监控场景 • 固定⼏几种数据类型 ✦ Counter ✦ Gauge ✦ 等.. dashboard 报表告警统⼀一的告警中⼼心解决什什么问题? • 告警源头多 • 告警⻛风暴暴, ⼤大量量重复告警 • 发送告警渠道多 • 重要告警没有及时到达 • 优化告警没有数据依据问题 • 告警标准化 • 告警收敛 • 告警渠道管理理 • 告警升级 • 告警报表核⼼心功能 API⽹网关服务树告警收敛屏蔽规则事件管理理告警渠道

0 码力 | 34 页 | 650.25 KB | 1 年前
3
1.6 利用夜莺扩展能力打造全方位监控系统

项目：https://github.com/didi/nightingale 官网：https://n9e.didiyun.com/ Nightingale 众多企业已上生产，共同打磨夜莺上图展示部分社区用户，加入夜莺社群，请联系微信：UlricQin Nightingale 众多企业已上生产，共同打磨夜莺 Server01 Server02 Agentd Agentd LoadBalance

0 码力 | 40 页 | 3.85 MB | 1 年前
3
PromQL 从入门到精通

的结果：如果我们认为内存可用率小于60就是有问题的，想找出所有有问题的数据，只要在 promql 中拼上 < 60 即可： 1 如上的方法，其实就是告警引擎的核心逻辑。告警规则里会要求用户配置promql以及执行频率，告警引擎就会根据执行频率周期性执行，每次执行的时候就是拿着promql去查询，promql 中带有阈值，即上例中的 <60，所以如果所有机器的内存可用率都很高，比如维持在80~90，

0 码力 | 16 页 | 2.77 MB | 1 年前
3

共 4 条前往

页

告警 OnCall 事件中心建设方法白皮皮书白皮书监控系统设计演进实践分享 1.6 利用夜莺扩展能力打造方位全方位 PromQL Prometheus

分类

语言

格式

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进与实践分享

1.6 利用夜莺扩展能力打造全方位监控系统

PromQL 从入门到精通

分类

语言

格式

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进 与实践分享

1.6 利用夜莺扩展能力打造全方位监控系统

PromQL 从入门到精通

B站统⼀监控系统的设计,演进与实践分享