告警OnCall事件中心建设方法白皮书
相关联系人,出了问题能够及时找到人,联系不上的话得能直接联系研发领导。 ● 服务相关信息,比如代码仓库、系统架构、依赖哪些服务、依赖哪些系统参数、哪些 JVM 参数、常 见问题还有处理办法等等。 然后进行准入评审及准入测试,如果系统架构有明显问题,就没办法通过准入要求,不接受运维,如果老 板要求必须接,那就只能加人了,或者明确说明在架构调整好之前,不负责 SLA,反推业务改造。 上面介绍的两个告警规则优化 统计各个团队的平均故障止损时间,建立红黑榜,大家就会有更高的热情来处理故障。当然,人的热情再 高,也不如机器来得快,如果有些告警能够直接关联自动化处理逻辑,无疑可以大大增加事件闭环率。 告警自动处理 很多监控系统都可以配置 Webhook,当告警触发之后自动回调某个 HTTP 接口,来串联一些自动化的 逻辑,让告警事件无人值守自动处理。比如某个机房的某个服务挂掉了,Webhook 的逻辑是自动调用切 流的接 数量少,所以通常来讲,首先去 故障管理里查看当前的故障(incidents)列表,每个故障关联了哪些告警,告警关联了哪些事件,也可以 顺便查看。 如上图,最外层是故障列表(看起来比较多,这是我们的测试环境,正常来说,生产环境的故障不会很 多,否则就说明出大问题了),每个故障关联了多少个告警,有个小警铃的图标可以看到,点击这个故 障,右侧会出现一个抽屉,看到故障详情。关联告警这一栏,可以看到这个故障关联了哪些告警,每个告0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通的结果除以时间差,再乘以60,即: (965323899880.0-965304237246.0)/(1661570900.0-1661570850.0)*60= 23595160.8 ? 上例中,我的测试数据是没有缺失数据点的,如果有缺失数据点的情况,数据外推会更为 复杂,具体可以参考这篇文章:https://mp.weixin.qq.com/s/9aiqrtLTnzysV9olMx-rzA 1 histogram_quantile 函数的用法,首先得了解 Histogram 类型的数据。Histogram 翻 译过来是柱状图,设计这个数据类型,是为了描述响应延时的情况。 比如接口:/api/v1/query,如何度量这个接口的健康状况?最核心有两个指标,一个是成功 率,一个是延迟,成功率的计算代价比较小,只需要为每个请求指标打上 statuscode 的标签即 可,然后可以求取非0 码力 | 16 页 | 2.77 MB | 1 年前3
Prometheus Deep Dive - Monitoring. At scale.Storage backend Caveat: Prometheus 2.0 comes with storage v3 Staleness handling Remote read & write API is now stable-ish Links to in-depth talks about these features are at the end Richard Hartmann & to 2.2.1 2.4 - 2.6 Beyond Outro Remote read API Playing nicely with others We now have a stable-ish remote read/write API Twelve integrations for this API Ongoing work to send write-ahead-log over the e.g. Cortex On storage level, there are object storage backends for Prometheus, e.g. Thanos Remote API can now send WAL over the wire to fill gaps in data There are twelve different systems which are able0 码力 | 34 页 | 370.20 KB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule0 码力 | 34 页 | 650.25 KB | 1 年前3
Intro to Prometheus - With a dash of operations & observability(How much time does this subroutine take?) Every service should have its own metrics endpoint Hard API commitments within major versions No built-in TLS yet, use reverse proxies for now Richard Hartmann0 码力 | 19 页 | 63.73 KB | 1 年前3
1.6 利用夜莺扩展能力打造全方位监控系统夜莺数据采集 06. Serializer 夜莺数据采集 07. Forwarder 夜莺设计实现 Server 数据处理 第五部分 夜莺Server数据处理 01. 服务器 02. API 夜莺Server数据处理 03. AlarmRule Control 夜莺Server数据处理 04. CollectRule Control 夜莺Server数据处理 04. CollectRule0 码力 | 40 页 | 3.85 MB | 1 年前3
共 6 条
- 1













