告警OnCall事件中心建设方法白皮书
回调机制来完成。 升级机制会给值班人员很大的压力,毕竟谁也不想稍不留神就把电话打到老板那里,所以一般只有严重的 告警才会启用升级机制,警告或者通知性质的告警都不用启用升级机制。当然,这个规范怎么定,各个团 队可以自行商定。 通过排班、认领、升级这些机制,可以确保告警递达指定的人,但要处理告警的话,只有值班人员自己就 未必搞得定了,需要有协同机制把相关人都拉进来一起处理才可以。对于某个故障,可能同时有多个告警 障,大幅降低了打扰性。 不同的告警事件,通常有不同的分发逻辑,比如不同时段不同的分发逻辑:白天用短信通知,晚上用电话 通知,比如对象存储的告警要发给存储团队,物理机故障要发给运维团队。这都可以灵活定义。 也可以配置聚合窗口,比如延迟 120 秒,如果在延迟等待期内,告警自动恢复或被人工处理,则不会发送 该条告警。 OK,接下来就是通知给谁以及如何通知的问题了。比如通知某个人或者通知某个团队,也可以通知某个0 码力 | 23 页 | 1.75 MB | 1 年前3
 B站统⼀监控系统的设计,演进
与实践分享我们的挑战 • 技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 分析监控场景对应监控⼿手段 类型 metric类型 ⽇日志类型 ⾃自定义类型 ⼿手段 时间序列列数据 ⽇日志处理理流 ⾃自研 ⽤用户端监控 apm ⾃自研 客户端 播放器器 如何推进? 服务端监控 场景 分析监控场景对应监控⼿手段 类型 metric类型 ⽇日志类型 ⾃自定义类型 ⼿手段 时间序列列数据 ⽇日志处理理流 ⾃自研 ⽤用户端监控 prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule0 码力 | 34 页 | 650.25 KB | 1 年前3
 1.6 利用夜莺扩展能力打造全方位监控系统端上、链路、资源、组件、应用多维度跨云监控 端上 卡顿 崩溃 链路 连通性 链路质量 服务端 硬件资源 组件服务 业务应用 夜莺介绍:国产开源监控系统 第三部分 国产开源监控产品相对比较匮乏,夜莺希望重新定义国产开 源监控,支持云原生监控,经受了滴滴大规模生产检验 Nightingale 夜莺是新一代国产智能监控平台,既可以解决传统物理机虚拟机的场景,也可以解 决容器的场景。衍生自Open-F 夜莺数据采集 06. Serializer 夜莺数据采集 07. Forwarder 夜莺设计实现 Server 数据处理 第五部分 夜莺Server数据处理 01. 服务器 02. API 夜莺Server数据处理 03. AlarmRule Control 夜莺Server数据处理 04. CollectRule Control 夜莺Server数据处理 04. CollectRule0 码力 | 40 页 | 3.85 MB | 1 年前3
 Prometheus Deep Dive - Monitoring. At scale.Storage backend Caveat: Prometheus 2.0 comes with storage v3 Staleness handling Remote read & write API is now stable-ish Links to in-depth talks about these features are at the end Richard Hartmann & to 2.2.1 2.4 - 2.6 Beyond Outro Remote read API Playing nicely with others We now have a stable-ish remote read/write API Twelve integrations for this API Ongoing work to send write-ahead-log over the e.g. Cortex On storage level, there are object storage backends for Prometheus, e.g. Thanos Remote API can now send WAL over the wire to fill gaps in data There are twelve different systems which are able0 码力 | 34 页 | 370.20 KB | 1 年前3
 Intro to Prometheus - With a dash of operations & observability(How much time does this subroutine take?) Every service should have its own metrics endpoint Hard API commitments within major versions No built-in TLS yet, use reverse proxies for now Richard Hartmann0 码力 | 19 页 | 63.73 KB | 1 年前3
 PromQL 从入门到精通histogram_quantile 函数的用法,首先得了解 Histogram 类型的数据。Histogram 翻 译过来是柱状图,设计这个数据类型,是为了描述响应延时的情况。 比如接口:/api/v1/query,如何度量这个接口的健康状况?最核心有两个指标,一个是成功 率,一个是延迟,成功率的计算代价比较小,只需要为每个请求指标打上 statuscode 的标签即 可,然后可以求取非0 码力 | 16 页 | 2.77 MB | 1 年前3
共 6 条
- 1
 













