告警OnCall事件中心建设方法白皮书
中心建设方法 一站式处理值班 OnCall,智能降噪 北京快猫星云科技有限公司 前言 市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios、Zabbix、Open-Falcon、 Nightingale、Grafana、Prometheus、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云 监控、腾讯云的云监控、阿里云的 监控、腾讯云的云监控、阿里云的云监控,甚至有些云厂商会提供多个割裂的监控系统,比如阿里云不但 有云监控,还有 ARMS,还有 SLS。 大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的 Zabbix,Kubernetes 的监控可能 用的 Prometheus(Kubernetes 可能有多套,以至于 Prometheus 可能有多套)或者 Nightingale, 日志的监控可能用的 Elasta 第一个菜单就是协作空间,就是这个设 计初衷。 比如我们团队是负责公司的支付系统,我们就可以创建一个以“支付”命名的协作空间。之后把支付团队 相关的告警都接入这个协作空间,支付团队可能用了 Zabbix、Prometheus 等多个监控系统,所以, OnCall 这个产品需要提供多种数据集成方式,让告警事件很方便地上报上来。 集成中心 比如要接入 Prometheus 的告警事件,就需要创建一个0 码力 | 23 页 | 1.75 MB | 1 年前3
Prometheus Deep Dive - Monitoring. At scale.Storage backend Caveat: Prometheus 2.0 comes with storage v3 Staleness handling Remote read & write API is now stable-ish Links to in-depth talks about these features are at the end Richard Hartmann & to 2.2.1 2.4 - 2.6 Beyond Outro Remote read API Playing nicely with others We now have a stable-ish remote read/write API Twelve integrations for this API Ongoing work to send write-ahead-log over the e.g. Cortex On storage level, there are object storage backends for Prometheus, e.g. Thanos Remote API can now send WAL over the wire to fill gaps in data There are twelve different systems which are able0 码力 | 34 页 | 370.20 KB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule0 码力 | 34 页 | 650.25 KB | 1 年前3
Intro to Prometheus - With a dash of operations & observability(How much time does this subroutine take?) Every service should have its own metrics endpoint Hard API commitments within major versions No built-in TLS yet, use reverse proxies for now Richard Hartmann0 码力 | 19 页 | 63.73 KB | 1 年前3
1.6 利用夜莺扩展能力打造全方位监控系统夜莺数据采集 06. Serializer 夜莺数据采集 07. Forwarder 夜莺设计实现 Server 数据处理 第五部分 夜莺Server数据处理 01. 服务器 02. API 夜莺Server数据处理 03. AlarmRule Control 夜莺Server数据处理 04. CollectRule Control 夜莺Server数据处理 04. CollectRule0 码力 | 40 页 | 3.85 MB | 1 年前3
PromQL 从入门到精通histogram_quantile 函数的用法,首先得了解 Histogram 类型的数据。Histogram 翻 译过来是柱状图,设计这个数据类型,是为了描述响应延时的情况。 比如接口:/api/v1/query,如何度量这个接口的健康状况?最核心有两个指标,一个是成功 率,一个是延迟,成功率的计算代价比较小,只需要为每个请求指标打上 statuscode 的标签即 可,然后可以求取非0 码力 | 16 页 | 2.77 MB | 1 年前3
共 6 条
- 1













