告警OnCall事件中心建设方法白皮书
中心建设方法 一站式处理值班 OnCall,智能降噪 北京快猫星云科技有限公司 前言 市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios、Zabbix、Open-Falcon、 Nightingale、Grafana、Prometheus、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云 监控、腾讯云的云监控、阿里云的 监控、腾讯云的云监控、阿里云的云监控,甚至有些云厂商会提供多个割裂的监控系统,比如阿里云不但 有云监控,还有 ARMS,还有 SLS。 大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的 Zabbix,Kubernetes 的监控可能 用的 Prometheus(Kubernetes 可能有多套,以至于 Prometheus 可能有多套)或者 Nightingale, 日志的监控可能用的 Elasta 第一个菜单就是协作空间,就是这个设 计初衷。 比如我们团队是负责公司的支付系统,我们就可以创建一个以“支付”命名的协作空间。之后把支付团队 相关的告警都接入这个协作空间,支付团队可能用了 Zabbix、Prometheus 等多个监控系统,所以, OnCall 这个产品需要提供多种数据集成方式,让告警事件很方便地上报上来。 集成中心 比如要接入 Prometheus 的告警事件,就需要创建一个0 码力 | 23 页 | 1.75 MB | 1 年前3
1.6 利用夜莺扩展能力打造全方位监控系统左图是2013年的一个新闻,讲 Google宕机的影响。2020年也出现 过aws大规模宕机的情况,影响不 止是55万美元,直接影响大半个 互联网! 2018年有美国调研机构指出,如 果服务器宕机1分钟,银行会损失 27万美元,制造业会损失42万美 元 美团故障?滴滴故障?腾讯故障? 运维监控需求来源 01.监控的原始需求来自业务稳定性 如何减少服务停摆导致的经济损失?尽快发 Serializer 夜莺数据采集 06. Serializer 夜莺数据采集 07. Forwarder 夜莺设计实现 Server 数据处理 第五部分 夜莺Server数据处理 01. 服务器 02. API 夜莺Server数据处理 03. AlarmRule Control 夜莺Server数据处理 04. CollectRule Control 夜莺Server数据处理0 码力 | 40 页 | 3.85 MB | 1 年前3
共 2 条
- 1













