告警OnCall事件中心建设方法白皮书
这个产品需要提供多种数据集成方式,让告警事件很方便地上报上来。 集成中心 比如要接入 Prometheus 的告警事件,就需要创建一个 Prometheus 类型的集成(Integration),要接 入 Nightingale 的告警事件,就需要创建一个 Nightingale 类型的集成(Integration),点击上例中的 “支付”协作空间,进入协作空间详情,其中有个【集成数据】的入口: : 上例中我已经创建过多个集成了,你的环境是新的,只需要点击【+新增一个集成】,选择集成类型,随便 输入一个集成名称,就可以创建一个集成。 创建完了集成之后,点击这个集成查看详情,会看到一个专属的 URL,以及相关的接入文档,去监控系 统里配置 Webhook,Webhook 地址就写这个 URL,这样监控系统告警的时候,就会把告警事件推给 FlashDuty 的这个“支付”协作空间了。 的这个“支付”协作空间了。 在协作空间下面创建的集成,我们称为「专属集成」,还有一类集成称为「全局集成」,在集成中心这个菜 单下。监控系统通过 Webhook 发给「全局集成」的告警事件,怎么进入协作空间的呢?通过在协作空 间里配置订阅规则。 订阅规则 订阅规则是一些过滤条件(通过事件标签、属性等),用于匹配告警事件,匹配到的告警事件,自动进入 这个协作空间。 比如:根据标签0 码力 | 23 页 | 1.75 MB | 1 年前31.6 利用夜莺扩展能力打造全方位监控系统
利用夜莺扩展能力打造全方位监控系统 喻波 滴滴 专家工程师 目 录 运维监控需求来源 01 监控痛点:全面完备、跨云 02 夜莺介绍: 国产开源监控系统 03 夜莺设计实现:Agentd 数据采集 04 夜莺设计实现:Server 数据处理 05 夜莺设计实现:技术难点及细节 06 运维监控需求来源 第一部分 如果贵司的业务强依赖IT技术,IT故障会直接影响营业收入, 稳定性体系一定要重视起来,而监控,就是稳定性体系中至 夜莺设计实现 Agentd 数据采集 第四部分 监控系统的核心功能,是数据采集、存储、分析、展示,完 备性看采集能力,是否能够兼容并包,纳入更多生态的能力, 至关重要 夜莺数据采集 01.监控数据采集,all in one的agentd Agentd 进程存 活 端口监 控 插件脚 本 日志监 控 网络设 备 中间件 类 数据库 类 • 支持在web上配置采集策略,不同的采集可以指定 机制,轻量易用,无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设 备的采集,复用telegraf和datadog-agent的能力 • 支持statsd的udp协议,用于业务应用的apm监控 分析 夜莺数据采集 01.监控数据采集,all in one的agentd 夜莺数据采集 02. Autoconfig Forwarder 夜莺数据采集 02. Autoconfig0 码力 | 40 页 | 3.85 MB | 1 年前3PromQL 从入门到精通
户提供监控/可观测性产品 方案,有需求的朋友欢迎联系我的微信 picobyte。 数据类型 Prometheus 有四种数据类型:Gauge、Counter、Histogram、Summary,其中最关键的是 Gauge 和 Counter,Histogram 和 Summary 只是为了上报监控数据的 Client 侧的便利,可 以看做是组合使用了 Gauge 和 Counter。所以我们重点就来讲解 分钟的 load、正在运行的进程数量等等,都使用 Gauge 类 型来表示。这种类型的值,我们非常关注当前值。 Counter 类型 Counter 类型是单调递增的值,比如机器上某块网卡收到的数据包的总量,是从操作系统启动 之后,就持续递增的,对于这种类型的值,我们通常关注的不是当前值是多少,而是关注增量和 变化率。我们在机器上执行 ifconfig 命令: eth0: flags=4163数据采集器而言,一般是周期性运行的,比如每 10 秒采集一次,每次采集网卡收 到/发出的包这个数据的时候,都只能采集到当前的值,就像执行 ifconfig 命令,每 10 秒执行 一次,每次都看到一个巨大的当前值,而且一次比一次大。如果采集器不做计算,把这个值原封 不动上报给监控服务端,那计算增量、计算速率这个需求,就要放到服务端来实现了,所以服务 端必须要能对这种类型的数据建模抽象,也就是所谓的 0 码力 | 16 页 | 2.77 MB | 1 年前3B站统⼀监控系统的设计,演进 与实践分享
metric类型 ⽇日志类型 ⾃自定义类型 ⼿手段 时间序列列数据 ⽇日志处理理流 ⾃自研 ⽤用户端监控 apm ⾃自研 客户端 播放器器 如何推进? 服务端监控 场景 分析监控场景对应监控⼿手段 类型 metric类型 ⽇日志类型 ⾃自定义类型 ⼿手段 时间序列列数据 ⽇日志处理理流 ⾃自研 ⽤用户端监控 apm ⾃自研 客户端 播放器器 metric⽅方案选型 • 能覆盖⼤大部分监控场景 • 固定⼏几种数据类型 ✦ Counter ✦ Gauge ✦ 等.. • 时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征 选型原则 • 基于开源⽅方案,⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境 结论 • prometheus prometheus IDC Federation pr s s s pr I pr s s s pr I IDC1 IDC2 prometheus prometheus filter数据 精度降低 建议 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资0 码力 | 34 页 | 650.25 KB | 1 年前3
共 4 条
- 1