B站统⼀监控系统的设计,演进
与实践分享分析监控场景对应监控⼿手段 类型 metric类型 ⽇日志类型 ⾃自定义类型 ⼿手段 时间序列列数据 ⽇日志处理理流 ⾃自研 ⽤用户端监控 apm ⾃自研 客户端 播放器器 如何推进? 服务端监控 场景 分析监控场景对应监控⼿手段 类型 metric类型 ⽇日志类型 ⾃自定义类型 ⼿手段 时间序列列数据 ⽇日志处理理流 ⾃自研 ⽤用户端监控 ⽤用户端监控 apm ⾃自研 客户端 播放器器 metric⽅方案选型 • 能覆盖⼤大部分监控场景 • 固定⼏几种数据类型 ✦ Counter ✦ Gauge ✦ 等.. • 时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征 选型原则 • 基于开源⽅方案,⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境 IDC HA prometheus server1 server2 server3 prometheus IDC Federation pr s s s pr I pr s s s pr I IDC1 IDC2 prometheus prometheus filter数据 精度降低 建议 降低使⽤用成本 agent prometheus target0 码力 | 34 页 | 650.25 KB | 1 年前3
告警OnCall事件中心建设方法白皮书
很多监控系统都可以配置 Webhook,当告警触发之后自动回调某个 HTTP 接口,来串联一些自动化的 逻辑,让告警事件无人值守自动处理。比如某个机房的某个服务挂掉了,Webhook 的逻辑是自动调用切 流的接口,把服务流量切走,这样来达到止损的目的。 告警自动处理的这段逻辑,未必一定能够做到告警自愈,有的时候只是使用这个机制来抓现场,也是非常 有价值的。比如某个进程挂掉了,在挂掉的时候我想 的告警事件,就需要创建一个 Prometheus 类型的集成(Integration),要接 入 Nightingale 的告警事件,就需要创建一个 Nightingale 类型的集成(Integration),点击上例中的 “支付”协作空间,进入协作空间详情,其中有个【集成数据】的入口: 上例中我已经创建过多个集成了,你的环境是新的,只需要点击【+新增一个集成】,选择集成类型,随便 输入一个集成名称,就可以创建一个集成。0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通数据类型 Prometheus 有四种数据类型:Gauge、Counter、Histogram、Summary,其中最关键的是 Gauge 和 Counter,Histogram 和 Summary 只是为了上报监控数据的 Client 侧的便利,可 以看做是组合使用了 Gauge 和 Counter。所以我们重点就来讲解 Gauge 和 Counter 类型。 Gauge 类型 Gauge Gauge 类型的值表示当前的状态,可大可小、可负可正,比如某个虚机实例挂了,用 0 表示, 如果实例存活,用 1 表示;再比如内存使用率,这个时刻采集是 33.7%,下个周期采集可能就 变成了 25.8%;还有像机器最近 5 分钟的 load、正在运行的进程数量等等,都使用 Gauge 类 型来表示。这种类型的值,我们非常关注当前值。 Counter 类型 Counter 类型是单调递增 类型是单调递增的值,比如机器上某块网卡收到的数据包的总量,是从操作系统启动 之后,就持续递增的,对于这种类型的值,我们通常关注的不是当前值是多少,而是关注增量和 变化率。我们在机器上执行 ifconfig 命令: eth0: flags=4163mtu 1500 inet 10.206.0.16 netmask 255 0 码力 | 16 页 | 2.77 MB | 1 年前3
OpenMetrics - Standing on the shoulders of Titansand stake claiming, aka fragmentation I don’t have a profit motive, so I can easily decide to try and consolidate this space without profit loss ..so that’s what I decided to do Richard Hartmann, RichiH@{freenode series can point to one single event Especially useful if you emit one trace id per histogram bucket, i.e. exemplars Some integrations already support this concept, e.g. OpenCensus Ingestors are free to Prometheus 2017 Dev Summit: https://docs.google.com/document/d/ 1DaHFao0saZ3MDt9yuuxLaCQg8WGadO8s44i3cxSARcM/edit OpenMetrics: https://github.com/OpenObservability/OpenMetrics OpenMetrics mailing list:0 码力 | 21 页 | 84.83 KB | 1 年前3
Prometheus Deep Dive - Monitoring. At scale.Prometheus 2017 Dev Summit: https://docs.google.com/document/d/ 1DaHFao0saZ3MDt9yuuxLaCQg8WGadO8s44i3cxSARcM/edit Prometheus 2018 Dev Summit: https://docs.google.com/document/d/ 1-C5PycocOZEVIPrmM1hn0 码力 | 34 页 | 370.20 KB | 1 年前3
共 5 条
- 1













