可视化需求 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

告警OnCall事件中心建设方法白皮书

Prometheus 可能有多套）或者 Nightingale，日志的监控可能用的 Elastalert，如果上云了，可能还会有多套不同的云监控（尤其是多云场景下）。监控系统的重心，通常是采集、存储、可视化、生成告警事件，但通常都不具有完备的事件后续处理能力。这里说的后续处理主要包括：多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力，但是通常都不完备，而这，正是值班处理的场景。对于告警事件的后续处理，有哪些问题和需求以及何为最佳实践？我们从思路方法和工具实践两个方面分别进行探讨，下面先行探讨思路方法，看看要解决这些问题和需求，我们有哪些可能的解法。思路方法篇告警事件的后续处理：多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。看起来需求很多，最核心的痛点有两个： ● 告警太多，打扰太多 OnCall 中心的工具实践。工具实践篇称手好用的工具是可以大幅提升效率的，同时，好的工具可以沉淀最佳实践，沉淀经验，假设由你来设计一款 OnCall 产品，处理告警分发相关的这一系列需求，你会如何设计呢？接下来，我们站在设计者的角度，来讲解产品设计逻辑和实践方法，会更容易理解。空间管理通常来讲，一个公司不但会使用多个监控系统，而且会有很多个团队，如果所有的告警事件都在一个地方

0 码力 | 23 页 | 1.75 MB | 1 年前
3
PromQL 从入门到精通

本文作者：秦晓辉，Open-Falcon、Nightingale 等开源项目创始人之一，极客时间《运维监控系统实战笔记》作者；当前在创业（快猫星云联创），为客户提供监控/可观测性产品方案，有需求的朋友欢迎联系我的微信 picobyte。数据类型 Prometheus 有四种数据类型：Gauge、Counter、Histogram、Summary，其中最关键的是 Gauge 和 Counter，Histogram 当前的值，就像执行 ifconfig 命令，每 10 秒执行一次，每次都看到一个巨大的当前值，而且一次比一次大。如果采集器不做计算，把这个值原封不动上报给监控服务端，那计算增量、计算速率这个需求，就要放到服务端来实现了，所以服务端必须要能对这种类型的数据建模抽象，也就是所谓的 Counter 类型。时序数据 PromQL 就是查询时序数据的一种 Query Language，要想对仍然可以达成相同的效果。有时采集的监控数据格式设计的不好，一些本该用 label 的信息，放到了 metric 名称中了，此时就可以用 __name__ 做一些正则匹配。 Offset 监控系统里，经常会有同环比的需求，比如，当前的值相比一周之前，是否有巨大变化，那怎么才能获取历史数据呢？可以使用 offset 关键字。 offset 后面跟一个时间段，比如 5m、1d、7d、1w，offset 要紧跟查询选择器，比如：

0 码力 | 16 页 | 2.77 MB | 1 年前
3
1.6 利用夜莺扩展能力打造全方位监控系统

利用夜莺扩展能力打造全方位监控系统喻波滴滴专家工程师目录运维监控需求来源 01 监控痛点：全面完备、跨云 02 夜莺介绍：国产开源监控系统 03 夜莺设计实现：Agentd 数据采集 04 夜莺设计实现：Server 数据处理 05 夜莺设计实现：技术难点及细节 06 运维监控需求来源第一部分如果贵司的业务强依赖IT技术，IT故障会直接影响营业收入，稳关重要的一环运维监控需求来源 01.监控的原始需求来自业务稳定性左图是2013年的一个新闻，讲 Google宕机的影响。2020年也出现过aws大规模宕机的情况，影响不止是55万美元，直接影响大半个互联网！ 2018年有美国调研机构指出，如果服务器宕机1分钟，银行会损失 27万美元，制造业会损失42万美元美团故障？滴滴故障？腾讯故障？运维监控需求来源 01.监控的原始需求来自业务稳定性监控的原始需求来自业务稳定性如何减少服务停摆导致的经济损失？尽快发现故障并止损！故障处理过程中，监控是『发现』和『定位』两个环节的关键工具。故障处理过程的首要原则是『止损』，因此，过程中的『发现』和『定位』都是面向尽快『止损』来实现。监控痛点：全面完备、跨云第二部分端上、链路、资源、组件、应用多维度跨云监控，不管哪个环节出问题都能及时感知产品要求 01.端上、链路、资源、组件、应用多维度跨云监控

0 码力 | 40 页 | 3.85 MB | 1 年前
3

共 3 条前往

页

告警 OnCall 事件中心建设方法白皮皮书白皮书 PromQL Prometheus 1.6 利用夜莺扩展能力打造方位全方位监控系统

分类

语言

格式

告警OnCall事件中心建设方法白皮书

PromQL 从入门到精通

1.6 利用夜莺扩展能力打造全方位监控系统