权限管理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

告警OnCall事件中心建设方法白皮书

聊天群组，平时都不用关注，只要每天早上上班或晚上下班之前稍微看一眼就行，这样就可以减少打扰。制定了这个原则之后，如果大家不遵守怎么办呢？还是有很多告警没有对应的 Runbook，作为管理人员，我们应该怎么处理？我的建议是分产品线统计一个指标：“Runbook 预置率”，就是各个产品线有多少告警规则配置了 Runbook，有多少没有配置，这个比例要统计出来，然后做成红黑榜，让大家去治告警升级机制需要认领功能的配合，也就是一线人员收到告警之后要通过某种机制告诉系统：“我已知晓告警，现在我开始处理了，你不要升级了”。典型的认领功能一般是做在页面上的，告警后打开告警事件管理中心，选中相关告警一键认领，也可以通过上行短信或即时通讯工具中的上行回调机制来完成。升级机制会给值班人员很大的压力，毕竟谁也不想稍不留神就把电话打到老板那里，所以一般只有严重的告警才既然没办法把告警自动收敛成故障，那就手工来做。一个故障关联的关键告警，还是相对容易区分的，只要把关键告警关联到故障，后续基于这个故障做协同就可以了。所谓协同，一个是信息同步、协同处理，一个是共同复盘、管理跟进项。故障协同处理首先，并不是所有的告警都需要升级成故障协同处理。一般来讲，如果告警可以被值班人员直接处理掉，对别的团队负责的服务没有影响，不需要通知别的团队，通常是不需要升级成故障的，在告警层面来协同

0 码力 | 23 页 | 1.75 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

prometheus target target target alert_manager 告警平服务 cache db平台 rms资外围系统监控⽬目规则⽣生告警规 api 规则管理理获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取  监控⽬目标  告警规则 web push rule push prometheus target target target alert_manager 告警平服务 cache db平台 rms资外围系统监控⽬目规则⽣生告警规 api 规则管理理获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取  监控⽬目标  告警规则 web push rule push 规则⽣生告警规 api 规则管理理获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取  监控⽬目标  告警规则 web push rule push rule 获取监控数据获取监控数据推送告警 1. 降低编写规则的成本 2. 降低多idc维护成本规则管理理⻚页⾯面例例⼦子 - 业务监控

0 码力 | 34 页 | 650.25 KB | 1 年前
3
1.6 利用夜莺扩展能力打造全方位监控系统

进程存活端口监控插件脚本日志监控网络设备中间件类数据库类 • 支持在web上配置采集策略，不同的采集可以指定不同的探针机器、目标机器，便于管理和知识传承 • 独创在端上流式读取日志，根据正则提取指标的机制，轻量易用，无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设备的采集，复用telegraf和datadog-agent的能力夜莺Server数据处理 05. data - write 夜莺Server数据处理 06. data - read 夜莺Server数据处理夜莺设计实现技术难点及细节第六部分 0１. 规则集中化管理及自动发现夜莺技术难点及细节 0２. 采集器夜莺技术难点及细节 0２. 数据序列化及传输问题夜莺技术难点及细节 Thank you

0 码力 | 40 页 | 3.85 MB | 1 年前
3

共 3 条前往

页

告警 OnCall 事件中心建设方法白皮皮书白皮书监控系统设计演进实践分享 1.6 利用夜莺扩展能力打造方位全方位

分类

语言

格式

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进与实践分享

1.6 利用夜莺扩展能力打造全方位监控系统

分类

语言

格式

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进 与实践分享

1.6 利用夜莺扩展能力打造全方位监控系统

B站统⼀监控系统的设计,演进与实践分享