告警OnCall事件中心建设方法白皮书事件 ONCALL 中心建设方法 一站式处理值班 OnCall,智能降噪 北京快猫星云科技有限公司 前言 市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios、Zabbix、Open-Falcon、 Nightingale、Grafana、Prometheus、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云 监控、腾 Nightingale, 日志的监控可能用的 Elastalert,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。 监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能 力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升 级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是 这种产品存在的价值。这些产品都是以 Duty 命名,核心就是支持告警 OnCall 值班处理的场景。 对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分 别进行探讨,下面先行探讨思路方法,看看要解决这些问题和需求,我们有哪些可能的解法。 思路方法篇 告警事件的后续处理:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环 处理等等。看起来需求很多,最核心的痛点有两个:0 码力 | 23 页 | 1.75 MB | 1 年前3
探讨和实践基于Istio的微服务治理事件监控Service Mesh Meetup #4 上海站 探讨和实践基于Istio的微服务治理事件监控 2018.11.25 徐运元关于我 2008年毕业于浙江大学,曾在思科和浙大网新有超过 9年的工作经验和5年的云计算领域工作经验,带领团 队完成公司第一代基于Kubernetes的云平台开发和第 二代基于Kubernetes的DevOps云平台开发。目前致力 于公司基于Istio的微服务平台打造。 Metrics Logging Tracing 指标监控 • 指标可被聚合 • 体现系统性能趋势 分布式追踪 • 和请求相关 • HTTP • SQL 日志系统 • 代码逻辑处理事件 • 异常、debug信息容器化和微服务下的监控需求 微观下的监控需求 快速错误追踪 可快速排查在性能测试场景下的 慢方法、异常调用以及异常报文 等信息 单次链路追踪 可细粒度排查应用单次链路调用0 码力 | 29 页 | 8.37 MB | 6 月前3
统一建模语言 UML 参考手册 - 基本概念���������������������������������������������������������������������������������������������� ��� 事件��������������������������������������������������������������������������������������������������� �������������������������������������������������������������������������������������������� ��� 调用事件��������������������������������������������������������������������������������������������������� ��� 概念范围 概念范围 概念范围 概念范围� ��� 概念和模型可以被划分为以下的范围 � 静态结构 静态结构 静态结构 静态结构 精确的模型必须首先定义讨论的各种事物 即应用中的关键概念 它们的内部 特征和相互之间的关系 该一系列构造是静态视图 应用概念建模成类 类描述了一系列 拥有信息和相互通讯以实现行为的离散对象 对象所拥有的信息建模成属性 它们执行的 行为建模成操作 多个类可以使用概括共享通用的结构0 码力 | 123 页 | 2.61 MB | 1 年前3
Zabbix 7.0 中文手册. . . . . . . . . . . . . . 337 4 事件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 5 事件关联 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388 10 事件通知 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 部分详细介绍了如何使用 Zabbix 对监控环境进行高级别的概览。 Web 监控 可以帮助您了解如何监控网站的可用性。 虚拟机监控 提供了配置 VMware 环境监控的方法。 维护 ,正则表达式,事件确认 和XML 导入/导出 部分进一步说明如何使用 Zabbix 软件的各个方面。 发现 包含有关设置网络设备、主动模式的 agent(自动注册)、文件系统、网络接口等的自动发现的说明。 分布式监控0 码力 | 1951 页 | 33.43 MB | 1 年前3
Zabbix 4.0 中文手册. . . . . . . . . . . . . . 659 4 事件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 682 5 事件关联 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 732 9 事件通知 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . error logs, configuration, version, etc.) 4 实时导出事件,监控项采集值,趋势数据 4 Real-time export of events, values, trends 概述 Overview 可以配置使用换行符分隔的 JSON 格式实时导出触发器事件,监控项采集值,趋势数据。 It is possible to configure real-time0 码力 | 1992 页 | 17.90 MB | 1 年前3
Zabbix 4.4 中文手册. . . . . . . . . . . . . . 528 4 事件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550 5 事件关联 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637 9 事件通知(ZX) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . error logs, configuration, version, etc.) 4 实时导出事件,监控项采集值,趋势数据 4 Real-time export of events, values, trends 概述 Overview 可以配置使用换行符分隔的 JSON 格式实时导出触发器事件,监控项采集值,趋势数据。 It is possible to configure real-time0 码力 | 1850 页 | 13.52 MB | 1 年前3
OpenShift Container Platform 4.7 日志记录. . . . . . . . . 2.1.1. 关于 JSON OpenShift Container Platform Logging 2.1.2. 关于收集并存储 Kubernetes 事件 2.1.3. 关于更新 OpenShift Container Platform Logging 2.1.4. 关于查看集群仪表板 2.1.5. 关于 OpenShift Container Platform 关于导出字段 2.1.8. 关于 OpenShift Logging 组件 2.1.9. 关于日志记录收集器 2.1.10. 关于日志存储 2.1.11. 关于日志记录视觉化 2.1.12. 关于事件路由 2.1.13. 关于日志转发 第 第 3 章 章 安装 安装 OPENSHIFT LOGGING 3.1. 使用 WEB 控制台安装 OPENSHIFT LOGGING 3.2. 安装后的任务 ELASTICSEARCH 配置 JSON 日志数据 8.3. 将 JSON 日志转发到 ELASTICSEARCH 日志存储 第 第 9 章 章 收集并存 收集并存储 储 KUBERNETES 事件 事件 9.1. 部署和配置事件路由器 第 第 10 章 章 更新 更新 OPENSHIFT LOGGING 10.1. 从 OPENSHIFT CONTAINER PLATFORM 4.6 或更早版本的集群日志记录升级到0 码力 | 183 页 | 1.98 MB | 1 年前3
Zabbix 4.2 中文手册. . . . . . . . . . . . . . 538 4 事件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 560 5 事件关联 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 647 9 事件通知(ZX) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . error logs, configuration, version, etc.) 4 实时导出事件,监控项采集值,趋势数据 4 Real-time export of events, values, trends 概述 Overview 可以配置使用换行符分隔的 JSON 格式实时导出触发器事件,监控项采集值,趋势数据。 It is possible to configure real-time0 码力 | 1869 页 | 13.68 MB | 1 年前3
OpenShift Container Platform 4.8 日志记录ELASTICSEARCH 配置 JSON 日志数据 8.3. 将 JSON 日志转发到 ELASTICSEARCH 日志存储 第 第 9 章 章 收集并存 收集并存储 储 KUBERNETES 事件 事件 9.1. 部署和配置事件路由器 第 第 10 章 章 更新 更新 OPENSHIFT LOGGING 10.1. 从 OPENSHIFT CONTAINER PLATFORM 4.6 或更早版本的集群日志记录升级到 态。在这个版本中,Operator 会在重启过程中进入新 pod 前将新 pod 标记为 ready,这会解决这 个问题。(LOG-2881) 在此次更新之前,添加多行错误检测会导致内部路由更改并将记录转发到错误的目的地。在这个 版本中,内部路由正确。(LOG-2946) 在此次更新之前,Operator 无法使用带引号的布尔值值解码索引设置 JSON 响应,并导致错误。 在这个版本中,Operator 可以正确解码这个 被删除,则不会重新创建它们。在这个版 本中,elasticsearch-operator 会监视资源,并在删除时自动重新创建这些资源。(LOG-2250) 在此次更新之前,调整缓冲区块大小可能会导致收集器生成超过事件流字节限制的块大小警告。 在这个版本中,您还可以调整读行限制,并解决问题。(LOG-2379) 在此次更新之前,OpenShift WebConsole 中的日志记录控制台链接不会被 ClusterLogging0 码力 | 223 页 | 2.28 MB | 1 年前3
Nacos架构&原理
年的阿里五彩石项目,自主研发完全可控,经历十多年双 11 洪峰考验,沉淀了高性能、 高可用、可扩展的核心能力,2018 年开源后引起了开发者的广泛关注和大量使用。本书也将介绍 Nacos 偏 AP 分布式系统的设计、全异步事件驱动的高性能架构和面向失败设计的高可用设计理念 等。相信开发者阅读后不仅可以更深入了解 Nacos,也有助于提高分布式系统的设计研发能力。 阿里巴巴中间件负责人 - 胡伟琪(白慕) 阿里巴巴在 TOC 成员 - 李响 服务注册、发现与配置管理是构成大型分布式系统的基石。Nacos 是集成了这三种能力的现代化、 开源开放的代表系统。本书系统化的介绍了 Nacos 诞生的历史背景以及其在阿里集团内部孕育的过 程,阐述了打造⼀款实用、易用系统的全过程。另外,本书也从设计、架构方面详细介绍了 Nacos 的实现,分享了 Nacos 在业内的最佳实践和用户案例。相信对分布式系统和其实现有兴趣的 在阿里也触发过大故障,经历过数次血与火的考验。 在阿里数次架构升级中,Nacos 都做了大量的功能迭代,用来支持阿里的异地多活,容灾演练,容 器化,Serverless 化。Nacos 经过阿里内部锤炼十年以上,各项指标已经及其先进,稳定,为服务 好全球开发者,Nacos 经过数十名工程师持续努力,以开源形式和大家见面,相信 Nacos ⼀定能在 分布式领域成为开发者的首选项。 9 > 前言0 码力 | 326 页 | 12.83 MB | 10 月前3
共 901 条
- 1
- 2
- 3
- 4
- 5
- 6
- 91













