告警OnCall事件中心建设方法白皮书事件 ONCALL 中心建设方法 一站式处理值班 OnCall,智能降噪 北京快猫星云科技有限公司 前言 市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios、Zabbix、Open-Falcon、 Nightingale、Grafana、Prometheus、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云 监控、腾 Nightingale, 日志的监控可能用的 Elastalert,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。 监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能 力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升 级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是 这种产品存在的价值。这些产品都是以 Duty 命名,核心就是支持告警 OnCall 值班处理的场景。 对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分 别进行探讨,下面先行探讨思路方法,看看要解决这些问题和需求,我们有哪些可能的解法。 思路方法篇 告警事件的后续处理:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环 处理等等。看起来需求很多,最核心的痛点有两个:0 码力 | 23 页 | 1.75 MB | 1 年前3
探讨和实践基于Istio的微服务治理事件监控Service Mesh Meetup #4 上海站 探讨和实践基于Istio的微服务治理事件监控 2018.11.25 徐运元关于我 2008年毕业于浙江大学,曾在思科和浙大网新有超过 9年的工作经验和5年的云计算领域工作经验,带领团 队完成公司第一代基于Kubernetes的云平台开发和第 二代基于Kubernetes的DevOps云平台开发。目前致力 于公司基于Istio的微服务平台打造。 Metrics Logging Tracing 指标监控 • 指标可被聚合 • 体现系统性能趋势 分布式追踪 • 和请求相关 • HTTP • SQL 日志系统 • 代码逻辑处理事件 • 异常、debug信息容器化和微服务下的监控需求 微观下的监控需求 快速错误追踪 可快速排查在性能测试场景下的 慢方法、异常调用以及异常报文 等信息 单次链路追踪 可细粒度排查应用单次链路调用0 码力 | 29 页 | 8.37 MB | 6 月前3
统一建模语言 UML 参考手册 - 基本概念���������������������������������������������������������������������������������������������� ��� 事件��������������������������������������������������������������������������������������������������� �������������������������������������������������������������������������������������������� ��� 标签值���������������������������������������������������������������������������������������������������� �������������������������������������������������������������������������������������������� ��� 调用事件���������������������������������������������������������������������������������������������������0 码力 | 123 页 | 2.61 MB | 1 年前3
《Java 应用与开发》课程讲义 - 王晓东. . . . . . 65 6.3.3 内存优化的小示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 6.3.4 对象其他生命周期阶段内存管理 . . . . . . . . . . . . . . . . . . . 67 6.4 课后习题 . . . . . . . . . . . . . . . . . . . . 134 vii 11.2 GUI 事件处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 11.2.1 Java 事件和事件处理机制 . . . . . . . . . . . . . . . . . . . . . . . 134 11.2.2 事件处理相关概念 . . . . . . . . . . . . 135 11.2.3 GUI 事件类型层次 . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 11.2.4 GUI 事件及相应监听器接口 . . . . . . . . . . . . . . . . . . . . . . 136 11.2.5 多重事件监听器 . . . . . . . . . . .0 码力 | 330 页 | 6.54 MB | 1 年前3
Nacos架构&原理
年的阿里五彩石项目,自主研发完全可控,经历十多年双 11 洪峰考验,沉淀了高性能、 高可用、可扩展的核心能力,2018 年开源后引起了开发者的广泛关注和大量使用。本书也将介绍 Nacos 偏 AP 分布式系统的设计、全异步事件驱动的高性能架构和面向失败设计的高可用设计理念 等。相信开发者阅读后不仅可以更深入了解 Nacos,也有助于提高分布式系统的设计研发能力。 阿里巴巴中间件负责人 - 胡伟琪(白慕) 阿里巴巴在 CURD 和打标能力,为实现上层流量和服务灰度非常关键。 19 > Nacos 架构 内核层 插件机制:实现三个模块可分可合能力,实现扩展点 SPI 机制,用于扩展自己公司定制。 事件机制:实现异步化事件通知,SDK 数据变化异步通知等逻辑,是 Nacos 高性能的关键部分。 日志模块:管理日志分类,日志级别,日志可移植性(尤其避免冲突),日志格式,异常码+帮 助文档。 回调机制:SDK 节点对于海量注册请求的统⼀协调和存储。 设计思想 Distro 协议的主要设计思想如下: Nacos 每个节点是平等的都可以处理写请求,同时把新数据同步到其他节点。 每个节点只负责部分数据,定时发送自己负责数据的校验值到其他节点来保持数据⼀致性。 每个节点独立处理读请求,及时从本地发出响应。 下面几节将分为几个场景进行 Distro 协议工作原理的介绍。 数据初始化 新加入的 Distro 节点会进行全量数据拉取。具体操作是轮询所有的0 码力 | 326 页 | 12.83 MB | 10 月前3
OpenShift Container Platform 4.10 构建应用程序(CLI) 创建、编辑、删除和管 理应用程序。 1.1. 使用项目 通过使用项目,您可以以隔离方式组织和管理应用程序。您可以在 OpenShift Container Platform 中管理 整个项目生命周期,包括创建、查看和删除项目。 在创建项目后,您可以使用 Developer 视角 授予或撤销对项目的访问权限,并为用户管理集群角色。您 还可以在创建用于自动置备新项目的项目模板时编辑项目配置资源。 特权的用户身份登录。 ii. 编辑 project.config.openshift.io/cluster 资源: 2. 更新 spec 部分,使其包含 projectRequestMessage 参数,并将值设为您的自定义消息: 带 带有自定 有自定义项 义项目 目请 请求消息的 求消息的项 项目配置 目配置资 资源 源 例如: 3. 保存更改后,请尝试用无法自助置备项目的开发人员或服务帐户创建一个新项目,以验证是否成 Chart 来简化应用程序和服务部署。 Devfile: 从 Devfile registry 中选择一个 devfile 来声明性地定义开发环境。 Event Source:选择一个事件源,从特定系统中注册对一类事件的兴趣。 注意 注意 如果安装了 RHOAS Operator,也可使用 Managed services 选项。 Git 存 存储库 储库:使用 From Git、From Devfile0 码力 | 198 页 | 3.62 MB | 1 年前3
OpenShift Container Platform 4.9 构建应用程序(CLI) 创建、编辑、删除和管 理应用程序。 1.1. 使用项目 通过使用项目,您可以以隔离方式组织和管理应用程序。您可以在 OpenShift Container Platform 中管理 整个项目生命周期,包括创建、查看和删除项目。 在创建项目后,您可以使用 Developer 视角 授予或撤销对项目的访问权限,并为用户管理集群角色。您 还可以在创建用于自动置备新项目的项目模板时编辑项目配置资源。 特权的用户身份登录。 ii. 编辑 project.config.openshift.io/cluster 资源: 2. 更新 spec 部分,使其包含 projectRequestMessage 参数,并将值设为您的自定义消息: 带 带有自定 有自定义项 义项目 目请 请求消息的 求消息的项 项目配置 目配置资 资源 源 例如: 3. 保存更改后,请尝试用无法自助置备项目的开发人员或服务帐户创建一个新项目,以验证是否成 Backed:选择和部署所需的 Operator 管理服务。 Helm Chart:选择所需的 Helm Chart 来简化应用程序和服务部署。 Event Source:选择一个事件源,从特定系统中注册对一类事件的兴趣。 注意 注意 如果安装了 RHOAS Operator,也可使用 Managed services 选项。 Git 存储库:使用 From Git、From Devfile0 码力 | 184 页 | 3.36 MB | 1 年前3
OpenShift Container Platform 4.13 虚拟化ssp-operator Templating: tekton-tasks-operator OLM 还会部署 hyperconverged-cluster-operator pod,它负责其他组件的部署、配置和生命周期,以 及几个 helper pod: hco-webhook 和 hyperconverged-cluster-cli-download。 成功部署所有 Operator pod 后,您应该创建 客户端命令 2.2. 关于 HCO-OPERATOR hco-operator (HCO)提供了一个单一入口点,用于部署和管理 OpenShift Virtualization 以及一些带有建 议的默认值的 helper operator。它还会为这些操作器创建自定义资源(CR)。 OpenShift Container Platform 4.13 虚 虚拟 拟化 化 8 表 表 2.1. hco-operator 设置、Linux VirtualMachines 的 SSH 密钥、Windows VirtualMachines 的 Sysprep 回答文件 Events 标签页 VirtualMachine 事件流 控制台 控制台 标签页 控制台会话管理 快照 快照标签页 快照管理 诊 诊断 断标签页 状态条件和卷快照状态 4.3.1.1. 概述 概述标签 Overview 选项卡显示资源使用情况、警报和配置信息。0 码力 | 393 页 | 4.53 MB | 1 年前3
OpenShift Container Platform 4.10 虚拟化观察节点网络状态 12.2. 更新节点网络配置 12.3. 对节点网络配置进行故障排除 第 第 13 章 章 日志 日志记录 记录、事件和 、事件和监 监控 控 13.1. 查看虚拟化概述 13.2. 查看虚拟机日志 13.3. 查看事件 13.4. 使用事件和条件诊断数据卷 13.5. 查看有关虚拟机工作负载的信息 13.6. 监控虚拟机健康状况 13.7. 使用 OPENSHIFT 中删除。它被 Migration Toolkit for Virtualization 替代。 此发行版本删除了 CentOS Linux 8 的模板,它在 2021 年 12 月 31 日达到 生命周期(EOL)结束。 但是,OpenShift Container Platform 现在包含 CentOS Stream 8 和 CentOS Stream 9 的模 板。 注意 注意 所有 CentOS containerDisk.path 字段 的值设置为绝对路径。然后您可以更新 OpenShift Virtualization。 如果单个节点包含超过 50 个镜像,pod 调度可能会在节点间进行平衡。这是因为节点上的镜像 列表默认简写为 50。(BZ#1984442) 作为临时解决方案,您可以通过编辑 KubeletConfig 对象,将 nodeStatusMaxImages 的值 设置为 -1 来禁用镜像限值。0 码力 | 307 页 | 3.45 MB | 1 年前3
OpenShift Container Platform 4.6 节点将 control plane 节点配置为可以调度 5.2.5. 删除节点 5.2.5.1. 从集群中删除节点 5.2.5.2. 从裸机集群中删除节点 5.2.6. 设置 SELinux 布尔值 5.2.7. 为节点添加内核参数 5.2.8. 其他资源 5.3. 管理节点 5.3.1. 修改节点 5.4. 管理每个节点的 POD 数量上限 5.4.1. 配置每个节点的最大 pod 数量 允许容器消耗 API 对象 6.5.1. 使用 Downward API 向容器公开 pod 信息 6.5.2. 了解如何通过 Downward API 消耗容器值 6.5.2.1. 使用环境变量消耗容器值 6.5.2.2. 使用卷插件消耗容器值 6.5.3. 了解如何使用 Downward API 消耗容器资源 6.5.3.1. 使用环境变量消耗容器资源 6.5.3.2. 使用卷插件消耗容器资源 启用不安全 sysctl 第 第 7 章 章 操作集群 操作集群 7.1. 查看 OPENSHIFT CONTAINER PLATFORM 集群中的系统事件信息 7.1.1. 了解事件 7.1.2. 使用 CLI 查看事件 7.1.3. 事件列表 7.2. 估算 OPENSHIFT CONTAINER PLATFORM 节点可以容纳的 POD 数量 7.2.1. 了解 OpenShift Container0 码力 | 404 页 | 3.60 MB | 1 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100













