告警OnCall事件中心建设方法白皮书市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios、Zabbix、Open-Falcon、Nightingale、Grafana、Prometheus、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云监控、腾讯云的云监控、阿里云的云监控,甚至有些云厂商会提供多个割裂的监控系统,比如阿里云不但有云监控,还有 ARMS,还有 SLS。 大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的 大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的 Zabbix,Kubernetes 的监控可能用的 Prometheus(Kubernetes 可能有多套,以至于 Prometheus 可能有多套)或者 Nightingale,日志的监控可能用的 Elastalert,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。 监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理 能力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是PagerDuty FlashDuty这种产品存在的价值。这些产品都是以 Duty 命名,核心就是支持告警 OnCall 值班处理的场景。  # OpenShift Container Platform 4.10 ## 监控 在 OpenShift Container Platform 中配置和使用监控堆栈 100% FREE! 在 OpenShift Container Platform 中配置和使用监控堆栈 ## 法律通告 Copyright © 2023 Red Hat, Inc. The text Container Platform 中配置和使用 Prometheus 监控堆栈的说明。 ## 目录 第1章 监控概述 ..... 4 1.1. 关于 OPENSHIFT CONTAINER PLATFORM 监控 ..... 4 1.2. 了解监控堆栈 ..... 4 1.3. OPENSHIFT CONTAINER PLATFORM 监控的常见术语表 ..... 8 1.4. 其他资源 .. . 10 第2章 配置监控堆栈 ..... 11 2.1. 先决条件 ..... 11 2.2. 对监控的维护和支持 ..... 11 2.3. 准备配置监控堆栈 ..... 12 2.4. 配置监控堆栈 ..... 14 2.5. 可配置的监控组件 ..... 16 2.6. 使用节点选择器移动监控组件 ..... 17 2.7. 为监控组件分配容忍(TOLERATIONS)0 码力 | 135 页 | 1.58 MB | 2 年前3
主从监控项经验分享ZABBIX 2020 Conference CHINA ## 演讲主题 主从监控项经验分享 演讲嘉宾 伍昕 宏时数据 ## 01 ## 主从监控项简介 ## Zabbix的一个使用场景 场景: Zabbix的一次数据采集可能获取多个值,(比如与第三方系统对接,获取数据库所有状态) show global variables;  Zabbix server ## 主从监控项 ## Dependent Items ## http://exporter_ip:9100/metrics ## ← → C A 不安全 | 100/metrics  监控项 DEPENDENT ITEM 第二步: 数据预处理 PREPROCESSING ## 主监控项准备 Dependent Items 创建一个自定义监控项: 修改配置agent0 码力 | 26 页 | 3.92 MB | 2 年前3
OpenShift Container Platform 4.14 电源监控.jpg) ### OpenShift Container Platform 4.14 ## 电源监控 为 Red Hat OpenShift 配置和使用电源监控 Powered by TCPDF (www.tcpdf.org) 为 Red Hat OpenShift 配置和使用电源监控 ## 法律通告 Copyright $ ^{©} $ 2024 Red Hat, Inc. The 您可以使用电源监控来监控 OpenShift Container Platform 集群中运行的每个容器的功耗,如 CPU 和 DRAM。 ## 目录 第1章 RED HAT OPENSHIFT 发行注记 ..... 3 1.1. 电源监控 0.1(技术预览) ..... 3 第2章 电源监控概述 ..... 4 2.1. 关于电源监控 ..... 4 2.2. 电源监控架构 ... OPENSHIFT 安装电源监控 ..... 6 3.1. 安装 POWER 监控 OPERATOR ..... 6 3.2. 部署 KEPLER ..... 6 第4章 配置电源监控 ..... 8 4.1. KEPLER 配置 ..... 8 4.2. 监控 KEPLER 状态 ..... 9 第5章 视觉化电源监控指标 ..... 11 5.1. 电源监控仪表板概述 ...0 码力 | 20 页 | 350.27 KB | 2 年前3
监控Apache Flink应用程序(入门)# 监控Apache Flink应用程序(入门) caolei Exported on 01/10/2020 ## Table of Contents 1 Flink指标体系 ..... 5 1.1 Metrics ..... 5 1.2 MetricsReporters ..... 5 2 健康状况 ..... 6 3 监控 ..... 7 3.1 关键指标 ..... 7 3.2 仪表盘示例 ..... 8 3.3 可能的报警条件 ..... 9 4 进度和吞吐量监控 ..... 10 4.1 吞吐量 ..... 10 4.2 关键指标 ..... 10 4.3 仪表盘示例 ..... 11 4.4 可能的报警条件 ..... 11 4.5 进度 ..... 12 4.6 关键指标 ..... 12 4.7 仪表盘示例 com/blog/monitoring-apache-flink-applications-101 这篇博文介绍了Apache Flink内置的监控和度量系统,通过该系统,开发人员可以有效地监控他们的Flink作业。通常,对于一个刚刚开始使用Apache Flink进行流处理的DevOps团队来说,选择对应的指标来监控Flink应用程序是非常艰巨的。在与许多大规模部署过Apache Flink的组织合作之后,我想与社区的朋友们分享下我的经验及一些最佳实践。0 码力 | 23 页 | 148.62 KB | 2 年前3
使⽤Apache SkyWalking APM 监控 Apache ServiceComb使用Apache SkyWalking APM 监控 Apache ServiceComb 吴晟 Sheng Wu Huawei DevCloud http://skywalking.io Twitter @AsfSkyWalking Skywalking ## 个人介绍 * GitHub: https://github.com/wu-sheng * Personal Homepage:0 码力 | 22 页 | 2.85 MB | 2 年前3
Zabbix 3.4 中文手册Copyright notice 4 附录 4 1 常见问题/疑难解答 4 2 安装 5 3 后端配置 7 4 监控项 102 5 触发器 118 6 宏 131 7 设定时间段 141 8 执行指令 142 9 监控方案 143 10 性能调优 144 11 版本兼容性 146 12 数据库错误处理 147 13 Zabbix sender 5. 快速开始 202 1 登陆和配置用户 202 2 新建主机 206 3 新建监控项 208 4 新建触发器 211 5 获取问题通知 213 6 新建模版 217 6. Zabbix 设备 220 7. 配置 224 1 主机和主机组 ..... 230 2 监控项 ..... 253 3 触发器 ..... 402 4 事件 ..... 423 事件通知 ..... 499 9 宏 ..... 571 10 用户和用户组 ..... 576 8. 服务监控 ..... 592 9. Web 监控 ..... 600 1 Web 监控项 ..... 627 2 场景示例 ..... 633 10. 虚拟机监控 ..... 640 虚拟机 discovery 关键字段 ..... 644 11. 维护 ..... 6450 码力 | 1757 页 | 12.63 MB | 1 年前3
基于open-falcon的平安云监控## 基于open-falcon的 平安云监控 ## 目录 团队介绍 ➤ 背景 系统定位 argus是什么 为什么选用Go argus的前身 argus的现状 argus的未来 ## 团队介绍 平安云IAAS团队 ➢ 负责平安集团IAAS平台建设 为平安集团内部其他子公司服务 打造对外的金融云服务 ## 目录 团队介绍 ➢ 背景 系统定位 argus是什么 为什么选用Go 打造用户自助服务的监控平台 适应内部的三级网络架构 ## 背景 云管区 公共服务区 可用区 ## 目录 团队介绍 ➤ 背景 系统定位 argus是什么 为什么选用Go argus的前身 argus的现状 argus的未来 ## 系统定位 保证基础监控,提供监控通道 要求高可用、高可扩展 分离用户、平台管理员 角色 ➢ 建设用户自助平台(看性能、配告警、收告警) 保证告警覆盖率,按类型初始化通用告警策略 保证告警覆盖率,按类型初始化通用告警策略 兼顾通用的和个性的监控要求 ## 目录 团队介绍 ➤ 背景 系统定位 argus是什么 为什么选用Go argus的前身 argus的现状 argus的未来 ## argus是什么 ➢ 是平安云监控系统 希腊神话里的百眼巨人 ➢ 基平open-falcon开发的平安云监控系统 ➢ 是一个Go语言实现的项目 ## 目录 团队介绍 ➤ 背景 系统定位0 码力 | 30 页 | 10.40 MB | 2 年前3
B站统⼀监控系统的设计,演进
与实践分享## B站统一监控系统的设计,演进 与实践分享 梁晓聪 devops @lxcong ## About Me • 梁晓聪 • 2015年加入B站 • devops - 热爱新技术,热爱开源 · 小宅男  ## 故事的开始 B站炸了 B站炸了.舆情监控(括弧笑脸) 大家正在搜:池昌旭 林允儿  ★ Lv9 海外 日本 丧偶 2009年6月26日 简介:知识就是力量,法国就是培根,B站就是爆炸。 ## 我们的挑战 ## 当前情况: - 技术栈多 - 产品模块复杂 产品模块复杂 • 业务爆发式增长 • 运维要求高 监控问题爆发: • 覆盖率低 - 误报,漏报多 • 告警风暴  ## 重新定义的监控系统 完整的监控体系  ## 当代张思德 高级运维工程师,FiberHome ## ZABBIX 2019 Conference • Cactifans • Zabbix • Microservice [Image](/uploads/documents/4/4/5/2/44522f70fb825d70b7a872912278b2fe/p2_2.jpg) 老张监控技术 微信扫描二维码,关注我的公众号 https://blog.cactifans.com/ ## 无边界监控 ## Monitor anything Solutions for any kind of IT infrastructure, services ", "namespace": "kube-system" } } ## LLD – 低级别发现 低级发现提供了一种监控主机上变化实体,并自动创建监控指标,触发器和图形的方法。 例如 ● 磁盘 ☑ 网卡 ● 端口 ● ___ 












