高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践SPEAKER 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 智能运维(AIOps) 基于机器学习的智能运维 发现问题 • 时间序列异常 • 日志分析异常 • 设备性能异常 分析问题 • 多维下钻分析 • 关联事件分析 • 容量预估分析 解决问题 • 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 单维时间序列分析 海量时间序列 业务场景复杂 规则配置繁琐 1 2 3 时间序列异常检测 如何找到通用的解决方案? 单维时间序列分析 规则类告警策略 最大值告警 最小值告警 波动率告警 单维时间序列分析 无监督异常检测算法 (自编码器) 原始数据 原始数据 生成数据 单维时间序列分析 无监督异常检测算法 (N-Sigma) 单维时间序列分析 有监督异常检测算法 (特征工程) 时间序列的统计特征 • 最大值,最小值,值域 • 均值,中位数 • 方差,偏度,峰度 • 同比,环比,周期性 • 自相关系数,变异系数 时间序列的拟合特征 • 移动平均算法 • 带权重的移动平均算法 • 指数移动平均算法 • 二次指数移动平均算法0 码力 | 28 页 | 1.88 MB | 1 年前3
openEuler 23.09 技术白皮书IO 性能,并提供更好的 资源控制和管理能力。主要功能包括:缓存写回控制、IO 优先级控制、写回策略调整等。 • 支持核挂死检测特性:解决 PMU 停止计数导致 hardlockup 无法检测系统卡死的问题,利用核间 CPU 挂死检测机制, 让每个 CPU 检测相邻 CPU 是否挂死,保障系统在部分 CPU 关中断挂死场景下能够自愈。 特性增强 15 openEuler 23.09 技术白皮书 基础设施和应用产生的数据量快速增长(每年增长 2~3 倍),应用大数据和机器学习技术日趋成熟,驱动高效智能 运维系统产生,助力企业降本增效。openEuler 智能运维提供智能运维基本框架,支持 CVE 管理、异常检测(数据库场景) 等基础能力,支持快速排障和运维成本降低。 A-Ops 通过挂载社区 CVE 漏洞 repo 源,进行 CVE 漏洞巡检,使用冷热补丁发布件(rpm 包)进行修复、回退和收编 等操作,提升运维效率。 应用场景 智能运维 平台 A-Ops 系统智能运维 硬件 外围包 内核 外设 Memory CPU Gala-x ragdoll diana apollo 日志分析 架构感知 异常检测 精准度量 智能算法 根因分析 在线调优 应用拓扑 系统数据湖 用户态热补丁 系统智能代理 系统自动配置 系统服务热替换(systemd、dbus、qemu等) 内核热替换 模块热替换 内核热补丁0 码力 | 52 页 | 5.25 MB | 1 年前3
openEuler 22.03 LTS SP2 技术白皮书上的在线任务长时间 100% 占用 CPU 资源,则 CPUB 上的离线任务因为被驱离无法运行,无法释放临界资源。此时 如果有高优先级任务等待离线任务占有的临界资源,就会出现优先级翻转现象。该特性通过检测离线任务被压制的运行时间, 来判断系统是否处于优先级反转的风险状态中,来决定是否需要将离线任务解除压制直到释放内核中的临界资源。 提供用户可配置的两个接口: 1) /proc/sys/kernel/qos_ rubik 性能调优 弹性限流 拓扑编排 资源预测 隔离抢占 资源调优 QoS配置 指标监控 资源使用 eBPF PMU RDT 干扰检测 性能干扰建模 QoS违规检测 干扰源定位 干扰控制 离线资源压缩 千扰源驱逐 异常告警 OS SLI interface I/O QoS CPU QoS MEM QoS Cache QoS Net QoS 19 openEuler 可信状态缓存服务,通过 Config 管理策略等配置信息,最终通过 RestAPI 向用户提供远程证明服务。 • 远程证明客户端 RAC 通过 TBProvisioner 解决部署阶段平台可信启动能力的检测和使能,通过 RAC Tools 来获取远程 证明所需的各种数据信息,最后由 RA Agent 负责与 RAS 通信完成注册和可信报告发送。 功能描述 25 openEuler 22.03 LTS0 码力 | 48 页 | 5.62 MB | 1 年前3
Zabbix 4.0 中文手册检查本地时间是否与 zabbix server 的时间相同。 也可以使用 vfs.file.time[/path/file,modify] 键值检测文件是否长时间未更 新。 例如: => fuzzytime(60)=0 → 如果 时间差超过 60 秒,就会检测 到一个问题 Checking how much an item timestamp value differs from the Zabbix 的触发器(例如,具有不同的严重性和表达 式),它们之间定义了依赖关系,则无法导入它们。必须从 XML 文件中手动删除这些依赖关系,并在导入后重新添加。 14 数据库错误处理 如果 Zabbix 检测到后端数据库不可访问,它将发送通知消息,并继续尝试连接到数据库。对于某些数据库引擎,会识别出特定的错误代 码。 MySQL • CR_CONN_HOST_ERROR • CR_SERVER_GONE_ERROR Zabbix 的使用。 配置 是本手册中篇幅最长且最为重要的章节之一。该章包含了大量关于如何配置 Zabbix 来监控您企业环境的重要建议:从设置主机到获 取基本数据,再到查看数据,配置告警,出现异常时远程执行命令的操作等等。 IT services 章节详细说明了如何使用 Zabbix 从更高层次的视角(业务、服务)关注您的监控系统。 Web 监控 可以帮助您学会如何监控 Web 网站的可用性。0 码力 | 1992 页 | 17.90 MB | 1 年前3
Zabbix 4.4 中文手册{host:item.timeleft(1h,,X)} < 1h 当监控项值接近 X 时可能进入异常状态,然后一旦达到值 X 就突然恢复。如果异常是监控项值低 于 X,请使用:{host:item.last()} < X or {host:item.timeleft(1h,,X)} < 1h 如果异常是项目值高于 X,请使用:{host:item.last()} > X or {host:item 检查本地时间是否与 zabbix server 的时间相同。 也可以使用 vfs.file.time[/path/file,modify] 键值检测文件是否长时间未更 新。 例如: => fuzzytime(60)=0 → 如果 时间差超过 60 秒,就会检测 到一个问题 Checking how much an item timestamp value differs from the Zabbix 自动灵活的、精确的关联问题和解决方案 比如说,你可以定义触发器 A 告警的异常可以由触发器 B 解决,触发器 B 可能采用完全不同的数据采集方式。 异常(problems) - 一个处在” 异常” 状态的触发器 异常更新(problem update) - Zabbix 提供的问题管理选项,例如添加评论、确认异常、改变问题级别或者手动关闭等。 动作(action) - 预先定义的应对事件的操作0 码力 | 1850 页 | 13.52 MB | 1 年前3
Zabbix 5.2 Manual{host:item.timeleft(1h,,X)} < 1h 当监控项值接近 X 时可能进入异常状态,然后一旦达到值 X 就突然恢复。如果异常是监控项值低 于 X,请使用:{host:item.last()} < X or {host:item.timeleft(1h,,X)} < 1h 如果异常是项目值高于 X,请使用:{host:item.last()} > X or {host:item 检查本地时间是否与 zabbix server 的时间相同。 也可以使用 vfs.file.time[/path/file,modify] 键值检测文件是否长时间未更 新。 例如: => fuzzytime(60)=0 → 如果 时间差超过 60 秒,就会检测 到一个问题 Checking how much an item timestamp value differs from the Zabbix 自动灵活的、精确的关联问题和解决方案 比如说,你可以定义触发器 A 告警的异常可以由触发器 B 解决,触发器 B 可能采用完全不同的数据采集方式。 异常(problems) - 一个处在” 异常” 状态的触发器 异常更新(problem update) - Zabbix 提供的问题管理选项,例如添加评论、确认异常、改变问题级别或者手动关闭等。 动作(action) - 预先定义的应对事件的操作0 码力 | 1725 页 | 11.53 MB | 1 年前3
Zabbix 5.0 Manual标签列表(可以为空)。 - 对象 tag 字符串标签 称。 value 字符串标签 (可以为空)。 name 字符串问题 件名。 clock 数字从 期开始到检测到问题的时间(整数部分)的秒数。 ns 数字将 秒添加到时钟以获取精确的问题检测时间。 eventid 数字问 事件 ID。 value 数字 1 通常)。 导出以下信息以进行恢复事件: Field 类型描 clock 数字从 zabbix server 的时 间相同。 也可以使用 vfs.file.time\[/path/file,modify\] 键值检测文件 是否长时间未 更新。 例如: => fuzzy- time(60)=0 → 如果时间 差超过 60 秒,就会检测 到一个问题 | |**iregexp** (pat- tern,)|<|<|<| |<| 该函数和 regexp() and Zabbix get protocols. It is supported for Zabbix 5.0, 6.0, 6.4 and later. 14 数据库错误处理 如果 Zabbix 检测到后端数据库不可访问,它将发送通知消息,并继续尝试连接到数据库。对于某些数据库引擎,会识别出特定的错误代 码。 MySQL • CR_CONN_HOST_ERROR • CR_SERVER_GONE_ERROR 0 码力 | 2715 页 | 28.60 MB | 1 年前3
Zabbix 4.2 中文手册{host:item.timeleft(1h,,X)} < 1h 当监控项值接近 X 时可能进入异常状态,然后一旦达到值 X 就突然恢复。如果异常是监控项值低 于 X,请使用:{host:item.last()} < X or {host:item.timeleft(1h,,X)} < 1h 如果异常是项目值高于 X,请使用:{host:item.last()} > X or {host:item 检查本地时间是否与 zabbix server 的时间相同。 也可以使用 vfs.file.time[/path/file,modify] 键值检测文件是否长时间未更 新。 例如: => fuzzytime(60)=0 → 如果 时间差超过 60 秒,就会检测 到一个问题 Checking how much an item timestamp value differs from the Zabbix 自动灵活的、精确的关联问题和解决方案 比如说,你可以定义触发器 A 告警的异常可以由触发器 B 解决,触发器 B 可能采用完全不同的数据采集方式。 异常(problems) - 一个处在” 异常” 状态的触发器 异常更新(problem update) - Zabbix 提供的问题管理选项,例如添加评论、确认异常、改变问题级别或者手动关闭等。 动作(action) - 预先定义的应对事件的操作0 码力 | 1869 页 | 13.68 MB | 1 年前3
Curve质量监控与运维 - 网易数帆为了确保最终交付的软件满足需求,必须将质量控制贯穿于设计、开发到测试的整个流程中。 设计 设计流程 文档规范 开发 编码规范与提交流程 版本管理 测试 测试方法论 CI与异常测试 6/33设计流程 Curve团队采用敏捷开发模式,负责人在制定迭代计划时,确认哪些任务需要设计 文档: 小需求(改动小)将实现思路记录到任务管理系统中(JIRA),即可进行开发; 代码提交流程 异常自动化 测试 混沌测试 (每周一次) CI测试(编译、静态检 查、单元测试、集成测 试、覆盖率80%卡点) 邮件通知 Curve所有代码均在github托管。新 代码需要通过CI测试和code review才 能合入master分支,确保新合入代码 的功能、正确性、规范性等都有基本 保障;而每日运行的dailybuild测试在 CI测试基础上增加了异常自动化测试 从测试粒度看,测试可以分为单元测试、集成测试、系统测试; 从测试角度看,测试可以分为常规测试、性能测试、异常测试、稳定性测试、混沌测试,等等 单元测试 1300+用例 行覆盖80%+,分支覆盖70%+ 集成测试 Given When Then 设计方法 500+用例 异常测试 40+自动化用例 混沌测试 20轮自动化随机故障注入 12/33单元测试 单元测试是软0 码力 | 33 页 | 2.64 MB | 6 月前3
Zabbix 5.4 中文手册自动灵活的、精确的关联问题和解决方案 比如说,你可以定义触发器 A 告警的异常可以由触发器 B 解决,触发器 B 可能采用完全不同的数据采集方式。 异常(problems) - 一个处在” 异常” 状态的触发器 408 异常更新(problem update) - Zabbix 提供的问题管理选项,例如添加评论、确认异常、改变问题级别或者手动关闭等。 动作(action) - 预先定义的应对事件的操作 自身可以通过简单服务远程检查网络服务(如 Web 服务器和邮件服务器)。 Zabbix Server 是所有配置、统计和操作数据的中央存储中心,也是 Zabbix 监控系统的告警中心。在监控的系统中出现任何异常,将被发 出通知给管理员。 基本的 Zabbix Server 的功能分解成为三个不同的组件。他们是:Zabbix server、Web 前端和数据库。 Zabbix 的所有配置信息都存储在 Server 、内存、处理器统计信息等)。 Zabbix agent 收集本地的操作信息并将数据报告给 Zabbix server 用于进一步处理。一旦出现异常 (例如硬盘空间已满或者有崩溃的服务 进程),Zabbix server 会主动警告管理员指定机器上的异常。 Zabbix agents 的极高效率缘于它可以利用本地系统调用来完成统计数据的采集。 被动和主动检查 Zabbix agent 可以运行被动检查和主动检查。0 码力 | 2339 页 | 19.57 MB | 1 年前3
共 69 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













