异常检测 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践

SPEAKER 01 智能运维场景描述整体介绍 02 单维时间序列分析异常检测 03 多维时间序列分析多维下钻目录 04 Metis 的研究方向展望未来智能运维（AIOps）基于机器学习的智能运维发现问题 • 时间序列异常 • 日志分析异常 • 设备性能异常分析问题 • 多维下钻分析 • 关联事件分析 • 容量预估分析解决问题 • 02 单维时间序列分析异常检测 03 多维时间序列分析多维下钻目录 04 Metis 的研究方向展望未来单维时间序列分析海量时间序列业务场景复杂规则配置繁琐 1 2 3 时间序列异常检测如何找到通用的解决方案？单维时间序列分析规则类告警策略最大值告警最小值告警波动率告警单维时间序列分析无监督异常检测算法（自编码器）原始数据原始数据生成数据单维时间序列分析无监督异常检测算法（N-Sigma）单维时间序列分析有监督异常检测算法（特征工程）时间序列的统计特征 • 最大值，最小值，值域 • 均值，中位数 • 方差，偏度，峰度 • 同比，环比，周期性 • 自相关系数，变异系数时间序列的拟合特征 • 移动平均算法 • 带权重的移动平均算法 • 指数移动平均算法 • 二次指数移动平均算法

0 码力 | 28 页 | 1.88 MB | 1 年前
3
openEuler 23.09 技术白皮书

IO 性能，并提供更好的资源控制和管理能力。主要功能包括：缓存写回控制、IO 优先级控制、写回策略调整等。 • 支持核挂死检测特性：解决 PMU 停止计数导致 hardlockup 无法检测系统卡死的问题，利用核间 CPU 挂死检测机制，让每个 CPU 检测相邻 CPU 是否挂死，保障系统在部分 CPU 关中断挂死场景下能够自愈。特性增强 15 openEuler 23.09 技术白皮书基础设施和应用产生的数据量快速增长（每年增长 2~3 倍），应用大数据和机器学习技术日趋成熟，驱动高效智能运维系统产生，助力企业降本增效。openEuler 智能运维提供智能运维基本框架，支持 CVE 管理、异常检测（数据库场景）等基础能力，支持快速排障和运维成本降低。 A-Ops 通过挂载社区 CVE 漏洞 repo 源，进行 CVE 漏洞巡检，使用冷热补丁发布件（rpm 包）进行修复、回退和收编等操作，提升运维效率。应用场景智能运维平台 A-Ops 系统智能运维硬件外围包内核外设 Memory CPU Gala-x ragdoll diana apollo 日志分析架构感知异常检测精准度量智能算法根因分析在线调优应用拓扑系统数据湖用户态热补丁系统智能代理系统自动配置系统服务热替换(systemd、dbus、qemu等) 内核热替换模块热替换内核热补丁

0 码力 | 52 页 | 5.25 MB | 1 年前
3
openEuler 22.03 LTS SP2 技术白皮书

上的在线任务长时间 100% 占用 CPU 资源，则 CPUB 上的离线任务因为被驱离无法运行，无法释放临界资源。此时如果有高优先级任务等待离线任务占有的临界资源，就会出现优先级翻转现象。该特性通过检测离线任务被压制的运行时间，来判断系统是否处于优先级反转的风险状态中，来决定是否需要将离线任务解除压制直到释放内核中的临界资源。提供用户可配置的两个接口： 1) /proc/sys/kernel/qos_ rubik 性能调优弹性限流拓扑编排资源预测隔离抢占资源调优 QoS配置指标监控资源使用 eBPF PMU RDT 干扰检测性能干扰建模 QoS违规检测干扰源定位干扰控制离线资源压缩千扰源驱逐异常告警 OS SLI interface I/O QoS CPU QoS MEM QoS Cache QoS Net QoS 19 openEuler 可信状态缓存服务，通过 Config 管理策略等配置信息，最终通过 RestAPI 向用户提供远程证明服务。 • 远程证明客户端 RAC 通过 TBProvisioner 解决部署阶段平台可信启动能力的检测和使能，通过 RAC Tools 来获取远程证明所需的各种数据信息，最后由 RA Agent 负责与 RAS 通信完成注册和可信报告发送。功能描述 25 openEuler 22.03 LTS

0 码力 | 48 页 | 5.62 MB | 1 年前
3
Zabbix 4.0 中文手册

检查本地时间是否与 zabbix server 的时间相同。也可以使用 vfs.file.time[/path/file,modify] 键值检测文件是否长时间未更新。例如: => fuzzytime(60)=0 → 如果时间差超过 60 秒，就会检测到一个问题 Checking how much an item timestamp value differs from the Zabbix 的触发器（例如，具有不同的严重性和表达式），它们之间定义了依赖关系，则无法导入它们。必须从 XML 文件中手动删除这些依赖关系，并在导入后重新添加。 14 数据库错误处理如果 Zabbix 检测到后端数据库不可访问，它将发送通知消息，并继续尝试连接到数据库。对于某些数据库引擎，会识别出特定的错误代码。 MySQL • CR_CONN_HOST_ERROR • CR_SERVER_GONE_ERROR Zabbix 的使用。配置是本手册中篇幅最长且最为重要的章节之一。该章包含了大量关于如何配置 Zabbix 来监控您企业环境的重要建议：从设置主机到获取基本数据，再到查看数据，配置告警，出现异常时远程执行命令的操作等等。 IT services 章节详细说明了如何使用 Zabbix 从更高层次的视角（业务、服务）关注您的监控系统。 Web 监控可以帮助您学会如何监控 Web 网站的可用性。

0 码力 | 1992 页 | 17.90 MB | 1 年前
3
Zabbix 4.4 中文手册

{host:item.timeleft(1h,,X)} < 1h 当监控项值接近 X 时可能进入异常状态，然后一旦达到值 X 就突然恢复。如果异常是监控项值低于 X，请使用：{host:item.last()} < X or {host:item.timeleft(1h,,X)} < 1h 如果异常是项目值高于 X，请使用：{host:item.last()} > X or {host:item 检查本地时间是否与 zabbix server 的时间相同。也可以使用 vfs.file.time[/path/file,modify] 键值检测文件是否长时间未更新。例如: => fuzzytime(60)=0 → 如果时间差超过 60 秒，就会检测到一个问题 Checking how much an item timestamp value differs from the Zabbix 自动灵活的、精确的关联问题和解决方案比如说，你可以定义触发器 A 告警的异常可以由触发器 B 解决，触发器 B 可能采用完全不同的数据采集方式。异常（problems） - 一个处在” 异常” 状态的触发器异常更新（problem update） - Zabbix 提供的问题管理选项，例如添加评论、确认异常、改变问题级别或者手动关闭等。动作（action） - 预先定义的应对事件的操作

0 码力 | 1850 页 | 13.52 MB | 1 年前
3
Zabbix 5.2 Manual

{host:item.timeleft(1h,,X)} < 1h 当监控项值接近 X 时可能进入异常状态，然后一旦达到值 X 就突然恢复。如果异常是监控项值低于 X，请使用：{host:item.last()} < X or {host:item.timeleft(1h,,X)} < 1h 如果异常是项目值高于 X，请使用：{host:item.last()} > X or {host:item 检查本地时间是否与 zabbix server 的时间相同。也可以使用 vfs.file.time[/path/file,modify] 键值检测文件是否长时间未更新。例如: => fuzzytime(60)=0 → 如果时间差超过 60 秒，就会检测到一个问题 Checking how much an item timestamp value differs from the Zabbix 自动灵活的、精确的关联问题和解决方案比如说，你可以定义触发器 A 告警的异常可以由触发器 B 解决，触发器 B 可能采用完全不同的数据采集方式。异常（problems） - 一个处在” 异常” 状态的触发器异常更新（problem update） - Zabbix 提供的问题管理选项，例如添加评论、确认异常、改变问题级别或者手动关闭等。动作（action） - 预先定义的应对事件的操作

0 码力 | 1725 页 | 11.53 MB | 1 年前
3
Zabbix 5.0 Manual

标签列表（可以为空）。 - 对象 tag 字符串标签称。 value 字符串标签 (可以为空)。 name 字符串问题件名。 clock 数字从期开始到检测到问题的时间（整数部分）的秒数。 ns 数字将秒添加到时钟以获取精确的问题检测时间。 eventid 数字问事件 ID。 value 数字 1 通常）。导出以下信息以进行恢复事件： Field 类型描 clock 数字从 zabbix server 的时间相同。也可以使用 vfs.file.time\[/path/file,modify\] 键值检测文件是否长时间未更新。例如: => fuzzy- time(60)=0 → 如果时间差超过 60 秒，就会检测到一个问题 | |**iregexp** (pat- tern,)|<|<|<| |<| 该函数和 regexp() and Zabbix get protocols. It is supported for Zabbix 5.0, 6.0, 6.4 and later. 14 数据库错误处理如果 Zabbix 检测到后端数据库不可访问，它将发送通知消息，并继续尝试连接到数据库。对于某些数据库引擎，会识别出特定的错误代码。 MySQL • CR_CONN_HOST_ERROR • CR_SERVER_GONE_ERROR

0 码力 | 2715 页 | 28.60 MB | 1 年前
3
Zabbix 4.2 中文手册

{host:item.timeleft(1h,,X)} < 1h 当监控项值接近 X 时可能进入异常状态，然后一旦达到值 X 就突然恢复。如果异常是监控项值低于 X，请使用：{host:item.last()} < X or {host:item.timeleft(1h,,X)} < 1h 如果异常是项目值高于 X，请使用：{host:item.last()} > X or {host:item 检查本地时间是否与 zabbix server 的时间相同。也可以使用 vfs.file.time[/path/file,modify] 键值检测文件是否长时间未更新。例如: => fuzzytime(60)=0 → 如果时间差超过 60 秒，就会检测到一个问题 Checking how much an item timestamp value differs from the Zabbix 自动灵活的、精确的关联问题和解决方案比如说，你可以定义触发器 A 告警的异常可以由触发器 B 解决，触发器 B 可能采用完全不同的数据采集方式。异常（problems） - 一个处在” 异常” 状态的触发器异常更新（problem update） - Zabbix 提供的问题管理选项，例如添加评论、确认异常、改变问题级别或者手动关闭等。动作（action） - 预先定义的应对事件的操作

0 码力 | 1869 页 | 13.68 MB | 1 年前
3
Curve质量监控与运维 - 网易数帆

为了确保最终交付的软件满足需求，必须将质量控制贯穿于设计、开发到测试的整个流程中。设计  设计流程  文档规范开发  编码规范与提交流程  版本管理测试  测试方法论  CI与异常测试 6/33设计流程 Curve团队采用敏捷开发模式，负责人在制定迭代计划时，确认哪些任务需要设计文档：  小需求（改动小）将实现思路记录到任务管理系统中（JIRA），即可进行开发；代码提交流程异常自动化测试混沌测试（每周一次） CI测试（编译、静态检查、单元测试、集成测试、覆盖率80%卡点）邮件通知 Curve所有代码均在github托管。新代码需要通过CI测试和code review才能合入master分支，确保新合入代码的功能、正确性、规范性等都有基本保障；而每日运行的dailybuild测试在 CI测试基础上增加了异常自动化测试从测试粒度看，测试可以分为单元测试、集成测试、系统测试；从测试角度看，测试可以分为常规测试、性能测试、异常测试、稳定性测试、混沌测试，等等  单元测试 1300+用例行覆盖80%+，分支覆盖70%+  集成测试 Given When Then 设计方法 500+用例  异常测试 40+自动化用例  混沌测试 20轮自动化随机故障注入 12/33单元测试单元测试是软

0 码力 | 33 页 | 2.64 MB | 6 月前
3
Zabbix 5.4 中文手册

自动灵活的、精确的关联问题和解决方案比如说，你可以定义触发器 A 告警的异常可以由触发器 B 解决，触发器 B 可能采用完全不同的数据采集方式。异常（problems） - 一个处在” 异常” 状态的触发器 408 异常更新（problem update） - Zabbix 提供的问题管理选项，例如添加评论、确认异常、改变问题级别或者手动关闭等。动作（action） - 预先定义的应对事件的操作自身可以通过简单服务远程检查网络服务（如 Web 服务器和邮件服务器）。 Zabbix Server 是所有配置、统计和操作数据的中央存储中心，也是 Zabbix 监控系统的告警中心。在监控的系统中出现任何异常，将被发出通知给管理员。基本的 Zabbix Server 的功能分解成为三个不同的组件。他们是：Zabbix server、Web 前端和数据库。 Zabbix 的所有配置信息都存储在 Server 、内存、处理器统计信息等）。 Zabbix agent 收集本地的操作信息并将数据报告给 Zabbix server 用于进一步处理。一旦出现异常 (例如硬盘空间已满或者有崩溃的服务进程)，Zabbix server 会主动警告管理员指定机器上的异常。 Zabbix agents 的极高效率缘于它可以利用本地系统调用来完成统计数据的采集。被动和主动检查 Zabbix agent 可以运行被动检查和主动检查。

0 码力 | 2339 页 | 19.57 MB | 1 年前
3

共 69 条前往

页

高效智能运维社区技术沙龙 29 腾讯 Metis 项目实践 openEuler 23.09 白皮皮书白皮书 22.03 LTS SP2 Zabbix 4.0 中文手册 4.4 5.2 Manual 5.0 4.2 Curve 质量监控网易数帆 5.4

分类

语言

格式

高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践

openEuler 23.09 技术白皮书

openEuler 22.03 LTS SP2 技术白皮书

Zabbix 4.0 中文手册

Zabbix 4.4 中文手册

Zabbix 5.2 Manual

Zabbix 5.0 Manual

Zabbix 4.2 中文手册

Curve质量监控与运维 - 网易数帆

Zabbix 5.4 中文手册