机房故障 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Linux就该这么学第2版

年写给学员的一篇文章，当时 RHEL 7 系统刚发布不久，一些原本不怎么严重的 bug 被放大，人们对 RHEL 7 系统产生了质疑。为了能够打消学生的顾虑，我写了下面这篇文章。时隔 6 年，现在大多数机房都已经部署了 RHEL 7 系统，国内外的银行机构、保险公司也纷纷换上了新版本的系统，几乎所有的云服务厂商都向用户提供了 RHEL 7 或 CentOS 7 系统。回头来看，我的预测还是很准行动，不能有一丝马虎。 29 2012 年 5 月 19 日，在英国汉普郡利明顿附近的小镇 Milford-on-Sea 上，一台 ATM 机在维护后发生故障，在顾客取款时会吐出双倍数额的现金。此消息不胫而走之后，总共有 200 名顾客取走现金，有的人甚至取走了数千英镑。“狂欢”总共持续了两个多小时，随后警方赶到现场，关闭了这台 ATM 机。系统的改变都很大，最重要的是它们采用了 systemd 作为初始化进程，替换了很多原有的老命令。这样一来，几乎之前所有的运维自动化脚本都需要修改。那么，到底还要不要升级到新版本呢？当然，也不是说服务器机房中的生产环境从不更新换代。除了硬件更替外，当工作需求超过了当前软件版本的能力范围时，就必须要进行升级了。比如，RHEL 7 系统使用的 Linux 内核还是 3.10 版本，而现在最新的 RHEL

0 码力 | 552 页 | 22.25 MB | 1 年前
3
爱奇艺 CDN 运维平台实践-张强

CMNET GWBN SCC IPTV 收集代理 HDFS 数据统计、展示 SSH-Based-Tools 运维痛点 – 设备管理三大ISP 小ISP 纯内网 Ø 通过BGP、多线机房实现连通 Ø 管理方便 Ø 部分需要单独打隧道 Ø 缺点: 节点上线复杂、不可靠 Ø 依赖合作商网络情况 Ø 缺点: 配置复杂、登录管理复杂，不稳定运维痛点小结 Ø 软件配置 2017.05 产品设计研发，抽象运维任务模型、设计简单的代理集群服务 2018.02 • Fast 2.0 支持服务发现、状态上报报警，推进完成视频 CDN 近万设备上线，覆盖数百个机房 2017.09 Fast 1.0 上线，并完成静态 CDN 上千台设备管理和日常配置管理 2018.09 • Fast 3.0 上线，全新通信机制，任务实时发布，权限管理 • 可Shell管理任何设备，包括总结&展望总结展望总结总结痛点、梳理日常运维工作、输出知识库，合理设计架构需求分析&设计单元测试、Staging环境测试、巡检、报警开发规范无状态、多机房、容器化部署，对接QLB实现故障自动摘除高可用设计日常运维效率提升百倍. 运维效率运维任务模型化、易上手、可交付、加快整体运营迭代效率运维可交付释放运维潜力、运维开发转型运维开发

0 码力 | 34 页 | 1.75 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

优化告警规则类似 PagerDuty FlashDuty 这种产品，一定程度上是可以解决一些告警过多的问题，但如果能从告警规则的源头做好优化，自然是事半功倍。很多公司的告警规则配置没有原则可循，每次故障复盘先看告警是否漏报，一线工程师为了不背锅，自然是尽量多地提高告警覆盖面，但这么做的后果，就是告警过多，无效告警占多数，长此以往，工程师疲惫不堪。那么告警规则的配置应该遵照一个什通过排班、认领、升级这些机制，可以确保告警递达指定的人，但要处理告警的话，只有值班人员自己就未必搞得定了，需要有协同机制把相关人都拉进来一起处理才可以。对于某个故障，可能同时有多个告警事件产生，大家基于一个统一的故障协同，而不是基于一堆事件分别协同，这就需要把这多个事件收敛成一个故障，下面我们来聊一下这个收敛逻辑。告警收敛逻辑一般收敛逻辑是三级收敛，event -> alert -> incident。举个例子，最原始的告警事件，比如 incident（故障），基于 incident 做协同才比较方便。但是，event 到 alert 是有一个固定的收敛逻辑的，可以通过程序自动收敛，而 alert 到 incident 却很难自动收敛。不过业界也会有一些常见的做法，下面我举几个例子。 1、根据时间做收敛把告警中心收到的所有告警，按照时间维度做收敛，比如按照分钟颗粒度，一分钟内所有告警收敛成一个故障，下一分钟所

0 码力 | 23 页 | 1.75 MB | 1 年前
3
多云管下的自动化运维架构-刘宇

② 多云下运维的挑战 ③ 多云平台架构如何设计？ ④ 困难以及挑战资源统一管理监控账单 ⑤ 未来的展望行业趋势分析 2017 年主流公有云故障 2018 年主流公有云故障 2019 年主流公有云故障 1% 的机率毁掉一家公司行业趋势分析多云下运维的挑战 Nginx Nginx LVS LVS Nginx DB DB Ngx Ngx LVS 多云下运维的挑战 Ngx Ngx LVS LVS Ngx DB DB Region Ngx Ngx LVS LVS Ngx DB DB 机房 Ngx Ngx LVS LVS Ngx DB DB 海海外云故障时，影响不及时 —〉不可控集中式监控成本高 —〉难统一排查定位问题成本高 —〉跨度大业务成本难以核算 —〉账单难处理。。。

0 码力 | 32 页 | 6.05 MB | 1 年前
3
openEuler 24.03 LTS 技术白皮书

支持、trampoline 支持与 cpuv4 指令支持等特性，扩展了 bpf 的能力。 • 内存可靠性分级（继承特性）：支持使用者按照需求分配在对应可靠性的内存上，并对部分可能的 UCE 或 CE 故障影响进行一定程度的缓解，达到部分 MR 内存（address range mirror）的情况下，支撑业务整体可靠性不下降。云化基座 18 openEuler 24.03 LTS 技术白皮书 agent 无侵入观测技术，并以智能化辅助，实现亚健康故障（比如性能抖动、错误率提升、系统卡顿等问题现象）诊断。其架构如图： A-Ops 智能运维 A-Ops 是一款基于操作系统维度的故障运维平台，提供从数据采集，健康巡检，故障诊断，故障修复到修复任务回退的智能运维解决方案。A-Ops 项目包括了诺干子项目：覆盖故障发现（aops-gala），故障定位支撑（aops-X-diagnosis），缺陷修复性能抖动问题诊断能力。 • 系统隐患巡检：提供内核协议栈丢包、虚拟化网络丢包、TCP 异常、I/O 时延异常、系统调用异常、资源泄漏、JVM 异常、应用 RPC 异常（包括 8 种常见协议的错误率、时延等）硬件故障（UCE、磁盘介质错误等）等秒级巡检能力。 • 系统全栈 I/O 观测：提供面向分布式存储场景的 I/O 全栈观测能力，包括 GuestOS 进程级、Block 层的 I/O 观测能力，以及虚拟化层存储前端

0 码力 | 45 页 | 6.18 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层应⽤用层 • cache资源 • db资源 • mq资源 • lb资源 • es资源 • 异常事件关联关系挖掘 • 全联路路模块调⽤用分析 • 瓶颈分析针对历史事件针对当前事件 • 异常检查(动态阈值) • 异常定位(根因分析) • 快速⽌止损针对未来事件 • 故障预测 • 容量量预测 • 趋势预测 Thank You! 哔哩哔哩 - ( ゜- ゜)つロ乾杯~ - bilibili

0 码力 | 34 页 | 650.25 KB | 1 年前
3
CloudExplorer 3.0 管理员手册v1.2

及应用的资源信息、资源归属信息、应用系统应用信息、以及资源与资源关系信息，为 IT 系统运维、运营、管理，应用开发测试运维提供准确、一致的数据支持，比如统计分析资源投入、分组分类关联查找定位、快速定位故障等。在企业 IT 建设中，往往被作为建设核心。 Veeam Veeam 是瑞士一家智能数据管理解决方案提供商，专注于为用户提供数据备份和恢复、数据保护和数据安全等服务，帮助用户提升数据的智能化水资源的全生命周期管理方面，管理方面包括权限、访问控制、安全合规、流程变更管理、成本费用管理、分级分组分类、集中统一管理等 IT 运维主要指应用运行环境资源的监控、面向预警的性能分析、定位故障、批量变更、排除故障、IT 运维管理数据同步等方面场景。 IT 运营主要指 IT 资源投入统计分析、浪费分析，持续分析优化及时回收方面场景。杭州飞致云信息科技有限公司 13 1.4 整体功能说明 11-19 所示。杭州飞致云信息科技有限公司 305 图 11-19 配额配置导入页面 11.3.3 价格策略配置方法步骤如下。（1）价格策略的使用场景主要针对于私有云，因为私有云无论是机房还是网络在搭建时都是存在成本的。如果需要公司内部部门间的结算需求，就可以使用价格策略。（2）价格策略就是配置 CPU、内存和存储的单价，通过需要急申请时的实例类型进行计算。单价的计算不同

0 码力 | 308 页 | 0 Bytes | 1 年前
3
Zabbix 4.4 中文手册

based on date. # 0 - disable # 1 - enable # # Mandatory: no # Default: # HistoryStorageDateIndex=0 故障诊断 Troubleshooting 以下步骤可帮助您解决 Elasticsearch 的配置问题：The following steps may help you troubleshoot problems Macro Supported in Description {ACTION.ID} → 基于 Trigger 的通知和命令 *action→ 发现通知从 2.→ 自动注册通知 → 内部通知 → 故障更新通知数字标识。* .0 开始支持。 {ACTION.ID} → Trigger-based notifications and commands → Discovery notifications action. Supported since 2.2.0. {ACTION.NAME} → 基于 Trigger 的通知和命令 *action→ 发现通知从 2.→ 自动注册通知 → 内部通知 → 故障更新通知名称。* .0 开始支持。 199 {ACTION.NAME} → Trigger-based notifications and commands → Discovery notifications

0 码力 | 1850 页 | 13.52 MB | 1 年前
3
Zabbix 5.2 Manual

based on date. # 0 - disable # 1 - enable # # Mandatory: no # Default: # HistoryStorageDateIndex=0 故障诊断 Troubleshooting 以下步骤可帮助您解决 Elasticsearch 的配置问题：The following steps may help you troubleshoot problems Macro Supported in Description {ACTION.ID} → 基于 Trigger 的通知和命令 *action→ 发现通知从 2.→ 自动注册通知 → 内部通知 → 故障更新通知数字标识。* .0 开始支持。 {ACTION.ID} → Trigger-based notifications and commands → Discovery notifications action. Supported since 2.2.0. {ACTION.NAME} → 基于 Trigger 的通知和命令 *action→ 发现通知从 2.→ 自动注册通知 → 内部通知 → 故障更新通知名称。* .0 开始支持。 196 {ACTION.NAME} → Trigger-based notifications and commands → Discovery notifications

0 码力 | 1725 页 | 11.53 MB | 1 年前
3
Zabbix 4.0 中文手册

based on date. # 0 - disable # 1 - enable # # Mandatory: no # Default: # HistoryStorageDateIndex=0 故障诊断 Troubleshooting 以下步骤可帮助您解决 Elasticsearch 的配置问题：The following steps may help you troubleshoot problems Macro Supported in Description {ACTION.ID} → 基于 Trigger 的通知和命令 *action→ 发现通知从 2.→ 自动注册通知 → 内部通知 → 故障更新通知数字标识。* .0 开始支持。 {ACTION.ID} → Trigger-based notifications and commands → Discovery notifications action. Supported since 2.2.0. {ACTION.NAME} → 基于 Trigger 的通知和命令 *action→ 发现通知从 2.→ 自动注册通知 → 内部通知 → 故障更新通知名称。* .0 开始支持。 251 {ACTION.NAME} → Trigger-based notifications and commands → Discovery notifications

0 码力 | 1992 页 | 17.90 MB | 1 年前
3

共 70 条前往

页

分类

语言

格式

Linux就该这么学第2版

爱奇艺 CDN 运维平台实践-张强

告警OnCall事件中心建设方法白皮书

多云管下的自动化运维架构-刘宇

openEuler 24.03 LTS 技术白皮书

B站统⼀监控系统的设计,演进与实践分享

CloudExplorer 3.0 管理员手册v1.2

Zabbix 4.4 中文手册

Zabbix 5.2 Manual

Zabbix 4.0 中文手册