Linux就该这么学 第2版年写给学员的一篇文章,当时 RHEL 7 系统刚发布 不久,一些原本不怎么严重的 bug 被放大,人们对 RHEL 7 系统产生了质疑。为了能 够打消学生的顾虑,我写了下面这篇文章。时隔 6 年,现在大多数机房都已经部署了 RHEL 7 系统,国内外的银行机构、保险公司也纷纷换上了新版本的系统,几乎所有的 云服务厂商都向用户提供了 RHEL 7 或 CentOS 7 系统。回头来看,我的预测还是很准 行动,不 能有一丝马虎。 29 2012 年 5 月 19 日,在英国汉普郡利明顿附近的小镇 Milford-on-Sea 上,一台 ATM 机在维护后发生故障,在顾客取款时会吐出双倍数额的现金。此消息不胫而走之后, 总共有 200 名顾客取走现金,有的人甚至取走了数千英镑。“狂欢”总共持续了两个 多小时,随后警方赶到现场,关闭了这台 ATM 机。 系统的改变都很大,最重要的是它们采用了 systemd 作为初 始化进程,替换了很多原有的老命令。这样一来,几乎之前所有的运维自动化脚本都需要修改。 那么,到底还要不要升级到新版本呢?当然,也不是说服务器机房中的生产环境从不更新换代。 除了硬件更替外,当工作需求超过了当前软件版本的能力范围时,就必须要进行升级了。 比如,RHEL 7 系统使用的 Linux 内核还是 3.10 版本,而现在最新的 RHEL0 码力 | 552 页 | 22.25 MB | 1 年前3
爱奇艺 CDN 运维平台实践-张强CMNET GWBN SCC IPTV 收集代理 HDFS 数据统计、展示 SSH-Based-Tools 运维痛点 – 设备管理 三大ISP 小ISP 纯内网 Ø 通过BGP、多线机房 实现连通 Ø 管理方便 Ø 部分需要单独打隧道 Ø 缺点: 节点上线复杂、 不可靠 Ø 依赖合作商网络情况 Ø 缺点: 配置复杂、登录 管理复杂,不稳定 运维痛点小结 Ø 软件配置 2017.05 产品设计研发,抽象运维任务模 型、设计简单的代理集群服务 2018.02 • Fast 2.0 支持服务发现、状态 上报报警,推进完成视频 CDN 近万设备上线,覆盖数 百个机房 2017.09 Fast 1.0 上线,并完成静态 CDN 上千台设备管理和日常配 置管理 2018.09 • Fast 3.0 上线,全新通信机 制,任务实时发布,权限管理 • 可Shell管理任何设备,包括 总结&展望 总结 展望 总结 总结痛点、梳理日常 运维工作、输出知识 库,合理设计架构 需求分析&设计 单元测试、Staging环 境测试、巡检、报警 开发规范 无状态、多机房、容 器化部署,对接QLB实 现故障自动摘除 高可用设计 日常运维效率提升百 倍. 运维效率 运维任务模型化、易上 手、可交付、加快整体运 营迭代效率 运维可交付 释放运维潜力、运维 开发转型 运维开发0 码力 | 34 页 | 1.75 MB | 1 年前3
告警OnCall事件中心建设方法白皮书
优化告警规则 类似 PagerDuty FlashDuty 这种产品,一定程度上是可以解决一些告警过多的问题,但如果能从告警规 则的源头做好优化,自然是事半功倍。很多公司的告警规则配置没有原则可循,每次故障复盘先看告警是 否漏报,一线工程师为了不背锅,自然是尽量多地提高告警覆盖面,但这么做的后果,就是告警过多,无 效告警占多数,长此以往,工程师疲惫不堪。 那么告警规则的配置应该遵照一个什 通过排班、认领、升级这些机制,可以确保告警递达指定的人,但要处理告警的话,只有值班人员自己就 未必搞得定了,需要有协同机制把相关人都拉进来一起处理才可以。对于某个故障,可能同时有多个告警 事件产生,大家基于一个统一的故障协同,而不是基于一堆事件分别协同,这就需要把这多个事件收敛成 一个故障,下面我们来聊一下这个收敛逻辑。 告警收敛逻辑 一般收敛逻辑是三级收敛,event -> alert -> incident。举个例子,最原始的告警事件,比如 incident(故障),基于 incident 做协同才比较方便。但是,event 到 alert 是有一个固定的收敛逻辑的,可以通过程序自动收敛,而 alert 到 incident 却很难自动收敛。不过业界也会有一些常见的做法,下面我举几个例子。 1、根据时间做收敛 把告警中心收到的所有告警,按照时间维度做收敛,比如按照分钟颗粒度,一分钟内所有告警收敛成一个 故障,下一分钟所0 码力 | 23 页 | 1.75 MB | 1 年前3
多云管下的自动化运维架构-刘宇② 多云下运维的挑战 ③ 多云平台架构如何设计? ④ 困难以及挑战 资源统一管理 监控 账单 ⑤ 未来的展望 行业趋势分析 2017 年主流公有云故障 2018 年主流公有云故障 2019 年主流公有云故障 1% 的机率毁掉一家公司 行业趋势分析 多云下运维的挑战 Nginx Nginx LVS LVS Nginx DB DB Ngx Ngx LVS 多云下运维的挑战 Ngx Ngx LVS LVS Ngx DB DB Region Ngx Ngx LVS LVS Ngx DB DB 机房 Ngx Ngx LVS LVS Ngx DB DB 海海外 云故障时,影响不及时 —〉 不可控 集中式监控成本高 —〉 难统一 排查定位问题成本高 —〉 跨度大 业务成本难以核算 —〉 账单难处理 。。。0 码力 | 32 页 | 6.05 MB | 1 年前3
openEuler 24.03 LTS 技术白皮书支持、trampoline 支持与 cpuv4 指令支持等特性,扩展了 bpf 的能力。 • 内存可靠性分级(继承特性):支持使用者按照需求分配在对应可靠性的内存上,并对部分可能的 UCE 或 CE 故障影响进行一 定程度的缓解,达到部分 MR 内存(address range mirror)的情况下,支撑业务整体可靠性不下降。 云化基座 18 openEuler 24.03 LTS 技术白皮书 agent 无侵入观测技术,并以智能化辅助,实现亚健康故障(比如性能抖动、错误率提升、系统卡顿等问题现象) 诊断。其架构如图: A-Ops 智能运维 A-Ops 是一款基于操作系统维度的故障运维平台,提供从数据采集,健康巡检,故障诊断,故障修复到修复任务回退的智能 运维解决方案。A-Ops 项目包括了诺干子项目:覆盖故障发现(aops-gala),故障定位支撑(aops-X-diagnosis),缺陷修复 性能抖动问题诊断能力。 • 系统隐患巡检:提供内核协议栈丢包、虚拟化网络丢包、TCP 异常、I/O 时延异常、系统调用异常、资源泄漏、JVM 异常、应 用 RPC 异常(包括 8 种常见协议的错误率、时延等)硬件故障(UCE、磁盘介质错误等)等秒级巡检能力。 • 系统全栈 I/O 观测:提供面向分布式存储场景的 I/O 全栈观测能力,包括 GuestOS 进程级、Block 层的 I/O 观测能力,以及虚 拟化层存储前端0 码力 | 45 页 | 6.18 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层 应⽤用层 • cache资源 • db资源 • mq资源 • lb资源 • es资源 • 异常事件关联关系挖掘 • 全联路路模块调⽤用分析 • 瓶颈分析 针对历史事件 针对当前事件 • 异常检查(动态阈值) • 异常定位(根因分析) • 快速⽌止损 针对未来事件 • 故障预测 • 容量量预测 • 趋势预测 Thank You! 哔哩哔哩 - ( ゜- ゜)つロ 乾杯~ - bilibili0 码力 | 34 页 | 650.25 KB | 1 年前3
CloudExplorer 3.0 管理员手册v1.2及应用的资源信息、资源归属信息、应用系统应用信息、以 及资源与资源关系信息,为 IT 系统运维、运营、管理,应用开发测试运维 提供准确、一致的数据支持,比如统计分析资源投入、分组分类关联查找 定位、快速定位故障等。在企业 IT 建设中,往往被作为建设核心。 Veeam Veeam 是瑞士一家智能数据管理解决方案提供商,专注于为用户提供数据 备份和恢复、数据保护和数据安全等服务,帮助用户提升数据的智能化水 资源的全生命周期管理方面,管理方面包括权限、访问控制、安 全合规、流程变更管理、成本费用管理、分级分组分类、集中统一管理等 IT 运维 主要指应用运行环境资源的监控、面向预警的性能分析、定位故障、批量 变更、排除故障、IT 运维管理数据同步等方面场景。 IT 运营 主要指 IT 资源投入统计分析、浪费分析,持续分析优化及时回收方面场景。 杭州飞致云信息科技有限公司 13 1.4 整体功能说明 11-19 所示。 杭州飞致云信息科技有限公司 305 图 11-19 配额配置导入页面 11.3.3 价格策略 配置方法步骤如下。 (1)价格策略的使用场景主要针对于私有云,因为私有云无论是机房还是网络在搭 建时都是存在成本的。如果需要公司内部部门间的结算需求,就可以使用价格策略。 (2)价格策略就是配置 CPU、内存和存储的单价,通过需要急申请时的实例类型进 行计算。单价的计算不同0 码力 | 308 页 | 0 Bytes | 1 年前3
Zabbix 4.4 中文手册based on date. # 0 - disable # 1 - enable # # Mandatory: no # Default: # HistoryStorageDateIndex=0 故障诊断 Troubleshooting 以下步骤可帮助您解决 Elasticsearch 的配置问题:The following steps may help you troubleshoot problems Macro Supported in Description {ACTION.ID} → 基于 Trigger 的通知和命令 *action→ 发现通知 从 2.→ 自动注册通知 → 内部通知 → 故障更新通知 数字标识。* .0 开始支持。 {ACTION.ID} → Trigger-based notifications and commands → Discovery notifications action. Supported since 2.2.0. {ACTION.NAME} → 基于 Trigger 的通知和命令 *action→ 发现通知 从 2.→ 自动注册通知 → 内部通知 → 故障更新通知 名称。* .0 开始支持。 199 {ACTION.NAME} → Trigger-based notifications and commands → Discovery notifications0 码力 | 1850 页 | 13.52 MB | 1 年前3
Zabbix 5.2 Manualbased on date. # 0 - disable # 1 - enable # # Mandatory: no # Default: # HistoryStorageDateIndex=0 故障诊断 Troubleshooting 以下步骤可帮助您解决 Elasticsearch 的配置问题:The following steps may help you troubleshoot problems Macro Supported in Description {ACTION.ID} → 基于 Trigger 的通知和命令 *action→ 发现通知 从 2.→ 自动注册通知 → 内部通知 → 故障更新通知 数字标识。* .0 开始支持。 {ACTION.ID} → Trigger-based notifications and commands → Discovery notifications action. Supported since 2.2.0. {ACTION.NAME} → 基于 Trigger 的通知和命令 *action→ 发现通知 从 2.→ 自动注册通知 → 内部通知 → 故障更新通知 名称。* .0 开始支持。 196 {ACTION.NAME} → Trigger-based notifications and commands → Discovery notifications0 码力 | 1725 页 | 11.53 MB | 1 年前3
Zabbix 4.0 中文手册based on date. # 0 - disable # 1 - enable # # Mandatory: no # Default: # HistoryStorageDateIndex=0 故障诊断 Troubleshooting 以下步骤可帮助您解决 Elasticsearch 的配置问题:The following steps may help you troubleshoot problems Macro Supported in Description {ACTION.ID} → 基于 Trigger 的通知和命令 *action→ 发现通知 从 2.→ 自动注册通知 → 内部通知 → 故障更新通知 数字标识。* .0 开始支持。 {ACTION.ID} → Trigger-based notifications and commands → Discovery notifications action. Supported since 2.2.0. {ACTION.NAME} → 基于 Trigger 的通知和命令 *action→ 发现通知 从 2.→ 自动注册通知 → 内部通知 → 故障更新通知 名称。* .0 开始支持。 251 {ACTION.NAME} → Trigger-based notifications and commands → Discovery notifications0 码力 | 1992 页 | 17.90 MB | 1 年前3
共 70 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













