## Chaos Mesh 在网易伏羲私有云自动化
故障注入实践
Speaker Name: 张慧 网易伏羲
Speaker Title: 网易伏羲私有云质量保障负责人、Chaos Mesh 布道师、云原生社区 Stability SIG 发起人
Email: zhangui05@corp.netease.com
## 1
## 网易伏羲私有云简介

## 为什么混沌测试
据外媒报道,亚马逊云端服务Amazon Web Services(AWS)25日遭遇了持续数小时的
故障,导致部分网站和服务系统崩溃。
AWS的服务状态页面上的通知显示,因其处理大量数据流的服务器Kinesis出现问题,导致一些网站的“错误率增加”,亚马逊已经对该问题进行了修复,但完全恢复还需要一段时间,并贴出了当前受到影响的服务。 |---|---|---|---|---|
|可用|1个9|90%|36.5天|2.4小时|
|基本可用|2个9|99%|87.6小时|14分钟|
|较高可用性|3个9|99.9%|8.76小时|86秒|
|具有
故障自动恢复能力的可用性|4个9|99.99%|52.6分钟|8.6秒|
|极高可用性|5个9|99.999%|5.25分钟|0.86秒|
## 通用指标
指标 量化
0 码力 |
25 页 |
3.33 MB
| 1 年前 3
0 码力 |
1709 页 |
5.81 MB
| 1 年前 3
日
- 总是后于用户反馈发现故障
- 难以快速确认故障影响面
- 难以快速找到故障的直接原因
- 故障处理进度不透明
- 理解数据的成本太高

构建统一的
可观测体系
## 工
构建智能的故障发现定位体系
## 日
解决监控系统分散 维护成本高
数据无法串联打通的问题
## 日
预置最佳实践
及时从业务侧发现异常
加速故障处理过程
## Flashcat 构建了一个数据、平台、场景打通的一体化方案
## ☀️ 北极星
## 场景
实时量化业务层面的健康状态,第一时间发现真故障
## 灭火图
实时量化 IT 层面的健康状态,快速故障定界
## 可视化
多集群统一查询
## 平台
## 留事件墙
高性能可视化引擎 [Image](/uploads/documents/0/c/2/e/0c2ef9dbcb97940aa5479891c42cb1a1/p5_1.jpg)
兼容Grafana
实时分析生产环境中的所有关键事件,确定故障原因
一分钟创建大屏
## 告警
值班on-call
## C
## 88 开箱即用的数据源
## Categraf 采集器
## 数据
## 企业自有应用 / 基础设施
## 资源
0 码力 |
43 页 |
6.54 MB
| 1 年前 3
0 码力 |
2 页 |
34.51 KB
| 1 年前 3
GitHub: hexilee
PingCAP R&D
PingCAP 研发工程师, CNCF 开源项目 Chaos Mesh $ ^{®} $ 核心贡献者,主要负责工程效率提升和 HTTP 故障注入功能的设计实现。并推动 GraphQL 在 Chaos Mesh 项目中的实践落地。

## 集群中的状态
在实际混沌实验过程中,可能会出现注入的错误不符合预期,甚至完全没有效果的情况。能否高效地获取各种状态则决定了故障诊断的效率。
集群状态大致可以分为两类,主要分类依据是能否通过 [Image](/uploads/documents/f/6/3/3/f633ae18a6c6017204800ef06cc94453/p10_2.jpg)
## k8s 不可直接查询的状态
Chaos Mesh 注入的故障给目标 Pod 带来状态不可通过 k8s API 直接查询。
落地规划
## 业界智能运维发展趋势
阶段 7: 智能化、AIOps
阶段6: 数据化
阶段 5:
自动化、平台化 ●智能运维体系建设方法论
●大规模实时监控平台的实践方案
●智能故障定位与处理实践
● APM 在京东物流的落地实践
●智能运维(AIOps)落地规划
## 智能运维体系建设方法论
统一规划、避免重复建设
标准化是前提
产品化设计、产品化开发
服务驱动
运维中台
业务增值
过程改进
智能化
AIOPS
根因分析
发现问题
异常检测
故障树
趋势分析
数据化
日志分析
应用日志 远程工具
网络拓扑
系统监控
问题管理
国际化
监控大屏
网络巡检
深度学习
Jdos应用
库房应用
数据库操作
发布管理
变更管理
可视化
分拣
规避
问题
亚一
故障预测
中间件
容量规划
Devops斗仞
性能预测
备战大屏
预算规划
资源申请
编译、打包
流程管理
自定义页面
数据库运维
任务管理
项目管理
自动化测试
自动化部署
0 码力 |
41 页 |
3.52 MB
| 2 年前 3