## Chaos Mesh 在网易伏羲私有云自动化
故障注入实践
Speaker Name: 张慧 网易伏羲
Speaker Title: 网易伏羲私有云质量保障负责人、Chaos Mesh 布道师、云原生社区 Stability SIG 发起人
Email: zhangui05@corp.netease.com
## 1
## 网易伏羲私有云简介

## 为什么混沌测试
据外媒报道,亚马逊云端服务Amazon Web Services(AWS)25日遭遇了持续数小时的
故障,导致部分网站和服务系统崩溃。
AWS的服务状态页面上的通知显示,因其处理大量数据流的服务器Kinesis出现问题,导致一些网站的“错误率增加”,亚马逊已经对该问题进行了修复,但完全恢复还需要一段时间,并贴出了当前受到影响的服务。 |---|---|---|---|---|
|可用|1个9|90%|36.5天|2.4小时|
|基本可用|2个9|99%|87.6小时|14分钟|
|较高可用性|3个9|99.9%|8.76小时|86秒|
|具有
故障自动恢复能力的可用性|4个9|99.99%|52.6分钟|8.6秒|
|极高可用性|5个9|99.999%|5.25分钟|0.86秒|
## 通用指标
指标 量化
0 码力 |
25 页 |
3.33 MB
| 1 年前 3
日
- 总是后于用户反馈发现故障
- 难以快速确认故障影响面
- 难以快速找到故障的直接原因
- 故障处理进度不透明
- 理解数据的成本太高

构建统一的
可观测体系
## 工
构建智能的故障发现定位体系
## 日
解决监控系统分散 维护成本高
数据无法串联打通的问题
## 日
预置最佳实践
及时从业务侧发现异常
加速故障处理过程
## Flashcat 构建了一个数据、平台、场景打通的一体化方案
## ☀️ 北极星
## 场景
实时量化业务层面的健康状态,第一时间发现真故障
## 灭火图
实时量化 IT 层面的健康状态,快速故障定界
## 可视化
多集群统一查询
## 平台
## 留事件墙
高性能可视化引擎 [Image](/uploads/documents/0/c/2/e/0c2ef9dbcb97940aa5479891c42cb1a1/p5_1.jpg)
兼容Grafana
实时分析生产环境中的所有关键事件,确定故障原因
一分钟创建大屏
## 告警
值班on-call
## C
## 88 开箱即用的数据源
## Categraf 采集器
## 数据
## 企业自有应用 / 基础设施
## 资源
0 码力 |
43 页 |
6.54 MB
| 1 年前 3
0 码力 |
67 页 |
4.10 MB
| 1 年前 3
0 码力 |
2 页 |
34.51 KB
| 1 年前 3
GitHub: hexilee
PingCAP R&D
PingCAP 研发工程师, CNCF 开源项目 Chaos Mesh $ ^{®} $ 核心贡献者,主要负责工程效率提升和 HTTP 故障注入功能的设计实现。并推动 GraphQL 在 Chaos Mesh 项目中的实践落地。

## 集群中的状态
在实际混沌实验过程中,可能会出现注入的错误不符合预期,甚至完全没有效果的情况。能否高效地获取各种状态则决定了故障诊断的效率。
集群状态大致可以分为两类,主要分类依据是能否通过 [Image](/uploads/documents/f/6/3/3/f633ae18a6c6017204800ef06cc94453/p10_2.jpg)
## k8s 不可直接查询的状态
Chaos Mesh 注入的故障给目标 Pod 带来状态不可通过 k8s API 直接查询。
![Image](/uploads/documents/f/6/3/3/f633ae18a6c6017204800ef06cc94453/p11_1
0 码力 |
30 页 |
1.29 MB
| 2 年前 3
0 码力 |
21 页 |
926.63 KB
| 2 年前 3