## Chaos Mesh 在网易伏羲私有云自动化
故障注入实践
Speaker Name: 张慧 网易伏羲
Speaker Title: 网易伏羲私有云质量保障负责人、Chaos Mesh 布道师、云原生社区 Stability SIG 发起人
Email: zhangui05@corp.netease.com
## 1
## 网易伏羲私有云简介

## 为什么混沌测试
据外媒报道,亚马逊云端服务Amazon Web Services(AWS)25日遭遇了持续数小时的
故障,导致部分网站和服务系统崩溃。
AWS的服务状态页面上的通知显示,因其处理大量数据流的服务器Kinesis出现问题,导致一些网站的“错误率增加”,亚马逊已经对该问题进行了修复,但完全恢复还需要一段时间,并贴出了当前受到影响的服务。 |---|---|---|---|---|
|可用|1个9|90%|36.5天|2.4小时|
|基本可用|2个9|99%|87.6小时|14分钟|
|较高可用性|3个9|99.9%|8.76小时|86秒|
|具有
故障自动恢复能力的可用性|4个9|99.99%|52.6分钟|8.6秒|
|极高可用性|5个9|99.999%|5.25分钟|0.86秒|
## 通用指标
指标 量化
0 码力 |
25 页 |
3.33 MB
| 1 年前 3
五年C/C++使用经验,一年Golang
## 内容提要
## CONTENTS
• 程序开发的需求
• GoLang特性
- Go开发mysql中间件
- 整体方案
- 分表路由
- 故障切换
- 平滑扩容
- 系统运维
## 程序开发的需求
• 语言特性精炼,容易入门
• 开发效率高,代码逻辑清晰
• 运行性能强,节省机器资源
• 部署维护方便
• 生态圈完善
## Golang特性 整套系统致力于提供一套mysql分布式解决方案,上层应用就跟使用单机mysql一样接入本系统(部分SQL语句不支持)。
## 系统整体方案
## • 系统功能
• 读写分离。
• 平滑上下线Mysql。
• 主备自动切换(主-主模式)。
• 分表设计——按照Hash分表
• 分表设计——按照范围分表(年、月、日、整形)
• 数据库表在多个mysql实例间平滑扩容
- 大表拆分为多个子表情况下的平滑扩容
## sh方式不同,使得看起来有两种不同的数据组织方式。
## 故障主备切换
## • 故障情形
• 从节点挂掉:进行剔除下线处理
• 主节点挂掉,机器存活:通过binlog恢复数据,提升备为主
• 主节点挂掉,机器不存活:采用Relaylog恢复数据,提升备为主
## • 部署模式
· 一主多从
• 双主多从
## 故障主备切换
## · 一主多从模式

构建统一的
可观测体系
## 工
构建智能的故障发现定位体系
## 日
解决监控系统分散 维护成本高
数据无法串联打通的问题
## 日
预置最佳实践
及时从业务侧发现异常
加速故障处理过程
## Flashcat 构建了一个数据、平台、场景打通的一体化方案
## ☀️ 北极星
## 场景
实时量化业务层面的健康状态,第一时间发现真故障
## 灭火图
实时量化 IT 层面的健康状态,快速故障定界
## 可视化
多集群统一查询
## 平台
## 留事件墙
高性能可视化引擎 [Image](/uploads/documents/0/c/2/e/0c2ef9dbcb97940aa5479891c42cb1a1/p5_1.jpg)
兼容Grafana
实时分析生产环境中的所有关键事件,确定故障原因
一分钟创建大屏
## 告警
值班on-call
## C
## 88 开箱即用的数据源
## Categraf 采集器
## 数据
## 企业自有应用 / 基础设施
## 资源
0 码力 |
43 页 |
6.54 MB
| 1 年前 3
0 码力 |
67 页 |
4.10 MB
| 1 年前 3
0 码力 |
2 页 |
34.51 KB
| 1 年前 3