## Chaos Mesh 在网易伏羲私有云自动化
故障注入实践
Speaker Name: 张慧 网易伏羲
Speaker Title: 网易伏羲私有云质量保障负责人、Chaos Mesh 布道师、云原生社区 Stability SIG 发起人
Email: zhangui05@corp.netease.com
## 1
## 网易伏羲私有云简介

## 为什么混沌测试
据外媒报道,亚马逊云端服务Amazon Web Services(AWS)25日遭遇了持续数小时的
故障,导致部分网站和服务系统崩溃。
AWS的服务状态页面上的通知显示,因其处理大量数据流的服务器Kinesis出现问题,导致一些网站的“错误率增加”,亚马逊已经对该问题进行了修复,但完全恢复还需要一段时间,并贴出了当前受到影响的服务。 |---|---|---|---|---|
|可用|1个9|90%|36.5天|2.4小时|
|基本可用|2个9|99%|87.6小时|14分钟|
|较高可用性|3个9|99.9%|8.76小时|86秒|
|具有
故障自动恢复能力的可用性|4个9|99.99%|52.6分钟|8.6秒|
|极高可用性|5个9|99.999%|5.25分钟|0.86秒|
## 通用指标
指标 量化
0 码力 |
25 页 |
3.33 MB
| 1 年前 3
年 1 月 25 日结束,并进入延长生命周期阶段。如需更新相关信息,请参阅 Red Hat OpenShift Container Platform 生命周期政策。
从 4.14 发行版本开始,为了简化对红帽所提供的 Operator 的管理和维护,红帽引入了三个新的生命周期类别:Platform Aligned, Platform Agnostic, 和 Rolling Stream 这些生命周 本地区中快速设置集群。
###### 1.3.2.21. 使用手动维护的云凭证的集群简化的安装和更新体验
此发行版本包括更改,用于改进安装和更新以手动模式使用 Cloud Credential Operator (CCO) 的集群进行云供应商身份验证。oc adm release extract 命令的以下参数简化了云凭证的手动配置:
## --included
使用此参数只提取特定集群配置所需的清单。 在这个版本中,如果用户从 label-synchronized 命名空间中的自动标记值手动修改 pod 安全准入标签,则会为该标签禁用同步。如有必要,用户可以再次启用同步。如需更多信息,请参阅 Pod 安全准入同步命名空间排除。
###### 1.3.8.4. 基于 OLM 的 Operator 支持 AWS STS
在这个版本中,Amazon Web Services (AWS) 集群上的 Operator Lifecycle
0 码力 |
73 页 |
893.33 KB
| 2 年前 3
Service Broker 的比
的比较?
?
服务代理(service broker)是实现应用程序的编程发现和部署的一个步骤。但它并非一个长时间运行
的进程,所以无法执行第 2 天操作,如升级、故障转移或扩展。它在安装时提供对可调参数的自定义
和参数化,而 Operator 则可持续监控集群的当前状态。非集群服务仍非常适合于 Service Broker,但
也存在合适于这些服务的 Operator。 Operator 的 Bundle Format 是 Operator Framework 引入的新打包格式。为提高可伸缩性并为自行托管
目录的上游用户提供更好地支持,Bundle Format 规格简化了 Operator 元数据的发布。
Operator 捆绑包代表 Operator 的单一版本。磁盘上的捆绑包清单是容器化的,并作为捆绑包镜像提供,
第
第 2 章
章 了解
了解 OPERATOR Operator 组的活跃成员时,只要该 CSV 正在使用 AllNamespaces 安装模式来监视所有命
名空间,且没有因 InterOperatorGroupOwnerConflict 原因处于故障状态,便会生成以下 RBAC 资源:
来自 CRD 的每个 API 资源的集群角色
来自 API 服务的每个 API 资源的集群角色
其他角色和角色绑定
表
表 2.5. 来自
来自 CRD 的
的为每个
0 码力 |
423 页 |
4.26 MB
| 2 年前 3
Readiness Tools (SORT)
Veritas Services and Operations Readiness Tools (SORT) 是一个网站,提供的信息和工具有助于自动处理及简化某些耗时的管理任务。根据具体产品,SORT 会帮助您准备安装和升级、识别您数据中心的风险并提高操作效率。要了解 SORT 为您的产品提供了哪些服务和工具,请参见数据表:
https://sort.veritas ... 14
执行 SQLite 备份还原 ..... 15
重定向还原 ..... 16
灾难恢复 ..... 17
第 4 章 NetBackup for SQLite 故障排除 ..... 18
解决在使用 NetBackup for SQLite 代理时出现的错误 ..... 18
附录 A NetBackup for SQLite 命令和约定 .... 灾难恢复
灾难恢复计划恢复可能在灾难事件中丢失的数据。代理支持使用重定向还原作为灾难恢复策略。
有关更多信息,请参见第 16 页的“重定向还原”。
# NetBackup for SQLite 故障排除
本章节包括下列主题:
解决在使用 NetBackup for SQLite 代理时出现的错误
解决在使用 NetBackup for SQLite 代理时出现的错误
解决问题的一般性准则
0 码力 |
29 页 |
675.75 KB
| 2 年前 3
144
1.20. 使用 3SCALE WEBASSEMBLY 模块 154
1.21. 使用 3SCALE ISTIO 适配器 173
1.22. 服务网格故障排除 183
1.23. ENVOY 代理故障排除 191
1.24. SERVICE MESH CONTROL PLANE 配置参考 195
1.25. KIALI 配置参考 207
1.26. JAEGER 微服务架构将企业应用的工作分成模块化服务,从而简化扩展和维护。但是,随着微服务架构上构建的企业应用的规模和复杂性不断增长,理解和管理变得困难。Service Mesh 可以通过捕获或截获服务间的流量来解决这些架构问题,并可修改、重定向或创建新请求到其他服务。
Service Mesh 基于开源 Istio 项目,为创建部署的服务提供发现、负载均衡、服务对服务身份验证、故障恢复、指标和监控的服务网络提供了便捷 e 部署,并允许应用到现有 SMCP 的更改更快地生效。
####### 1.2.2.12.8. Kiali 更新
Kiali 1.36 包括以下功能和增强:
• Service Mesh 故障排除功能
☐ control plane 和网关监控
☐ 代理同步状态
Envoy 配置视图
☐ 显示 Envoy 代理和应用程序日志处于交集的统一视图
支持联邦服务网格视图的命名空间和集群选择
0 码力 |
344 页 |
3.04 MB
| 2 年前 3
Readiness Tools (SORT)
Veritas Services and Operations Readiness Tools (SORT) 是一个网站,提供的信息和工具有助于自动处理及简化某些耗时的管理任务。根据具体产品,SORT 会帮助您准备安装和升级、识别您数据中心的风险并提高操作效率。要了解 SORT 为您的产品提供了哪些服务和工具,请参见数据表:
https://sort.veritas ... 20
执行 SQLite 备份还原 ..... 21
重定向还原 ..... 21
灾难恢复 ..... 22
第 5 章 NetBackup for SQLite 故障排除 ..... 23
解决在使用 NetBackup for SQLite 代理 时出现的错误 ..... 23
附录 A NetBackup for SQLite 命令和约定 ..... 27 调试日志包括以下详细级别: ■ 1-ERROR:应该纠正的条件,例如配置错误。 ■ 2-WARN:不是错误但可能需要特殊处理的条件。 ■ 3-INFO:提示性消息。 ■ 4-DEBUG:调试用于故障排除的消息。
您可以根据要写入日志的事件指定该值。 | 如果未设置此参数,则默认为 10MB。 | | < 0 码力 |
34 页 |
777.04 KB
| 2 年前 3