机房故障 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧

Chaos Mesh 在网易伏羲私有云自动化故障注入实践 Speaker Name：张慧网易伏羲 Speaker Title：网易伏羲私有云质量保障负责人、Chaos Mesh 布道师、云原生社区 Stability SIG 发起人 Email：zhangui05@corp.netease.com 云原生学院目录  网易伏羲私有云简介  为什么混沌测试  什么是混沌测试为什么混沌测试理想下，系统用不宕机，100%可用比如机房突然断电事故突然的到来为什么混沌测试通用指标阶段性进阶衡量标准指标量化什么是混沌测试什么是混沌测试混沌工程旨在将故障扼杀在襁褓之中，也就是在故障造成中断之前将它们识别出来。通过主动制造故障，测试系统在各种压力下的行为，识别并修复故障问题，避免造成严重后果。混沌工程将预想的事情和实际混沌工程将预想的事情和实际发生的事情进行对比，通过“有意识搞破坏”来提升系统稳定性。鲁棒性故障注入如何选择混沌测试工具混沌工具混沌工具为什么是 Chaos Mesh 为什么是 Chaos Mesh ● PodChaos: kill / fail / container/... ● NetworkChaos: delay / lose / dup / partition

0 码力 | 25 页 | 3.33 MB | 6 月前
3
Nacos架构&原理

年做分布式系统改造时开始建设，特殊之处在于它是整个分布式系统的协调者和全局入口，也意味着它的可用性，可靠性，可观测性等分布式系统指标影响整个分布式系统的运行。历史上，这个系统在阿里也触发过大故障，经历过数次血与火的考验。在阿里数次架构升级中，Nacos 都做了大量的功能迭代，用来支持阿里的异地多活，容灾演练，容器化，Serverless 化。Nacos 经过阿里内部锤炼十年以上，各项指标已经及其先进，稳定，为服务服务端进行创建并进行管理的，必须保证大部分的节点都保存了此配置数据才能认为配置被成功保存了，否则就会丢失配置的变更，如果出现这种情况，问题是很严重的，如果是发布重要配置变更出现了丢失变更动作的情况，那多半就要引起严重的现网故障了，因此对于配置数据的管理，是必须要求集群中大部分的节点是强⼀致的，而这里的话只能使用强⼀致性共识算法。为什么是 Raft 和 Distro 呢对于强⼀致性共识算法，当前工业生产中，最多使用的就是健康状态、权重等属性。随着服务规模的扩大，渐渐的又需要在整个服务级别设定⼀些权限规则、以及对所有实例都生效的⼀些开关，于是在服务级别又会设立⼀些属性。再往后，我们又发现单个服务的实例又会有划分为多个子集的需求，例如⼀个服务是多机房部署的，那么可能需要对每个机房的实例做不同的配置，这样又需要在服务和实例之间再设定⼀个数据级别。 65 > Nacos 架构 Zookeeper 没有针对服务发现设计数据模型，它的数据是以⼀种更加抽象的树形

0 码力 | 326 页 | 12.83 MB | 9 月前
3
阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践

分钟级弹性扩缩容 - 支持性能独占独占 (优于普通ECS) 硬件故障率硬盘1年故障率 2% 0.8%% (无本地盘) 硬件维修周期 [周, 月] [分钟，天]成本效率稳定云化架构物理机 + 本地存储 + Underlay网络神龙/ECS + 远程存储 + Overlay网络集团机房云上机房基础设施 IDC 系统基础运维天基系统 CMDB 安全审计单机监控监控大盘 • 在线率 • 宕机率 • 抖动率 • 基线系统 • 基础环境一致性故障自愈 (1-5-10) • 监控、故障发现 (1-5) • 本地检测 (walle, NPD) + 外部系统 (IDC、aliyun) • SLI、SLO、SLA • 钉钉、邮件、电话报警、ChatOps 自助诊断 • 节点故障自愈 (10) • 决策中心执行修复操作 • 集中统一风控 • 日常1人运维数十万节点 • 宕机关联度分析 • 宕机趋势 • 机房、单元、分组 • 机型、硬件特征 • 内核版本、hotfix 一致率 • 宕机根因分析诊断 • 硬件故障、运维事件 • vmcore 归类分析 • 内核错误日志分析Machine Operator • 全生命周期 • 导入 • 下线 • 维护 • 组件终态 • 安装 • 升级 • 回滚 • 故障自愈 • 运维事件 • 业务置换Machine

0 码力 | 21 页 | 7.81 MB | 6 月前
3
Service Mesh的实践分享

侵入性小。SDK只有简单的寻址和序列化/ 反序列化的功能无侵入性。应用自行调用运维难度难度大。客户端的问题会对应用直接产生影响，耦合太重难度小。Sidecar故障可以将流量临时切到 remote proxy解决难度小。集群通过LVS接入，单台机故障可以下线升级难度难度极大。需要客户端修改代码、发布、上线。难度小。切换流量到remote proxy可以实现用户无感知的无损升级。难度小。通过LVS摘流量滚动升紧张的情况下；而且还容器导致资源浪费（sidecar的使用率问题）影响小。宿主机预留部分资源启动daemonset 即可运维难度难度大。Sidecar故障会影响同一个pod的业务容器，同生共死难度小。Sidecar故障可以将流量临时切到 remote proxy解决升级难度难度大。升级Sidecar需要业务容器一起发布，协调成本高，而且全量升级sidecar对整个系统的动荡太大规则路由、标签路由、邻近机房路由、Hash路由、基于权重的路由、熔断、健康探测、超时重试、限流降级等等 • 契约化治理，服务接口变更diff并通知上游 • 环境无关，物理机、云、测试机器、本机都能跑实践中踩过的坑我是作者名称ZooKeeper的强耦合 • 初始设计没有抽象服务注册发现和服务配置的接口，直接操作ZK并且依赖了ZK的特性和原语 • ZK弊端显现 • 跨机房多活问题 •

0 码力 | 30 页 | 4.80 MB | 6 月前
3
分布式NewSQL数据库TiDB

12/120 真正⾦融级⾼可⽤真正⾦融级⾼可⽤相⽐于传统主从 (M-S) 复制⽅案，基于 Raft 的多数派选举协议可以提供⾦融级的 100% 数据强⼀致性保证，且在不丢失⼤多数副本的前提下，可以实现故障的⾃动恢复 (auto- failover)，⽆需⼈⼯介⼊。产品优势分布式NewSQL数据库 TiDB Copyright © 2012-2021 UCloud 优刻得 13/120 适⽤场景案是同城两个机房提供服务、异地⼀个机房提供数据容灾能⼒但不提供服务，此解决⽅案存在以下缺点：资源利⽤率低、维护成本⾼、RTO (Recovery Time Objective) 及 RPO (Recovery Point Objective) ⽆法真实达到企业所期望的值。TiDB 采⽤多副本 + Multi-Raft 协议的⽅式将数据调度到不同的机房、机架、机器，当部分机器出现故障时系统可⾃动进⾏切换，确保系统的直接⽣成报表真正⾦融级⾼可⽤真正⾦融级⾼可⽤相⽐于传统主从 (M-S) 复制⽅案，基于 Raft 的多数派选举协议可以提供⾦融级的 100% 数据强⼀致性保证，且在不丢失⼤多数副本的前提下，可以实现故障的⾃动恢复 (auto- failover)，⽆需⼈⼯介⼊。适⽤场景分布式NewSQL数据库 TiDB Copyright © 2012-2021 UCloud 优刻得 15/120 UCloud

0 码力 | 120 页 | 7.42 MB | 6 月前
3
TiDB中文技术文档

数据定义语句 (DDL) 数据操作语句 (DML) 事务语句数据库管理语句 Prepared SQL 语句语法实用工具语句 JSON 支持 Connectors 和 API TiDB 事务隔离级别错误码与故障诊断与 MySQL 兼容性对比 TiDB 内存控制文档 Bit-value Literals Boolean Literals Date 和 Time 字面值十六进制的字面值 NULL Values Compose 部署方案跨机房部署方案配置集群参数解释 TiDB 配置项解释开启 TLS 验证生成自签名证书监控集群整体监控框架概述重要监控指标详解组件状态 API & 监控扩容缩容集群扩容缩容方案使用 Ansible 扩容缩容升级升级组件版本 TiDB 2.0 升级操作指南性能调优备份与迁移备份与恢复数据迁移数据迁移概述数据迁移故障诊断 TiDB 周边工具 Syncer Connectors 和 API TiDB 事务隔离级别错误码与故障诊断与 MySQL 兼容性对比 TiDB 内存控制高级功能历史数据回溯垃圾回收 (GC) TiDB 运维文档软硬件环境需求部署集群 Ansible 部署方案（强烈推荐）离线 Ansible 部署方案 Docker 部署方案 Docker Compose 部署方案跨机房部署方案配置集群参数解释 README - 8 - 本文档使用

0 码力 | 444 页 | 4.89 MB | 6 月前
3
蚂蚁金服Service Mesh渐进式迁移方案

t() 都没有改造，直连服务器端有改造，单跳客户端有改造，单跳Service Mesh时代的客户端和寻址方式服务发现加密负载均衡请求路由目标服务的标识序列化链路追踪故障注入日志监控 Metrics 熔断限流服务降级前置条件检查身份认证密钥管理访问控制 …… 下沉到 Service Mesh 轻量级客户端传统侵入式客户端客户端应该尽可能的轻薄通用: 命中率/超时数 1 同机房 10 43899 2001674 (100%）|0 2 同机房 50 44369 2001674 (100%)|0 3 同机房 100 40815 2001674 (100%)|140 4 同机房 200 41094 2001674 (100%)|112 5 同机房 300 40664 2001674 (100%)|628 6 同机房 400 42226 2001674 2001674 (100%)|729 7 同机房 500 42156 2001674 (100%)|1192 Bind queryperf 测试 100个域名(5s timeout)CoreDNS 的性能CoreDNS 的横向扩展 1、按照CPU 的维度 2、按照QPS 的维度(Custom Metrics)CoreDNS 的正式发布 • https://github.com/kuber

0 码力 | 40 页 | 11.13 MB | 6 月前
3
Service Mesh 高可用在企业级生产中的实践

99% 87.6小时较高可用 3个9 99.9% 8.8小时具备故障自动恢复能力可用 4个9 99.99% 53分钟极高可用 5个9 99.999% 5分钟18/总页数治理策略 & 高可用不可用因素程序和配置出 bug 线程假死、配置格式出错机器故障宕机机房故障核心交换机故障、机房停电容量服务容量不足依赖服务响应超时19/总页数治理策略

0 码力 | 38 页 | 1.38 MB | 6 月前
3
SOFAMOSN持续演进路径及实践分享

支持Router模式 Ø GRPC支持 Ø 协议自动识别 Ø 链式路由扩展 Ø 完善流量管理策略，包括 Retry、DirectResponse、 HTTP Header add/delete、流控、故障注入等 Ø 支持必要的admin接口性能 0.1.0 0.2.0 0.3.0 0.4.0 Ø 内存复用框架 Ø Slab style buffer Ø Raw-Epoll模式 Ø 读合并 match，subset等开源能力实现 ü 适配蚂蚁三地五中心机房部署，LDC/弹性架构 ü 蚂蚁内部划分R/G/C三种 zone类型，每个Zone的能力不保证对等 ü 适用于单次简单路由无法解决的复杂架构场景(如非对等路由，不确定当前zone 是否有该服务的提供方) Service A MOSN 深圳机房上海机房 Service B MOSN Service B MOSN Service B MOSN 2. 尝试在本 Zone内访问B服务 3. 若当前 Rzone内不存在B服务，尝试在本机房内部查找 3. 若当前机房内不存在 B服务，路由到Gzone 机房UC落地 - XProtocol DNS方案规划 & 展望MOSNG 待开源MOSN-X eBPF 加速卡 DPDK MOSN SSL Offload User Protocol Stack

0 码力 | 29 页 | 7.03 MB | 6 月前
3
sealos 以 kubernetes 为内核的云操作系统

写代码像写博客一样简单 • AI 自动编码，毫秒级上线，0 运维数据库管理 mysql/pgsql/mongo/ redis 等多种数据库数据库多主架构高可用数据库备份恢复，故障自愈数据库管理工具，监控告警 Userlnterface API/CLI/GUI Cilium Gvisor/Containerd OpenEBS LVM local pv Bare metal 20min 自动化完成全国多个 02 交付环境：各大公有云不同版本liux发行版裸金属 AMD ARM ······ 数月数十人依赖中间数十款软件 SaaS 机房1 机房2 机房n ·· ·· ·· 打包监控系统日至系统数据库消息队列对象存储计算储存网络 kubernetes SaaS服务 30min 1人一键打包整体交付一次建构

0 码力 | 29 页 | 7.64 MB | 9 月前
3

共 73 条前往

页

分类

语言

格式

14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧

Nacos架构&原理

阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践

Service Mesh的实践分享

分布式NewSQL数据库TiDB

TiDB中文技术文档

蚂蚁金服Service Mesh渐进式迁移方案

Service Mesh 高可用在企业级生产中的实践

SOFAMOSN持续演进路径及实践分享

sealos 以 kubernetes 为内核的云操作系统