14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧Chaos Mesh 在网易伏羲私有云自动化故障注入实践 Speaker Name:张慧 网易伏羲 Speaker Title:网易伏羲私有云质量保障负责人、Chaos Mesh 布道师、云原生社区 Stability SIG 发起人 Email:zhangui05@corp.netease.com 云 原 生 学 院 目录 网易伏羲私有云简介 为什么混沌测试 什么是混沌测试 为什么混沌测试 理想下,系统用不 宕机,100%可用 比如机房突然断电 事故突然的到来 为什么混沌测试 通用指标 阶段性进阶衡量 标准 指标 量化 什么是混沌测试 什么是混沌测试 混沌工程旨在将故障扼杀在襁褓之中,也就是在故障造成中断之前将它们识别出来。通过主动制 造故障,测试系统在各种压力下的行为,识别并修复故障问题,避免造成严重后果。 混沌工程将预想的事情和实际 混沌工程将预想的事情和实际发生的事情进行对比,通过“有意识搞破坏”来提升系统稳定性。 鲁棒性 故障注入 如何选择混沌测试工具 混沌工具 混沌工具 为什么是 Chaos Mesh 为什么是 Chaos Mesh ● PodChaos: kill / fail / container/... ● NetworkChaos: delay / lose / dup / partition0 码力 | 25 页 | 3.33 MB | 6 月前3
杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用PYCON CHINA 基于深度学习的多维时间序列 预测在数据机房中的应用 目 录 1 背景介绍 2 研究目标 3 研究内容 4 后续工作 1. 背景介绍 数据机房面临的能耗问题 数据机房面临电量消耗巨大的问题 空调是数据机房中电量消耗最大的设备 空调为什么那么耗电?怎么优化节能? 低效的 冷却装 置 服务主 机工作 发热 影响空 调耗电 量原因 建筑材料 隔热和散 不够智能 的空调控 制系统 空调缺乏对整个环境 的全面感知 空调对温度的控制 存在延迟 多 维 感 知 温 度 预 测 控 制 2. 研究目标 对数据机房的温度进行预测 ⚫ 根据机房的历史运行数据变化预测未来 XX 分钟机房的温度值,从而实现空调的预测控制。 风机状态 服务负载 天气状况 室外温度 室外湿度 门禁状态 时序数据 温度预测 预测控制 节能调节 3. 研究内容 代表算法有RNN,LSTM 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂 的关系 ⚫ 提取维度之间空间依赖关系, 长短期依赖关系 ⚫ 算法有LSTNet,TPA-LSTM 多维时间序列预测方法解决机房温度预测 对数据包含的信息提取能力越来越强 选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫ Recurrent0 码力 | 17 页 | 2.49 MB | 1 年前3
阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践分钟级 弹性扩缩容 - 支持 性能 独占 独占 (优于普通ECS) 硬件故障率 硬盘1年故障率 2% 0.8%% (无本地盘) 硬件维修周期 [周, 月] [分钟,天]成本 效率 稳定云化架构 物理机 + 本地存储 + Underlay网 络 神龙/ECS + 远程存储 + Overlay网络 集团机房 云上机房 基础设施 IDC 系统 基础运维 天基系统 CMDB 安全审计 单机监控 监控大盘 • 在线率 • 宕机率 • 抖动率 • 基线系统 • 基础环境一致性故障自愈 (1-5-10) • 监控、故障发现 (1-5) • 本地检测 (walle, NPD) + 外部系统 (IDC、aliyun) • SLI、SLO、SLA • 钉钉、邮件、电话报警、ChatOps 自助诊断 • 节点故障自愈 (10) • 决策中心执行修复操作 • 集中统一风控 • 日常1人运维数十万节点 • 宕机关联度分析 • 宕机趋势 • 机房、单元、分组 • 机型、硬件特征 • 内核版本、hotfix 一致率 • 宕机根因分析诊断 • 硬件故障、运维事件 • vmcore 归类分析 • 内核错误日志分析Machine Operator • 全生命周期 • 导入 • 下线 • 维护 • 组件终态 • 安装 • 升级 • 回滚 • 故障自愈 • 运维事件 • 业务置换Machine0 码力 | 21 页 | 7.81 MB | 6 月前3
Service Mesh的实践分享侵入性小。SDK只有简单的寻址和序列化/ 反序列化的功能 无侵入性。应用自行调用 运维难度 难度大。客户端的问题会对 应用直接产生影响,耦合太 重 难度小。Sidecar故障可以将流量临时切到 remote proxy解决 难度小。集群通过LVS接入,单 台机故障可以下线 升级难度 难度极大。需要客户端修改 代码、发布、上线。 难度小。切换流量到remote proxy可以实 现用户无感知的无损升级。 难度小。通过LVS摘流量滚动升 紧张的情况下; 而且还容器导致资源浪费(sidecar的使用率问题) 影响小。宿主机预留部分资源启动daemonset 即可 运维难度 难度大。Sidecar故障会影响同一个pod的业务容器,同 生共死 难度小。Sidecar故障可以将流量临时切到 remote proxy解决 升级难度 难度大。升级Sidecar需要业务容器一起发布,协调成本 高,而且全量升级sidecar对整个系统的动荡太大 规则路由、标签路由、邻近机房 路由、Hash路由、基于权重的路 由、熔断、健康探测、超时重试、 限流降级等等 • 契约化治理,服务接口变更diff并 通知上游 • 环境无关,物理机、云、测试机 器、本机都能跑实践中踩过的坑 我是作者名称ZooKeeper的强耦合 • 初始设计没有抽象服务注册发现和服务配 置的接口,直接操作ZK并且依赖了ZK的特 性和原语 • ZK弊端显现 • 跨机房多活问题 •0 码力 | 30 页 | 4.80 MB | 6 月前3
蚂蚁金服Service Mesh渐进式迁移方案t() 都没有改造,直连 服务器端有改造,单跳 客户端有改造,单跳Service Mesh时代的客户端和寻址方式 服务发现 加密 负载均衡 请求路由 目标服务 的标识 序列化 链路追踪 故障注入 日志 监控 Metrics 熔断 限流 服务降级 前置条件检查 身份认证 密钥管理 访问控制 …… 下沉到 Service Mesh 轻量级客户端 传统 侵入式 客户端 客户端应该尽可能的轻薄通用: 命中率/超时数 1 同机房 10 43899 2001674 (100%)|0 2 同机房 50 44369 2001674 (100%)|0 3 同机房 100 40815 2001674 (100%)|140 4 同机房 200 41094 2001674 (100%)|112 5 同机房 300 40664 2001674 (100%)|628 6 同机房 400 42226 2001674 2001674 (100%)|729 7 同机房 500 42156 2001674 (100%)|1192 Bind queryperf 测试 100个域名(5s timeout)CoreDNS 的性能CoreDNS 的横向扩展 1、按照CPU 的维度 2、按照QPS 的维度(Custom Metrics)CoreDNS 的正式发布 • https://github.com/kuber0 码力 | 40 页 | 11.13 MB | 6 月前3
Service Mesh 高可用在企业级生产中的实践99% 87.6小时 较高可用 3个9 99.9% 8.8小时 具备故障自动恢复 能力可用 4个9 99.99% 53分钟 极高可用 5个9 99.999% 5分钟18/总页数 治理策略 & 高可用 不可用因素 程序和配置出 bug 线程假死、配 置格式出错 机器故障 宕机 机房故障 核心交换机故 障、机房停电 容量 服务容量不足 依赖服务 响应超时19/总页数 治理策略0 码力 | 38 页 | 1.38 MB | 6 月前3
SOFAMOSN持续演进路径及实践分享支持Router模式 Ø GRPC支持 Ø 协议自动识别 Ø 链式路由扩展 Ø 完善流量管理策略,包括 Retry、DirectResponse、 HTTP Header add/delete、 流控、故障注入等 Ø 支持必要的admin接口性能 0.1.0 0.2.0 0.3.0 0.4.0 Ø 内存复用框架 Ø Slab style buffer Ø Raw-Epoll模式 Ø 读合并 match,subset等 开源能力实现 ü 适配蚂蚁三地五中心机房部 署,LDC/弹性架构 ü 蚂蚁内部划分R/G/C三种 zone类型,每个Zone的能 力不保证对等 ü 适用于单次简单路由无法解 决的复杂架构场景(如非对 等路由,不确定当前zone 是否有该服务的提供方) Service A MOSN 深圳机房 上海机房 Service B MOSN Service B MOSN Service B MOSN 2. 尝试在本 Zone内访 问B服务 3. 若当前 Rzone内不 存在B服务, 尝试在本机 房内部查找 3. 若当前机 房内不存在 B服务,路 由到Gzone 机房UC落地 - XProtocol DNS方案规划 & 展望MOSNG 待开源MOSN-X eBPF 加速卡 DPDK MOSN SSL Offload User Protocol Stack0 码力 | 29 页 | 7.03 MB | 6 月前3
sealos 以 kubernetes 为内核的云操作系统写代码像写博客一样简单 • AI 自动编码,毫秒级上线,0 运 维 数据库管理 mysql/pgsql/mongo/ redis 等多种数据库 数据库多主架构高 可用 数据库备份恢复, 故障自愈 数据库管理工具, 监控告警 Userlnterface API/CLI/GUI Cilium Gvisor/Containerd OpenEBS LVM local pv Bare metal 20min 自动化完成 全国多个 02 交付环境: 各大公有云 不同版本liux发行版 裸金属 AMD ARM ······ 数月 数十人 依赖中间数十款软件 SaaS 机房1 机房2 机房n ·· ·· ·· 打包 监控 系统 日至 系统 数据库 消息队列 对象存储 计算 储存 网络 kubernetes SaaS服务 30min 1人 一键打包 整体交付 一次建构0 码力 | 29 页 | 7.64 MB | 9 月前3
百度APP基于Istio实现基础架构升级 - lightning talk - MichaelXu升级一级服务建设中,发现很多模块单点、多点故障不能容忍,能否低成本解决? Ø 比如常用运维降级、止损能力各个产品线重复建设,方案差异大,OP期望运维能力在不同产品线之间能够通用化, 集中化管理,甚至做到自动决策 Ø 精细故障能力(异常query、注入延迟等)期望能够标准化、低成本跨产品线复制 Ø 百度APP架构缺少上下游模块视图和流量视图,黄金指标不足,导致容量管理压测效率低、混沌工程实施成 本高、故障定位成本高。 由管理、通信 策略等功能 Ø 数据面板:envoy组件,流量转发、负载均衡 等功能. #IstioCon 收益 主要介绍如下几个方面: l 稳定性方面 (单点,多点,防雪崩,长尾优化,架构故障韧性能力) l 治理效率方面 (提升一级模块建成效率,二级模块预案能力) l 周边生态方面 (流量复制,稳定性工程,动态调参, 服务可观测性) l 覆盖率方面 (百度APP100%核心模块,流量占比>79 防雪崩能力:动态BackupRequest #IstioCon 未来 l 强化稳定性工程。(Case覆盖、故障自动恢复) l 实现现有能力整合。(Mesh作为基础层,完全有能力整合内部Trace系统、压测平台等) l 积极拥抱社区。(积极贡献Istio社区) l 探索新应用。 (机房扩建,流量染色分级等) #IstioCon Thanks 添加讲师微信0 码力 | 9 页 | 2.20 MB | 1 年前3
DaoCloud Enterprise 5.0
产品介绍搭建的新一代容器化平台能够满足企业上云的各类场景需求。 多云编排 支持多云和混合云的统一集中管理,提供跨云资源检索及跨云的应用部署、发布和运 维能力,实现多云应用高效管控,提供基于集群资源的应用弹性扩缩,实现全局负载 均衡,具备故障恢复能力,有效解决多云应用灾备问题,助力企业构建多云、混合云 的数字基础设施。 涉及的模块:全局管理、容器管理、云原生网络、云原生存储、信创异构 中间件服务 专为有状态应用设计的云原生本地存储能力,满足中间件高 等技术手段,全面采集服务数据,深入获取请求链路信 息,动态观测、多维度掌控集群、节点、应用和服务的实时变化,通过统一控制面实 现所有集群及负载观测数据的查询,引入拓扑分析技术可视化掌握应用健康状态,实 现秒级故障定位。 涉及的模块:全局管理、容器管理、可观测性、云原生网络、云原生存储 版权 © 2023 DaoCloud 第 6 页 应用商店 收录来自大数据、AI、中间件等十 集群,快速搭建企业级容器云平台,适配物理机和虚拟机 底层环境。 ➢ 一键式集群升级,一键升级 Kubernetes 版本,统一管理系统组件升级。 ➢ 集群高可用,内置集群容灾、备份能力,保障业务系统在主机故障、机房中断、自然 灾害等情况下可恢复,提高生产环境的稳定性,降低业务中断风险。 ➢ 集群的全生命周期管理,实现自建云原生集群的全生命周期管理。 ➢ 开放式 API 能力,提供原生的 Kubernetes0 码力 | 18 页 | 1.32 MB | 1 年前3
共 143 条
- 1
- 2
- 3
- 4
- 5
- 6
- 15













