机房故障 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧

Chaos Mesh 在网易伏羲私有云自动化故障注入实践 Speaker Name：张慧网易伏羲 Speaker Title：网易伏羲私有云质量保障负责人、Chaos Mesh 布道师、云原生社区 Stability SIG 发起人 Email：zhangui05@corp.netease.com 云原生学院目录  网易伏羲私有云简介  为什么混沌测试  什么是混沌测试为什么混沌测试理想下，系统用不宕机，100%可用比如机房突然断电事故突然的到来为什么混沌测试通用指标阶段性进阶衡量标准指标量化什么是混沌测试什么是混沌测试混沌工程旨在将故障扼杀在襁褓之中，也就是在故障造成中断之前将它们识别出来。通过主动制造故障，测试系统在各种压力下的行为，识别并修复故障问题，避免造成严重后果。混沌工程将预想的事情和实际混沌工程将预想的事情和实际发生的事情进行对比，通过“有意识搞破坏”来提升系统稳定性。鲁棒性故障注入如何选择混沌测试工具混沌工具混沌工具为什么是 Chaos Mesh 为什么是 Chaos Mesh ● PodChaos: kill / fail / container/... ● NetworkChaos: delay / lose / dup / partition

0 码力 | 25 页 | 3.33 MB | 6 月前
3
杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

PYCON CHINA 基于深度学习的多维时间序列预测在数据机房中的应用目录 1 背景介绍 2 研究目标 3 研究内容 4 后续工作 1. 背景介绍数据机房面临的能耗问题数据机房面临电量消耗巨大的问题空调是数据机房中电量消耗最大的设备空调为什么那么耗电？怎么优化节能？低效的冷却装置服务主机工作发热影响空调耗电量原因建筑材料隔热和散不够智能的空调控制系统空调缺乏对整个环境的全面感知空调对温度的控制存在延迟多维感知温度预测控制 2. 研究目标对数据机房的温度进行预测 ⚫ 根据机房的历史运行数据变化预测未来 XX 分钟机房的温度值，从而实现空调的预测控制。风机状态服务负载天气状况室外温度室外湿度门禁状态时序数据温度预测预测控制节能调节 3. 研究内容代表算法有RNN，LSTM 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂的关系 ⚫ 提取维度之间空间依赖关系，长短期依赖关系 ⚫ 算法有LSTNet，TPA-LSTM 多维时间序列预测方法解决机房温度预测对数据包含的信息提取能力越来越强选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫ Recurrent

0 码力 | 17 页 | 2.49 MB | 1 年前
3
阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践

分钟级弹性扩缩容 - 支持性能独占独占 (优于普通ECS) 硬件故障率硬盘1年故障率 2% 0.8%% (无本地盘) 硬件维修周期 [周, 月] [分钟，天]成本效率稳定云化架构物理机 + 本地存储 + Underlay网络神龙/ECS + 远程存储 + Overlay网络集团机房云上机房基础设施 IDC 系统基础运维天基系统 CMDB 安全审计单机监控监控大盘 • 在线率 • 宕机率 • 抖动率 • 基线系统 • 基础环境一致性故障自愈 (1-5-10) • 监控、故障发现 (1-5) • 本地检测 (walle, NPD) + 外部系统 (IDC、aliyun) • SLI、SLO、SLA • 钉钉、邮件、电话报警、ChatOps 自助诊断 • 节点故障自愈 (10) • 决策中心执行修复操作 • 集中统一风控 • 日常1人运维数十万节点 • 宕机关联度分析 • 宕机趋势 • 机房、单元、分组 • 机型、硬件特征 • 内核版本、hotfix 一致率 • 宕机根因分析诊断 • 硬件故障、运维事件 • vmcore 归类分析 • 内核错误日志分析Machine Operator • 全生命周期 • 导入 • 下线 • 维护 • 组件终态 • 安装 • 升级 • 回滚 • 故障自愈 • 运维事件 • 业务置换Machine

0 码力 | 21 页 | 7.81 MB | 6 月前
3
Service Mesh的实践分享

侵入性小。SDK只有简单的寻址和序列化/ 反序列化的功能无侵入性。应用自行调用运维难度难度大。客户端的问题会对应用直接产生影响，耦合太重难度小。Sidecar故障可以将流量临时切到 remote proxy解决难度小。集群通过LVS接入，单台机故障可以下线升级难度难度极大。需要客户端修改代码、发布、上线。难度小。切换流量到remote proxy可以实现用户无感知的无损升级。难度小。通过LVS摘流量滚动升紧张的情况下；而且还容器导致资源浪费（sidecar的使用率问题）影响小。宿主机预留部分资源启动daemonset 即可运维难度难度大。Sidecar故障会影响同一个pod的业务容器，同生共死难度小。Sidecar故障可以将流量临时切到 remote proxy解决升级难度难度大。升级Sidecar需要业务容器一起发布，协调成本高，而且全量升级sidecar对整个系统的动荡太大规则路由、标签路由、邻近机房路由、Hash路由、基于权重的路由、熔断、健康探测、超时重试、限流降级等等 • 契约化治理，服务接口变更diff并通知上游 • 环境无关，物理机、云、测试机器、本机都能跑实践中踩过的坑我是作者名称ZooKeeper的强耦合 • 初始设计没有抽象服务注册发现和服务配置的接口，直接操作ZK并且依赖了ZK的特性和原语 • ZK弊端显现 • 跨机房多活问题 •

0 码力 | 30 页 | 4.80 MB | 6 月前
3
蚂蚁金服Service Mesh渐进式迁移方案

t() 都没有改造，直连服务器端有改造，单跳客户端有改造，单跳Service Mesh时代的客户端和寻址方式服务发现加密负载均衡请求路由目标服务的标识序列化链路追踪故障注入日志监控 Metrics 熔断限流服务降级前置条件检查身份认证密钥管理访问控制 …… 下沉到 Service Mesh 轻量级客户端传统侵入式客户端客户端应该尽可能的轻薄通用: 命中率/超时数 1 同机房 10 43899 2001674 (100%）|0 2 同机房 50 44369 2001674 (100%)|0 3 同机房 100 40815 2001674 (100%)|140 4 同机房 200 41094 2001674 (100%)|112 5 同机房 300 40664 2001674 (100%)|628 6 同机房 400 42226 2001674 2001674 (100%)|729 7 同机房 500 42156 2001674 (100%)|1192 Bind queryperf 测试 100个域名(5s timeout)CoreDNS 的性能CoreDNS 的横向扩展 1、按照CPU 的维度 2、按照QPS 的维度(Custom Metrics)CoreDNS 的正式发布 • https://github.com/kuber

0 码力 | 40 页 | 11.13 MB | 6 月前
3
Service Mesh 高可用在企业级生产中的实践

99% 87.6小时较高可用 3个9 99.9% 8.8小时具备故障自动恢复能力可用 4个9 99.99% 53分钟极高可用 5个9 99.999% 5分钟18/总页数治理策略 & 高可用不可用因素程序和配置出 bug 线程假死、配置格式出错机器故障宕机机房故障核心交换机故障、机房停电容量服务容量不足依赖服务响应超时19/总页数治理策略

0 码力 | 38 页 | 1.38 MB | 6 月前
3
SOFAMOSN持续演进路径及实践分享

支持Router模式 Ø GRPC支持 Ø 协议自动识别 Ø 链式路由扩展 Ø 完善流量管理策略，包括 Retry、DirectResponse、 HTTP Header add/delete、流控、故障注入等 Ø 支持必要的admin接口性能 0.1.0 0.2.0 0.3.0 0.4.0 Ø 内存复用框架 Ø Slab style buffer Ø Raw-Epoll模式 Ø 读合并 match，subset等开源能力实现 ü 适配蚂蚁三地五中心机房部署，LDC/弹性架构 ü 蚂蚁内部划分R/G/C三种 zone类型，每个Zone的能力不保证对等 ü 适用于单次简单路由无法解决的复杂架构场景(如非对等路由，不确定当前zone 是否有该服务的提供方) Service A MOSN 深圳机房上海机房 Service B MOSN Service B MOSN Service B MOSN 2. 尝试在本 Zone内访问B服务 3. 若当前 Rzone内不存在B服务，尝试在本机房内部查找 3. 若当前机房内不存在 B服务，路由到Gzone 机房UC落地 - XProtocol DNS方案规划 & 展望MOSNG 待开源MOSN-X eBPF 加速卡 DPDK MOSN SSL Offload User Protocol Stack

0 码力 | 29 页 | 7.03 MB | 6 月前
3
sealos 以 kubernetes 为内核的云操作系统

写代码像写博客一样简单 • AI 自动编码，毫秒级上线，0 运维数据库管理 mysql/pgsql/mongo/ redis 等多种数据库数据库多主架构高可用数据库备份恢复，故障自愈数据库管理工具，监控告警 Userlnterface API/CLI/GUI Cilium Gvisor/Containerd OpenEBS LVM local pv Bare metal 20min 自动化完成全国多个 02 交付环境：各大公有云不同版本liux发行版裸金属 AMD ARM ······ 数月数十人依赖中间数十款软件 SaaS 机房1 机房2 机房n ·· ·· ·· 打包监控系统日至系统数据库消息队列对象存储计算储存网络 kubernetes SaaS服务 30min 1人一键打包整体交付一次建构

0 码力 | 29 页 | 7.64 MB | 9 月前
3
百度APP基于Istio实现基础架构升级 - lightning talk - MichaelXu

升级一级服务建设中，发现很多模块单点、多点故障不能容忍，能否低成本解决？ Ø 比如常用运维降级、止损能力各个产品线重复建设，方案差异大，OP期望运维能力在不同产品线之间能够通用化，集中化管理，甚至做到自动决策 Ø 精细故障能力（异常query、注入延迟等）期望能够标准化、低成本跨产品线复制 Ø 百度APP架构缺少上下游模块视图和流量视图，黄金指标不足，导致容量管理压测效率低、混沌工程实施成本高、故障定位成本高。由管理、通信策略等功能 Ø 数据面板：envoy组件，流量转发、负载均衡等功能. #IstioCon 收益主要介绍如下几个方面： l 稳定性方面（单点，多点，防雪崩，长尾优化，架构故障韧性能力） l 治理效率方面（提升一级模块建成效率，二级模块预案能力） l 周边生态方面（流量复制，稳定性工程，动态调参, 服务可观测性） l 覆盖率方面（百度APP100%核心模块，流量占比>79 防雪崩能力：动态BackupRequest #IstioCon 未来 l 强化稳定性工程。（Case覆盖、故障自动恢复） l 实现现有能力整合。（Mesh作为基础层，完全有能力整合内部Trace系统、压测平台等） l 积极拥抱社区。（积极贡献Istio社区） l 探索新应用。（机房扩建，流量染色分级等） #IstioCon Thanks 添加讲师微信

0 码力 | 9 页 | 2.20 MB | 1 年前
3
DaoCloud Enterprise 5.0 产品介绍

搭建的新一代容器化平台能够满足企业上云的各类场景需求。多云编排支持多云和混合云的统一集中管理，提供跨云资源检索及跨云的应用部署、发布和运维能力，实现多云应用高效管控，提供基于集群资源的应用弹性扩缩，实现全局负载均衡，具备故障恢复能力，有效解决多云应用灾备问题，助力企业构建多云、混合云的数字基础设施。涉及的模块：全局管理、容器管理、云原生网络、云原生存储、信创异构中间件服务专为有状态应用设计的云原生本地存储能力，满足中间件高等技术手段，全面采集服务数据，深入获取请求链路信息，动态观测、多维度掌控集群、节点、应用和服务的实时变化，通过统一控制面实现所有集群及负载观测数据的查询，引入拓扑分析技术可视化掌握应用健康状态，实现秒级故障定位。涉及的模块：全局管理、容器管理、可观测性、云原生网络、云原生存储版权 © 2023 DaoCloud 第 6 页应用商店收录来自大数据、AI、中间件等十集群，快速搭建企业级容器云平台，适配物理机和虚拟机底层环境。 ➢ 一键式集群升级，一键升级 Kubernetes 版本，统一管理系统组件升级。 ➢ 集群高可用，内置集群容灾、备份能力，保障业务系统在主机故障、机房中断、自然灾害等情况下可恢复，提高生产环境的稳定性，降低业务中断风险。 ➢ 集群的全生命周期管理，实现自建云原生集群的全生命周期管理。 ➢ 开放式 API 能力，提供原生的 Kubernetes

0 码力 | 18 页 | 1.32 MB | 1 年前
3

共 143 条前往

页

分类

语言

格式

14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧

杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践

Service Mesh的实践分享

蚂蚁金服Service Mesh渐进式迁移方案

Service Mesh 高可用在企业级生产中的实践

SOFAMOSN持续演进路径及实践分享

sealos 以 kubernetes 为内核的云操作系统

百度APP基于Istio实现基础架构升级 - lightning talk - MichaelXu

DaoCloud Enterprise 5.0 产品介绍