阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践• 2018年底:阿里经济体全面上云 • 2019上云第一仗:基础设施上云 • 双11顺利通过峰值流量考验神龙 X-Dragon • 全称:弹性裸金属服务器(神龙) • 阿里造“神龙”神龙 X-Dragon • 优势: • 性能 • 弹性 • 支持再虚拟化 2017/10 阿里云神龙正式商用 (AWS Nitro 2017/11)技术选型 • 全面上云为什么要用神龙? • 高性能:去掉了虚拟化带来的 物理机 (云下) 神龙裸金属 (云上) 交付周期 周 分钟级 弹性扩缩容 - 支持 性能 独占 独占 (优于普通ECS) 硬件故障率 硬盘1年故障率 2% 0.8%% (无本地盘) 硬件维修周期 [周, 月] [分钟,天]成本 效率 稳定云化架构 物理机 + 本地存储 + Underlay网 络 神龙/ECS + 远程存储 + Overlay网络 集团机房 云上机房 基础设施 IDC0 码力 | 21 页 | 7.81 MB | 6 月前3
 金融级云原生 PaaS 探索与实践压测/灰度 流量管理 单元化 元数据管理 弹性流量管理 跨集群发布策略 多集群管理 跨集群网络 跨集群镜像管理 蓝绿发布 灰度分组发布 中间件变配 (DRM/Scheduler/Message) Mesh流调拨和治理 弹性建站/下站 容器腾挪/迁移 容灾切换和恢复 应急预案管理 … 分钟级容灾切换和恢复 全面变更风险管理 无限弹性可扩展 业务架构 产品层 云原生 PaaS 统一管控:  业务弹性建站管控统一; • 可扩展:  多租硬隔离;  体量(单集群内节点数 1w+,Pod 10w+),集群数量多; 多集群管控11/20 多集群管控 联邦核心能力 • 跨集群资源同步  Template,Override,Placement 模型;  状态回流;  扩展 CRD; • 跨集群发现12/20 联邦架构 • 关系型存储;  数据量 0 码力 | 20 页 | 1.71 MB | 6 月前3
 深入 Kubernetes 的无人区-蚂蚁金服双十一的调度系统CRI Kubernetes API Server 极速交付 分时复用 弹性容量 资源画像 规模化调度 高可用容灾 可视化 服务 Cluster Control Panel 在线应用 计算型混部任务 CSI CNI Device Plugin runc nanovisor 日志服务 云盘 本地多盘 弹性网卡 网络安全组 GPU 安全可信 数据库服务 OB serverless 平台 平台 kata SOFAMesh 资源分时复用 神龙裸金属 VPC 云存储 应用服务器 数据库服务器 国产化服务器7/19 二、双十一 Kubernetes 实践 Part 2:8/19 资源分时调度 Part 2:双十一 Kubernetes 实践 快速腾挪的问题 1.实例上下线需要预热 2. 腾挪耗时不可控 3. 大规模腾挪的稳定性技术风险 9/19 资源分时链路切换 controllers 都应该使用 informers,并且对写操作配置合理限流 • DaemonSet 非常高阶,尽量不要采用这类设计,如果必需请在 Kubernetes 专家的辅导下使用;15/19 弹性资源建站 Part 2:双十一 Kubernetes 实践16/19 三、展望未来,迎接挑战 Part 2:17/19 平台与多租户 Part 3:展望未来,迎接挑战 Kubernetes设计的多租户0 码力 | 19 页 | 2.18 MB | 6 月前3
 函数计算在双11小程序场景中的应用年加入阿里云,参与分布式数据库, 对象存储等产品的开发。现任阿里云函数 计算架构师,聚焦于 Serverless 产品功 能和大规模资源伸缩调度、性能优化等系 统核心能力的研发。❖ 函数计算介绍 ❖ 双11小程序场景介绍 ❖ 技术挑战 ❖ Demo 目录函数计算-介绍 • 通用Serverless计算平 台 • 与云端事件源无缝集成 • 弹性伸缩,按量付费函数计算-介绍双11小程序场景介绍小程序场景的挑战 Responsibility Developer Responsibility 优化前 1000ms 10ms~60000ms 优化后 200ms 10ms~60000ms 预留实例 0ms 0ms函数计算-弹性伸缩 C1 C1 C2 C1 C2 时间 t1 t2函数计算-预留实例 • 预留实例:性能好 • 按量实例:按需使用函数计算-预留实例 预留实例 按量实例 效果 0 0 禁止调用 100 码力 | 13 页 | 6.95 MB | 6 月前3
 阿里云容器服务大促备战PPT我是谁挑战在哪里? 极限并发 人为失误 系统瓶颈 雪崩 单点失效 成本控制 用户体验 最终一致性 稳定性 资源不足 资源利用率 安全风险备战工具箱 服务化 开发运维一体化 弹性 极致性能 高可用 全站上云 安全加固 人工智能 大数据 离线计算 全链路压测 边缘计算 敏捷调度 故障演练人为失误 http://integracon.com/11-lea EBM, GPU, FPGA, ECI 高性能网络 VPC, ENI, RDMA, SLB, DNS Public Cloud Edge Computing Private Cloud 高性能存储 EBS, NAS, CPFS, OSS Kubernetes (ACK, ASK) Web/mobile applications - Stateless - Idempotent - Horizontal 万亿维度模型云原生基础设施 新生态 新算力 新基石 全球化部署 单集群万节点规模 云边端一体化 延时降低75% 混合云2.0架构 交付效率提升3倍 全链路安全架构 实时风险监测、告警、阻断 极速弹性 分钟级1000节点伸缩 异构算力 利用率提升5倍 沙箱容器 强隔离,90%原生性能 容器云应用市场 合作伙伴计划 阿里云容器服务Thank you ! 关注“阿里巴巴云原生”公众号0 码力 | 17 页 | 17.74 MB | 6 月前3
 Service Mesh 在『路口』的产品思考与实践展望未来35/39 Part 3: 展望未来 云托管 Cloud Hosted 云就绪 Cloud Ready 云原生 Cloud Native 虚拟化 无状态 弹性,自愈 • 降低资源成本,提升开发效率,享受生态红利 • 云原生不是目的,而是手段 拥抱云原生Part 3: 展望未来 和 istio 社区共建, 融合控制平面和传统注册中心/配置中心,加强 xDS/UDPA xDS/UDPA MCP Proxy 其他注册中心 MCP 支持 MCP 的注册中心 MCP 1. 整合传统注册中心,支持海量数据 2. 加强控制平面的存储能力 3. 融合传统注册中心的分发能力 Nacos sync 其他注册中心 MCP • 协议标准化 • 能力差异化 36/39Part 3: 展望未来 支持透明劫持0 码力 | 40 页 | 15.86 MB | 6 月前3
 Service Mesh结合容器云平台的思考和实践快速部署 • 易于分配的存储 • 易于访问的外围(负载均衡) • 服务注册和发现 致富问题 • 认证和授权 • 智能路由 • 流量管理 • 服务降级 • … • 微服务拆分原则 • 业务API设计 • 数据一致性保证 • 可扩展性考虑 • …Kubernetes对于微服务的支撑 功能列表 详情 快速资源分配 容器编排和调度 服务部署&弹性伸缩 Deployment0 码力 | 28 页 | 3.09 MB | 6 月前3
 Service Mesh的延伸 — 论道Database MeshWhat's Really New with NewSQL?数据库中间层的优势 系统 •事务 运维 • DBA 开发 • SQL数据库中间层应具备的能力 分片化 多副本 数据一致性 弹性化 治理能力 观察能力数据分片 App2 DB App1 App3 App2 DB1 DB2 DB3 App1 App3数据分片:引入中间件 App1 M1 App2 App3 SQL逆向 • INSERT -> DELETE • UPDATE -> UPDATE • DELETE -> INSERT 隔离级别 • 无隔离 • 版本控制 • 记录锁 • 影子表弹性伸缩:数据迁移 迁移监听 在线双写 离线迁移 数据源切换 冗余数据清 理治理监控 配置动态化 负载均衡 熔断 & 禁用 安全 & 权限 & 脱敏 APM现有实现方案对比 客户端 损耗略高 损耗低 无中心化 是 否 是 静态入口 无 有 无 Sidecar的优势Database Mesh架构图Sharding-Sphere 核心功能 数据分片 分布式事务 数据库治理 弹性伸缩 管控界面 实现方案 Sharding-JDBC Sharding-Proxy Sharding-Sidecar Sharding -Sphere 云原生 无中心 零侵入Sharding0 码力 | 35 页 | 4.56 MB | 6 月前3
 蚂蚁金服网络代理演进之路Katran GFE BFE TGW Nginx Apache httpd SOFAMosn Envoy Linkerd网络的挑战网络的挑战 高效接入 访问加速 容量 稳定性 高可用 灵活弹性 安全合规 防攻击蚂蚁金服网络接入十年变迁 2010年前部署商用设备 前世 01 2010 开始网络代理白盒 化,定制业务逻辑,软 硬件一体解决方案 自研 02 2015 年无线通道协议,安 通信协议,架构,安全再次升级(物联终端接入,QUIC协议,国密,可信计算, 海外加速,云原生)金融级三地五中心容灾架构(LDC) 单机房 LDC 同城双活 LDC 异地多活 LDC 弹性伸缩混部 LDC DB Region 1 DB1 Region 1 Region 1 DB2 Region 1 Region 1 DB1 DB2 Region 2 DB3 Region 再次请求app1 7 跨机房转发 50% 50% • 机房内zone随机路由 • Cookie zone转发 • 蓝绿发布 • 容灾 ØZone内容灾 Ø机房级别 Ø城市级别 • 弹性调度 • 压测 • 灰度蚂蚁金服SSL/TLS实践 合规 性能 安全软硬件一体解决方案 Intel QAT Cavium Nitrox软硬件一体解决方案 SSL握手性能 提升3倍 • 对Spanner实现了异步化改造0 码力 | 46 页 | 19.93 MB | 6 月前3
 蚂蚁金服Service Mesh渐进式迁移方案By Step 分步 进行 Resiliency 操作 弹性 符合远期规划 • 不走弯路,不浪费投资 • 每一步都为下一步奠定基础 • 谢绝中途推倒重来 循序渐进 • 不要有一步登天的幻想,小步快跑 • 每一步的工作量和复杂度都控制在可 接受范围内 • 每一步都简单方便,切实可行 可操纵性 • 操作层面上要有足够的弹性 • 每个步骤都是可分批进行 • 步步为营,扩大战果 • 杜绝一刀切k8s和Service 103:12220 192.168.1.101:12220 To:192.168.1.102:12220 To:192.168.1.103:12220 背景:k8s内外网络打通,IP互通透明拦截带来的升级弹性:对应用透明,支持直连/单跳/双跳 Service-A Outbound Sidecar Traffic Interception To: b-ip:b-port to: sidecar-ip:sidecar-port0 码力 | 40 页 | 11.13 MB | 6 月前3
共 19 条
- 1
 - 2
 













