阿里云容器服务大促备战
成本控制 用户体验 最终一致性 稳定性 资源不足 资源利用率 安全风险备战工具箱 服务化 开发运维一体化 弹性 极致性能 高可用 全站上云 安全加固 人工智能 大数据 离线计算 全链路压测 边缘计算 敏捷调度 故障演练人为失误 http://integracon.com/11-leading-causes-downtime/ 45%最佳实践之容器化DevOps dustry-analysis-key-players-regional- outlook-and-forecast-study/492024云边端一体化协同双十一直播的背后 50% 5倍在线与离线 异构计算能力 ECS, EBM, GPU, FPGA, ECI 高性能网络 VPC, ENI, RDMA, SLB, DNS Public Cloud Edge Computing Private0 码力 | 17 页 | 17.74 MB | 5 月前3阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践
extended Service Mesh 安全容器 运维管控 在离线混部 额度管控 监控体系 多租隔离 上层业务 集 团 业 务运维挑战 • 规模大 • 集群规模大 (数十个集群),节点数量多 (数十万节点) • 业务线多、应用数量多、应用类型复杂 (有状态、无状态、多语言) • 基础环境复杂 • 大规模 在线、离线 混部 (运维打通) • 装机模板、OS版本、内核版本多;内核补丁、参数不同;其他如网卡中断打散0 码力 | 21 页 | 7.81 MB | 5 月前3Service Mesh的延伸 — 论道Database Mesh
DELETE • UPDATE -> UPDATE • DELETE -> INSERT 隔离级别 • 无隔离 • 版本控制 • 记录锁 • 影子表弹性伸缩:数据迁移 迁移监听 在线双写 离线迁移 数据源切换 冗余数据清 理治理监控 配置动态化 负载均衡 熔断 & 禁用 安全 & 权限 & 脱敏 APM现有实现方案对比 客户端 • 支持任意数据库 • 数据库连接数占用高0 码力 | 35 页 | 4.56 MB | 5 月前3Service Mesh 发展趋势(续) 蚂蚁金服 | 骑士到中盘路向何方?
优点: • 架构优雅,职责分明,边界清晰 • Mixer的变动不影响Proxy • Proxy无需和Adapter耦合 • 读取配置 -> 连接k8s/Galley • Adapter的运行时资源开销 • 不受Adapter增减/更新/升级影响 • 保持Proxy代码简单 • 保持Proxy代码简单 • 数据平面可替换原则 Kubernete s API Server Adapters v2的缺点 优点: • 架构优雅,职责分明,边界清晰 • Mixer的变动不影响Proxy • Proxy无需和Adapter耦合 • 读取配置 -> 连接k8s/Galley • Adapter的运行时资源开销 • 不受Adapter增减/更新/升级影响 • 保持Proxy代码简单 • 保持Proxy代码简单 • 数据平面可替换原则 • 集中式服务: • 提高基础设施后端的可用性 • 2:ServiceMesh灵魂拷问二:性能有了,架构怎么办? Mozilla官方定义: WebAssembly是一种新的编码方式,可以在现代的网络浏览器中运行 - 它是一种低级的类汇编语言,具有 紧凑的二进制格式,可以接近原生的性能运行,并为诸如C / C ++等语言提供一个编译目标,以便它们可以 在Web上运行。它也被设计为可以与JavaScript共存,允许两者一起工作。 WebAssembly不是一门编程语言,而是一份字节码标准。0 码力 | 43 页 | 2.90 MB | 5 月前3蚂蚁金服双十一 Service Mesh 超大规模落地揭秘
Pod 升级容器 容器快速接入了,但是 MOSN 有问题 / Feature 如何升级? 正常运行中18 方案落地-升级策略-无感升级 MOSN V1 APP MOSN V1 APP MOSN V2 APP MOSN V2 新增新容器 销毁老容器 流量无损 正常运行中19 我们的方案-升级策略-无感升级-MOSN MOSN New MOSN 通知平滑升级 资源域B 保活态 运行态 资源域A 资源域B 运行态 保活态 常规方案操作步骤 分时调度操作步骤23 分时调度-MOSN价值 MOSN 作用:保活态节点流量转发,降低保活态节点内存占用 保活意义: * 应用长连接维持 * DB 连接维持 * 缓存维持 * 无需预热可快速恢复 MOSN APP MOSN APP Client Pod 运行态 Pod0 码力 | 26 页 | 2.71 MB | 5 月前3Service Mesh结合容器云平台的思考和实践
就有点“污染”应用的意思了。Pilot-Agent的功能介绍 在proxy镜像中,pilot-agent负责的工作包括: • 生成envoy的配置。 • 启动envoy。 • 监控并管理envoy的运行状况,比如envoy出错时pilot-agent负责重启envoy,或者envoy配置变更后 reload envoy。 而envoy负责接受所有发往该pod的网络流量,分发所有从pod中发出的网络流量。 要的配置。 role pilot-agent的role类型为model包下的Proxy,决定了pilot-agent的“角色”,role包括以下属性: 1.Type pilot-agent有三种运行模式。根据role.Type变量定义,类型为model.Proxy,定义在context.go文件中,允许的3个取值范围为: i. "sidecar" 默认值,可以在启动pilot-agent,调用proxy命令时覆盖。Sidecar 进程怎么办? agent代码的注释里已经解释了这问题,原来agent不用关闭老的envoy,同一台机器上的多个envoy进程会通过unix domain socket互相通讯,即使不同envoy进程运行在不同容器里,也一样能够通讯。而借助这种通讯机制,可以自动 实现新envoy进程替换之前的老进程,也就是所谓的envoy hot restart。对于Istio和云平台集成的一些思考 • 可视化的统一管理平台0 码力 | 28 页 | 3.09 MB | 5 月前3金融级云原生 PaaS 探索与实践
跨集群应用 资源管理 IaaS层(Aliyun/OpenStack/VMWare/Bare Metal) PaaS 核心层 核 心 流 程 两地三中心架构 跨机房和地域统一应用运维 容器运行时 (Docker/Pouch/安全容器) CNI Plugins (VLAN/VXLAN/VPC Router/ENI) CSI Plugins (NAS/OSS/Cloud Disk/Ceph) 发布完成 16/2017/20 安全风险保障 • 审计追踪; • 用户安全 – 基于 RBAC 体系和 PaaS 账号体系打通; • 租户安全 – 租户隔离|环境隔离|集群隔离; • 容器运行时 - 配额|隔离控制(磁盘,CPUSET); 发布运维体系18/20 技术风险保障 业务变更三板斧 发布运维体系 Replica/Partition Allocator Pod A-10 码力 | 20 页 | 1.71 MB | 5 月前3严选 ServiceMesh 实践
Google,IBM 和 Lyft 联合开发,Go 语 言,与 K8s 一脉相承且深度融合 • K8s 提供了部署、升级和有限的运行流量管 理能力 • Istio 补齐了 K8s 在微服务治理上的短板 (限流、熔断、降级、分流等) • Istio 以 Sidecar 的形式运行在 Pod 中, 自动注入,自动接管流量,部署过程对业务 透明 • 提供了完整的 Service Mesh 解决方案0 码力 | 25 页 | 2.07 MB | 5 月前3深入 Kubernetes 的无人区-蚂蚁金服双十一的调度系统
业务最好采用 aggregate-apiserver 进行扩展 • CRD 必须 Namespaced scope,以控制影响范围 • MutatingWebhook + 资源 Update 操作会给运行时环境带来不可控破坏,尽量避免使用这种组合 • 任何 controllers 都应该使用 informers,并且对写操作配置合理限流 • DaemonSet 非常高阶,尽量不要采用这类设计,如果必需请在0 码力 | 19 页 | 2.18 MB | 5 月前3陌陌Service Mesh架构实践
长期规划15/24 数据平面实践细节 • 部署方式 • 升级方式 • 容灾方式 • 性能问题 • 资源问题 • 兼容问题 关键设计 关键问题16/24 数据平面部署方式 容器化运行方式 • sidecar模式 • 与业务进程相同Pod不同Container 陌陌微服务容器化部署比例在80%以上 并且还在进一步推进 业务接入方式 • 研发人员:升级SDK版本 • SRE:发布系统配置发布项0 码力 | 25 页 | 1.25 MB | 5 月前3
共 16 条
- 1
- 2