pdf文档 腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅

3.92 MB 28 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档介绍了腾讯基于Kubernetes的企业级容器云实践,包括从自研容器云平台到开源生态的演进过程。文中提到腾讯在解决容器云平台的容灾问题时,涵盖了平台容灾、应用容灾和数据容灾。企业级容器云解决方案支持多种存储方案,如共享云盘和内置云盘,并基于Ceph分布式存储实现在线扩容、配额管理和权限管理。此外,文档还提到对GPU资源的统一管理、多租户调度策略以及智能调度算法,用于解决资源碎片化问题。
AI总结
《腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅》总结 本文由腾讯专家工程师罗韩梅分享了腾讯基于 Kubernetes 的企业级容器云实践,重点围绕平台的发展历程、架构设计、关键技术和实际应用案例展开。 ### 一、讲师背景 - **罗韩梅**:腾讯 T4 专家工程师,2009 年加入腾讯,现任数据平台部容器云开发组组长,专注于分布式系统、大数据、云计算和容器技术,主导了腾讯企业级容器云平台的研发和推广。 ### 二、企业级容器云平台发展历程 1. **2009-2013年**:自研容器云平台。 2. **2014年至今**:研发腾讯大数据云平台。 3. **2015年至今**:从自研平台转向开源生态,从内部平台扩展到同时服务企业内部和 To B 市场。 ### 三、企业级容器云解决方案 1. **平台核心能力**: - **易用性**:提供全组件自动化部署、统一配置管理和多策略灰度升级,降低人力和学习成本。 - **可靠性**:所有组件无单点设计,支持热升级和多地域多可用区容灾。 - **灵活性**:支持多种调度策略和多租户管理,兼容异构资源。 2. **资源管理**: - **计算资源**:支持 CPU、内存、磁盘空间、网络和 GPU 资源管理。 - **存储资源**: - 共享云盘:基于 CephFS,多容器共享。 - 内置云盘:基于 CephRBD,每容器独享。 - **GPU 支持**: - 异构 GPU 统一管理。 - 支持单机多卡和多机多卡场景。 - 提供任务带盘迁移和智能拓扑感知。 3. **调度算法**: - 发表论文《Gaia Scheduler: A Kubernetes-based Scheduler Framework》,并在 IEEE ISPA 2018 会议上分享。 ### 四、实际应用案例 1. **广告业务场景**: - **背景**:8 个集群(4 个在线集群,4 个离线集群),分布在北京、天津、成都、深圳。 - **需求**:减少机器,降低成本。 - **解决方案**:合并在线与离线集群,通过资源调度和隔离策略避免业务互相影响。 - **结果**:节点减少 30%,资源利用率提升 40%。 ### 五、可靠性设计 1. **高可用性**: - 无单点设计。 - 支持热升级。 - 组件 HA 机制,如 Docker。 2. **容灾设计**: - 管理机故障:对应用无影响。 - 计算节点故障:跨机迁移。 - 健康探针(存活探针、就绪探针)。 - 负载均衡、重启机制、黑名单机制。 3. **数据保护**: - 集群核心数据备份和恢复(Etcd、核心数据库)。 - 云盘机制保护应用数据。 ### 六、版本升级与兼容性 1. **1.4 到 1.9 版本升级**: - Pod Hash 变化。 - 容器名称和标签变化。 - Cgroup 目录结构变化。 本次分享展示了腾讯在 Kubernetes 生态中从自研到开源、从内部平台到 To B 市场的实践经验,重点强调了平台的高可靠性、灵活性和易用性。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 16 页请下载阅读 -
文档评分
请文明评论,理性发言.