腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅
3.92 MB
28 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档介绍了腾讯基于Kubernetes的企业级容器云实践,包括从自研容器云平台到开源生态的演进过程。文中提到腾讯在解决容器云平台的容灾问题时,涵盖了平台容灾、应用容灾和数据容灾。企业级容器云解决方案支持多种存储方案,如共享云盘和内置云盘,并基于Ceph分布式存储实现在线扩容、配额管理和权限管理。此外,文档还提到对GPU资源的统一管理、多租户调度策略以及智能调度算法,用于解决资源碎片化问题。 | ||
AI总结 | ||
《腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅》总结
本文由腾讯专家工程师罗韩梅分享了腾讯基于 Kubernetes 的企业级容器云实践,重点围绕平台的发展历程、架构设计、关键技术和实际应用案例展开。
### 一、讲师背景
- **罗韩梅**:腾讯 T4 专家工程师,2009 年加入腾讯,现任数据平台部容器云开发组组长,专注于分布式系统、大数据、云计算和容器技术,主导了腾讯企业级容器云平台的研发和推广。
### 二、企业级容器云平台发展历程
1. **2009-2013年**:自研容器云平台。
2. **2014年至今**:研发腾讯大数据云平台。
3. **2015年至今**:从自研平台转向开源生态,从内部平台扩展到同时服务企业内部和 To B 市场。
### 三、企业级容器云解决方案
1. **平台核心能力**:
- **易用性**:提供全组件自动化部署、统一配置管理和多策略灰度升级,降低人力和学习成本。
- **可靠性**:所有组件无单点设计,支持热升级和多地域多可用区容灾。
- **灵活性**:支持多种调度策略和多租户管理,兼容异构资源。
2. **资源管理**:
- **计算资源**:支持 CPU、内存、磁盘空间、网络和 GPU 资源管理。
- **存储资源**:
- 共享云盘:基于 CephFS,多容器共享。
- 内置云盘:基于 CephRBD,每容器独享。
- **GPU 支持**:
- 异构 GPU 统一管理。
- 支持单机多卡和多机多卡场景。
- 提供任务带盘迁移和智能拓扑感知。
3. **调度算法**:
- 发表论文《Gaia Scheduler: A Kubernetes-based Scheduler Framework》,并在 IEEE ISPA 2018 会议上分享。
### 四、实际应用案例
1. **广告业务场景**:
- **背景**:8 个集群(4 个在线集群,4 个离线集群),分布在北京、天津、成都、深圳。
- **需求**:减少机器,降低成本。
- **解决方案**:合并在线与离线集群,通过资源调度和隔离策略避免业务互相影响。
- **结果**:节点减少 30%,资源利用率提升 40%。
### 五、可靠性设计
1. **高可用性**:
- 无单点设计。
- 支持热升级。
- 组件 HA 机制,如 Docker。
2. **容灾设计**:
- 管理机故障:对应用无影响。
- 计算节点故障:跨机迁移。
- 健康探针(存活探针、就绪探针)。
- 负载均衡、重启机制、黑名单机制。
3. **数据保护**:
- 集群核心数据备份和恢复(Etcd、核心数据库)。
- 云盘机制保护应用数据。
### 六、版本升级与兼容性
1. **1.4 到 1.9 版本升级**:
- Pod Hash 变化。
- 容器名称和标签变化。
- Cgroup 目录结构变化。
本次分享展示了腾讯在 Kubernetes 生态中从自研到开源、从内部平台到 To B 市场的实践经验,重点强调了平台的高可靠性、灵活性和易用性。 |
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
16 页请下载阅读 -
文档评分