KubeCon2020/腾讯会议大规模使用Kubernetes的技术实践
10.94 MB
19 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档介绍了腾讯会议大规模使用Kubernetes的技术实践,即TKEx平台的构建与应用。该平台基于TKE(Tencent Kubernetes Engine)和EKS(Elastic Kubernetes Service),旨在通过Kubernetes原生方式服务于腾讯的业务需求。TKEx平台支持多租户环境下的资源隔离与优化,实现了在线和离线服务的混合部署,以提高资源利用率。此外,平台还具备高性能的自动扩缩能力、服务网格支持以及动态资源配额管理等功能。文档详细阐述了TKEx的架构组件,包括Dynamic Scheduler、DynamicQuotaManager、NodeProblemDetector等模块,其目标是解决Kubernetes在大规模场景下的挑战,如状态型服务部署、资源编排效率和高性能扩缩。 | ||
AI总结 | ||
### 《KubeCon 2020/腾讯会议大规模使用Kubernetes的技术实践》总结
#### 1. **TKEx 平台概述**
- **TKEx**:腾讯内部基于 **TKE(Tencent Kubernetes Engine)** 和 **EKS(Elastic Kubernetes Service)** 的 Kubernetes 平台,用于支持腾讯业务。
- **核心功能**:
- 适配多种内部系统(如路由系统、CMDB、CI、安全平台等)。
- 声明式应用生命周期管理。
- 支持大数据和 AI 作业。
- 优化资源隔离,通过在线与离线服务混合部署提高资源利用率。
- 支持 Service Mesh。
- 提供大规模、高性能的自动扩缩能力。
- 实现多租户与资源配额管理。
#### 2. **Kubernetes 使用中的挑战**
- 快速、可靠地发布有状态服务。
- 提供高级调度,提升服务稳定性。
- 通过配额管理优化资源编排效率。
- 实现高性能、全面的自动扩缩。
#### 3. **TKEx 架构**
- **主要组件**:
- **EKS** 和 **TKE**:为核心引擎提供支持。
- **AI Training Jobs** 和 **Big Data Jobs**:支持大规模数据和 AI 计 算。
- **Dynamic Scheduler**、**MultiClusterManager**、**De-Scheduler** 等:负责动态调度和资源管理。
- **Ceres Job Queue Manager**、**Spark-Operator**:优化任务队列管理。
- **Tencent Cloud Mesh**:支持 Service Mesh。
- **HPAPlus Controller**、**VWA Controller**:实现高性能自动扩缩。
- **功能模块**:
- 节点问题检测(NPD)。
- 动态配额管理(DynamicQuotaManager)。
- 多集群管理(MultiClusterManager)。
- 资源调度与隔离优化。
#### 4. **动态配额管理机制**
- **特点**:
- 多级配额机制。
- 动态调整离线作业配额。
- 使用 **DynamicQuota Operator** 进行业务配额调和。
- 通过 **ValidatingWebhook** 验证 Pod 请求。
- **实现**:
- **Offline Job Queue Manager**:管理离线任务队列。
- **DynamicQuota**:根据业务需求动态调整配额。
- **资源压缩与调整**:优化资源利用率。
#### 5. **节点与调度优化**
- **节点问题检测(NPD)**:
- 检测节点压力(如FdPressure、CustomPIDPressure、ThreadPressure)。
- 识别 Kubelet、Dockerd、Containerd 等组件问题。
- **De-Scheduler**:根据节点状态优化资源调度。
- **动态调度与资源管理**:
- **Kube-ApiServer**:监听与-watch 节点条件。
- **Self-Agent**:自动生成节点条件补丁。
#### 6. **作者与更多信息**
- **Garnett Wang**(王涛):
- 腾讯云高级软件工程师。
- TKEx 平台技术总监。
- 更多信息可参考:[https://cloud.tencent.com/developer/column/2436](https://cloud.tencent.com/developer/column/2436)。
#### 总结
本文档详细介绍了腾讯在大规模使用 Kubernetes 过程中面临的挑战,并通过 **TKEx** 平台的技术实践,展示了如何实现高效的资源管理、动态配额、节点优化和自动扩缩等功能,为大规模 Kubernetes 集群的稳定性和性能提供了有效解决方案。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
12 页请下载阅读 -
文档评分