阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践
7.81 MB
21 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档阐述了阿里巴巴在超大规模Kubernetes集群运维中的实践,重点介绍了神龙裸金属服务器的优势,包括性能、弹性和支持再虚拟化。2017年阿里云神龙正式商用,2018年底阿里经济体全面上云,2019年完成基础设施上云并成功支撑双11峰值流量。文档还提到了规模化运维的关键技术,如监控体系(SLI、SLO、SLA)、节点故障自愈和统一风控,以及阿里云原生化的技术组合:ASI + 容器 + 神龙。 | ||
AI总结 | ||
### 总结
阿里巴巴在云原生领域的实践与运维经验可以总结如下:
#### 1. **阿里巴巴全站上云历程**
- **2018年底**:阿里经济体全面上云。
- **2019年**:完成基础设施上云,并以双11峰值流量为考验,验证了系统的稳定性和可靠性。
#### 2. **神龙裸金属服务器(X-Dragon)**
- **全称**:弹性裸金属服务器。
- **优势**:
- **性能**:去除了虚拟化带来的8%性能损耗。
- **弹性**:支持快速扩展和调整。
- **支持再虚拟化**:为多样化虚拟化技术(如Kata、Firecracker等)探索和创新提供可能。
- **商用时间**:2017年10月阿里云神龙正式商用。
#### 3. **技术选型与优势**
- **高性能**:通过去虚拟化技术提升基础设施效率。
- **支持二次虚拟化**:为多样化虚拟化技术提供支持。
- **最佳组合**:将Alibaba Serverless Infrastructure (ASI)、容器技术(runc/runv/kata等)与神龙结合,实现阿里云原生的最佳实践。
- **资源利用率优化**:通过大规模混部和优先级差异化提升资源使用效率。
#### 4. **规模化集群运维管理**
- 研发了适用于数十万节点规模的运维管理系统。
- **系统架构**:
- 监控告警(SLI、SLO、SLA)。
- 多种报警方式(钉钉、邮件、电话、ChatOps)。
- 自助诊断与节点故障自愈机制。
- 统一风控与集中决策。
- **日常运维**:1人运维数十万节点,实现了高效化管理。
#### 5. **当前与未来**
- **当前**:通过峰值流量考验,稳定支撑双11等高峰期业务。
- **未来**:继续推进云原生化全景图,聚焦智能化、自动化、极致化的云原生技术发展。
#### 6. **技术专家简介**
- **周涛(广侯)**:阿里巴巴云原生应用平台技术专家,参与数十万节点规模化运维管理系统研发,主导云原生架构升级。
通过全站上云、神龙裸金属服务器的引入,以及规模化运维管理的持续优化,阿里巴巴在云原生领域展现了强大的技术实力和创新能力。 |
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
9 页请下载阅读 -
文档评分