阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践
                
  
              7.81 MB
             
              21 页
               
              0 评论
              
| 语言 | 格式 | 评分 | 
|---|---|---|
中文(简体)  | .pdf  | 3  | 
| 摘要 | ||
文档阐述了阿里巴巴在超大规模Kubernetes集群运维中的实践,重点介绍了神龙裸金属服务器的优势,包括性能、弹性和支持再虚拟化。2017年阿里云神龙正式商用,2018年底阿里经济体全面上云,2019年完成基础设施上云并成功支撑双11峰值流量。文档还提到了规模化运维的关键技术,如监控体系(SLI、SLO、SLA)、节点故障自愈和统一风控,以及阿里云原生化的技术组合:ASI + 容器 + 神龙。  | ||
| AI总结 | ||
### 总结
阿里巴巴在云原生领域的实践与运维经验可以总结如下:
#### 1. **阿里巴巴全站上云历程**
   - **2018年底**:阿里经济体全面上云。
   - **2019年**:完成基础设施上云,并以双11峰值流量为考验,验证了系统的稳定性和可靠性。
#### 2. **神龙裸金属服务器(X-Dragon)**
   - **全称**:弹性裸金属服务器。
   - **优势**:
     - **性能**:去除了虚拟化带来的8%性能损耗。
     - **弹性**:支持快速扩展和调整。
     - **支持再虚拟化**:为多样化虚拟化技术(如Kata、Firecracker等)探索和创新提供可能。
   - **商用时间**:2017年10月阿里云神龙正式商用。
#### 3. **技术选型与优势**
   - **高性能**:通过去虚拟化技术提升基础设施效率。
   - **支持二次虚拟化**:为多样化虚拟化技术提供支持。
   - **最佳组合**:将Alibaba Serverless Infrastructure (ASI)、容器技术(runc/runv/kata等)与神龙结合,实现阿里云原生的最佳实践。
   - **资源利用率优化**:通过大规模混部和优先级差异化提升资源使用效率。
#### 4. **规模化集群运维管理**
   - 研发了适用于数十万节点规模的运维管理系统。
   - **系统架构**:
     - 监控告警(SLI、SLO、SLA)。
     - 多种报警方式(钉钉、邮件、电话、ChatOps)。
     - 自助诊断与节点故障自愈机制。
     - 统一风控与集中决策。
   - **日常运维**:1人运维数十万节点,实现了高效化管理。
#### 5. **当前与未来**
   - **当前**:通过峰值流量考验,稳定支撑双11等高峰期业务。
   - **未来**:继续推进云原生化全景图,聚焦智能化、自动化、极致化的云原生技术发展。
#### 6. **技术专家简介**
   - **周涛(广侯)**:阿里巴巴云原生应用平台技术专家,参与数十万节点规模化运维管理系统研发,主导云原生架构升级。
通过全站上云、神龙裸金属服务器的引入,以及规模化运维管理的持续优化,阿里巴巴在云原生领域展现了强大的技术实力和创新能力。  | ||
 P1 
 P2 
 P3 
 P4 
 P5 
 P6 
 P7 
 P8 
 P9 
 P10 
 P11 
 P12 
下载文档到本地,方便使用
    
                - 可预览页数已用完,剩余
                9 页请下载阅读 -
              
文档评分 
  












