SberBank story:
moving Istio from PoC to production
1.68 MB
14 页
0 下载
81 浏览
0 评论
0 收藏
所属分类:
云计算&大数据 / Istio
| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档详细介绍了SberBank在将Istio从概念验证(PoC)环境迁移到生产环境的过程中所面临的技术挑战和解决方案。主要问题包括初始化容器的重启问题、证书轮换问题、服务发现过载以及资源消耗优化。文档还提到了Istio在生产环境中的性能表现,包括高可用性和无 downtime 的特点。通过这些实践,SberBank成功实现了服务网格的稳定运行,并展示了Istio在实际应用中的优势。 | ||
| AI总结 | ||
### 文档总结:SberBank 将 Istio 从 PoC 过渡到生产的经验与挑战
#### 1. **SberBank 的市场地位与技术实力**
- SberBank 是俄罗斯领先的金融机构,在金融与非金融服务领域占据重要地位。
- 核心优势:
- 最佳客户体验。
- 技术领导力。
- 高可靠性(99.99%)。
- 广泛的客户基础(超过 5600 万零售客户)。
- 在非金融服务领域的显著增长(2023 年目标:1000 万 SberPrime 用户,5000 亿卢布的电商 GMV)。
#### 2. **Istio 过渡到生产环境的关键挑战与解决方案**
- **问题与教训:**
1. **初始化容器问题:**
- 初始容器可能不是最佳选择,特别是涉及 `NET_RAW` 和 `NET_ADMIN` 权限时,可能导致流量失败。
2. **密钥轮换与证书管理:**
- 密钥轮换需谨慎,避免因根证书重新颁发导致服务中断。
3. **Istio 发现服务过载:**
- 需要优化 Istio 发现机制,避免因过载导致服务重启。
4. **Sidecar 与资源管理:**
- 调整 Sidecar 和 ExportTo 配置,优化资源使用,避免内存不足问题。
5. **生产环境测试的重要性:**
- 在生产环境中进行充分测试,避免因 Istio 发现服务重启或代理探测问题导致服务中断。
- **具体问题与解决方案:**
- ** envoy 代理 readiness probe 失败:**
- 优化 readiness probe 配置,确保 envoy 代理在高负载场景下稳定运行。
- **Pilot OOM 导致服务不可用:**
- 优化 Pilot 的资源分配,避免内存不足(OOM)问题,确保服务在 Pilot 重启时仍能正常路由。
#### 3. **Istio 生产环境的优化与实践**
- **服务网格配置:**
- 使用 Service Mesh Operator 管理 Istio 配置。
- 通过日志收集与跟踪系统(如 Logging Store 和 Tracing Store)监控服务网格运行状态。
- ** envoy 代理优化:**
- 确保 envoy 代理在高流量场景下的性能与稳定性。
- 通过资源分配和 mounts 配置优化 envoy 的运行环境。
- **控制平面优化:**
- 确保 Istio 控制平面的高可用性,避免因 Pilot 服务重启导致 envoy 代理失效。
- 优化 Istio 的发现机制,避免因服务过载导致的性能问题。
#### 4. **总结与未来计划**
- SberBank 成功将 Istio 从 PoC 阶段过渡到生产环境,但仍需持续优化 Istio 的配置与性能。
- 未来计划包括:
- 持续监控 Istio 的运行状态,优化资源分配。
- 提升 Istio 的可扩展性与性能,支持更大规模的生产环境。
- 深入研究 Istio 的新功能与最佳实践,进一步提升服务网格的稳定性和可靠性。 | ||
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
2 页请下载阅读 -
文档评分













