搜索

pdf文档 SberBank story: moving Istio from PoC to production

1.68 MB 14 页 0 下载 81 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档详细介绍了SberBank在将Istio从概念验证(PoC)环境迁移到生产环境的过程中所面临的技术挑战和解决方案。主要问题包括初始化容器的重启问题、证书轮换问题、服务发现过载以及资源消耗优化。文档还提到了Istio在生产环境中的性能表现,包括高可用性和无 downtime 的特点。通过这些实践,SberBank成功实现了服务网格的稳定运行,并展示了Istio在实际应用中的优势。
AI总结
### 文档总结:SberBank 将 Istio 从 PoC 过渡到生产的经验与挑战 #### 1. **SberBank 的市场地位与技术实力** - SberBank 是俄罗斯领先的金融机构,在金融与非金融服务领域占据重要地位。 - 核心优势: - 最佳客户体验。 - 技术领导力。 - 高可靠性(99.99%)。 - 广泛的客户基础(超过 5600 万零售客户)。 - 在非金融服务领域的显著增长(2023 年目标:1000 万 SberPrime 用户,5000 亿卢布的电商 GMV)。 #### 2. **Istio 过渡到生产环境的关键挑战与解决方案** - **问题与教训:** 1. **初始化容器问题:** - 初始容器可能不是最佳选择,特别是涉及 `NET_RAW` 和 `NET_ADMIN` 权限时,可能导致流量失败。 2. **密钥轮换与证书管理:** - 密钥轮换需谨慎,避免因根证书重新颁发导致服务中断。 3. **Istio 发现服务过载:** - 需要优化 Istio 发现机制,避免因过载导致服务重启。 4. **Sidecar 与资源管理:** - 调整 Sidecar 和 ExportTo 配置,优化资源使用,避免内存不足问题。 5. **生产环境测试的重要性:** - 在生产环境中进行充分测试,避免因 Istio 发现服务重启或代理探测问题导致服务中断。 - **具体问题与解决方案:** - ** envoy 代理 readiness probe 失败:** - 优化 readiness probe 配置,确保 envoy 代理在高负载场景下稳定运行。 - **Pilot OOM 导致服务不可用:** - 优化 Pilot 的资源分配,避免内存不足(OOM)问题,确保服务在 Pilot 重启时仍能正常路由。 #### 3. **Istio 生产环境的优化与实践** - **服务网格配置:** - 使用 Service Mesh Operator 管理 Istio 配置。 - 通过日志收集与跟踪系统(如 Logging Store 和 Tracing Store)监控服务网格运行状态。 - ** envoy 代理优化:** - 确保 envoy 代理在高流量场景下的性能与稳定性。 - 通过资源分配和 mounts 配置优化 envoy 的运行环境。 - **控制平面优化:** - 确保 Istio 控制平面的高可用性,避免因 Pilot 服务重启导致 envoy 代理失效。 - 优化 Istio 的发现机制,避免因服务过载导致的性能问题。 #### 4. **总结与未来计划** - SberBank 成功将 Istio 从 PoC 阶段过渡到生产环境,但仍需持续优化 Istio 的配置与性能。 - 未来计划包括: - 持续监控 Istio 的运行状态,优化资源分配。 - 提升 Istio 的可扩展性与性能,支持更大规模的生产环境。 - 深入研究 Istio 的新功能与最佳实践,进一步提升服务网格的稳定性和可靠性。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 2 页请下载阅读 -
文档评分
请文明评论,理性发言.