Volcano加速金融行业大数据分析平台云原生化改造的应用实践• 50+ 企业生产落地 关键特性: 1. 统一的作业管理 提供完善作业生命周期管理,统一支持几乎所有主流的计算框架,如 Pytorch, MPI, Horovod, Tensorflow、Spark等。 2. 丰富的高阶调度策略 公平调度、任务拓扑调度、基于SLA调度、作业抢占、回填、弹性调度、 混部等。 3. 细粒度的资源管理 提供作业队列,队列资源预留、队列容量管理、多租户的动态资源共享。 施,打造新一代大数据分析自助平台。 客户诉求: • 交互式服务、常驻服务、离线分析业务统一平台调度; • Job级别的调度管理,包括生命周期、依赖关系等; • 支持业界主流计算框架,如Spark、TensorFlow等; • 多用户公平分配资源,快速响应高优先级作业 解决方案: • K8s + Volcano 统一调度所有工作负载; • Queue动态资源共享,DRF、优先级抢占 Queue2 has workload, it will reclaim resources from Queue1. capacity Queue guarantee …… Spark首个Batch调度器 SPARK-36057: Support volcano/alternative schedulers Pod Group Queue - 依据PodGroup调度 - 最小资源预留(CPU/MEM)0 码力 | 18 页 | 1.82 MB | 1 年前3
使用Chaos Mesh来保障云原生系统的健壮性-周强 TiK V TiK V TiFlas h TiK V TiK V ... DistSQL API KV API ... Worker Worke r Worke r Spark Driver ... Spark SQL Spark Cluster DistSQL API P D P D P D PD Cluster Pum p Pum p Pum p Draine r TiDB Binlog0 码力 | 28 页 | 986.42 KB | 6 月前3
24-云原生中间件之道-高磊的静态资源情况进行分配, 无法基于动态资源调度,无法很好的支持在线、离线业务混部的场景。 • 操作系统镜像及部署复杂性拖慢应用发布:虚拟机或裸金属设备所依赖的镜像,包含了诸多软件包,如HDFS、Spark、 Flink、Hadoop等,系统的镜像远远大于10GB,通常存在镜像过大、制作繁琐、镜像跨地域分发周期长等问题。基于这 些问题,有些大数据开发团队不得不将需求划分为镜像类和非镜像类需求,当需要修改镜像的需求积累到一定程度, 总体改造成本比较高;另一方面, 需要在大数据应用的资源申请层面进行改造,使其具备直接向Kubernetes集群申请资源的特性,也称为Native on Kubernetes。目前Apache Spark、Apache Flink已经从框架内核不同程度的支持了该特性,但整体的完整对依赖于社 区的努力。 迁移风险高:一次变更引入的改动越多,引发故障的几率也越多。在Hadoop领域,大数据应用的资源,由0 码力 | 22 页 | 4.39 MB | 6 月前3
23-云原生观察性、自动化交付和 IaC 等之道-高磊步简化运维 监控告警 分布式跟踪链 日志查询 根因分析 响应动作 自动化 高端观察性 各维度统计分析 观察性 Prometheus Skywalking EFK Hadoop Spark Cortex ....... 传统交付方式的不足之处 手册文档 配置参数 应用 应用 配置参数 应用 应用 软件环境 硬件环境 遗留系统 安装配置点 安装配置点 安装配置点0 码力 | 24 页 | 5.96 MB | 6 月前3
共 4 条
- 1













