Alluxio 助力 Kubernetes, 加速云端深度学习
Alluxio 助力 Kubernetes, 加速云端深度学习 范斌 Alluxio 创始成员 车漾 阿里云高级技术专家 目录 • 我们是谁 • 问题背景 • Alluxio 助力云原生 AI 模型训练 • 相关资料 • Alluxio 是谁 • Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌 Alluxio 创始成员 背景 硬件 软件 数据 容器化的基础架构 人工智能发展的驱动力 模拟数据训练速度 311.6 7323.84 9993.6 33884.8 0 5000 10000 15000 20000 25000 30000 35000 40000 P100 (1GPU) P100 (32GPU) V100 (8GPU) V100 (32GPU) 8000 10000 12000 Synthetic ESSD云盘 PL2 RestNet50 模型训练速度 (images/second) 云盘 Alluxio - 分布式缓存的领导者 开源项目由李浩源博士(Alluxio公司CEO)在加州大学Berkeley分校 AMPLab就读期间创立 2013 2015 由硅谷著名投资公司Andreessen Horowitz投资,公司在2015年在0 码力 | 22 页 | 11.79 MB | 1 年前3美团点评2018技术年货
基于上述的选型思路,服务的三个核心架构分别选择了Spring,Spark和Alluxio。其中Spring的应用非常 广泛,在实际案例和文档上都非常丰富,很容易落地实现;Spark本身是一个非常优秀的分布式计算框 架,目前团队对Spark有很强的掌控力,调优经验也很丰富,这样只需要专注在计算逻辑的开发即可; Alluxio相对HDFS或HBase来说更加轻量,同时支持包括内存在内的多层异构存储,这些特性可能会在后 ,这些特性可能会在后 续优化中得到利用。 在具体的部署方式上,Spring Server单独启动,Spark和Alluxio都采用Standalone模式,且两个服务的 slave节点在物理机上共同部署。Spring进程中通过SparkContext维持一个Spark长作业,这样接到查询 请求后可以快速提交逻辑,避免了申请节点资源和启动Executor的时间开销。 每天数百亿用户行为数据,美团点评怎么实现秒级转化分析? 很大时对网络IO带来了很大压力。如果通过本地化调度,把计算调度到 数据的同一节点上执行,就可以避免这个问题。实现本地化调度的前提是有包含数据位置信息的元数据,以及计算框 架的支持,这两点在Alluxio和Spark中都很容易做到。 优化1 1. 内存映射。常规实现中,数据需要从磁盘拷贝到JVM的内存中,这会带来两个问题。一是拷贝的时间很长,几百MB 的数据对CPU时间的占用非常可观;二是0 码力 | 229 页 | 61.61 MB | 1 年前32021 中国开源年度报告
基金会 CNCF 阿里 2020 年 11 月 Kube-OVN Linux 基金会 CNCF 灵雀云 2021 年 1 月 Fluid Linux 基金会 CNCF 南京大学、阿 里云、 Alluxio 开源 社区 2021 年 4 月 Vineyard Linux 基金会 CNCF 阿里 2021 年 4 月 ChaosBlade Linux 基金会 CNCF 阿里 2021 年 5 月0 码力 | 132 页 | 14.24 MB | 1 年前32021 中国开源年度报告
Kube-OVN Linux 基金会 CNCF 灵雀云 2021 年 1 月 Fluid Linux 基金会 CNCF 南京大学、 2021 年 4 月 阿里云、 Alluxio 开 源社区 Vineyard Linux 基金会 CNCF 阿里 2021 年 4 月 ChaosBlade Linux 基金会 CNCF 阿里 2021 年 50 码力 | 199 页 | 9.63 MB | 1 年前3Spring Boot 3.2.3-SNAPSHOT Reference Documentation
pulsar pulsar-io 3.1.2 org.apache.pulsar pulsar-io-aerospike 3.1.2 org.apache.pulsar pulsar-io-alluxio 3.1.2 924 Group ID Artifact ID Version org.apache.pulsar pulsar-io-aws 3.1.2 org.apache.pulsar0 码力 | 975 页 | 17.43 MB | 1 年前3Spring Boot 3.2.9-snapshot Reference Documentation
pulsar pulsar-io 3.1.3 org.apache.pulsar pulsar-io-aerospike 3.1.3 org.apache.pulsar pulsar-io-alluxio 3.1.3 924 Group ID Artifact ID Version org.apache.pulsar pulsar-io-aws 3.1.3 org.apache.pulsar0 码力 | 976 页 | 17.49 MB | 1 年前3Spring Boot 3.2.7 Reference Documentation
pulsar pulsar-io 3.1.3 org.apache.pulsar pulsar-io-aerospike 3.1.3 org.apache.pulsar pulsar-io-alluxio 3.1.3 922 Group ID Artifact ID Version org.apache.pulsar pulsar-io-aws 3.1.3 org.apache.pulsar0 码力 | 974 页 | 17.47 MB | 1 年前3Spring Boot 3.2.8-snapshot Reference Documentation
pulsar pulsar-io 3.1.3 org.apache.pulsar pulsar-io-aerospike 3.1.3 org.apache.pulsar pulsar-io-alluxio 3.1.3 924 Group ID Artifact ID Version org.apache.pulsar pulsar-io-aws 3.1.3 org.apache.pulsar0 码力 | 976 页 | 17.49 MB | 1 年前3Spring Boot 3.2.9 Reference Documentation
pulsar pulsar-io 3.1.3 org.apache.pulsar pulsar-io-aerospike 3.1.3 org.apache.pulsar pulsar-io-alluxio 3.1.3 org.apache.pulsar pulsar-io-aws 3.1.3 org.apache.pulsar pulsar-io-batch-data-generator 30 码力 | 974 页 | 17.50 MB | 1 年前3Spring Boot 3.2.7-snapshot Reference Documentation
pulsar pulsar-io 3.1.3 org.apache.pulsar pulsar-io-aerospike 3.1.3 org.apache.pulsar pulsar-io-alluxio 3.1.3 org.apache.pulsar pulsar-io-aws 3.1.3 org.apache.pulsar pulsar-io-batch-data-generator 30 码力 | 976 页 | 17.49 MB | 1 年前3
共 17 条
- 1
- 2