TensorFlow on Yarn:深度学习遇上大数据Yarn设计� Ø TensorFlow on Yarn技术细节揭秘� Ø 深度学习平台演进及SparkFlow介绍� 背景 坐标:360-系统部-⼤数据团队� 专业:Yarn、Spark、MR、HDFS …� 挑战:深度学习空前⽕爆,各种深度学习框架层出不穷,业务部门 拥抱新兴技术。平台怎么应对?� 机遇:Maybe 深度学习 + ⼤数据 � � TensorFlow使用现状及痛点 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标:� TensorFlow on Yarn设计 • 支持GPU亲和性调度(提⾼通信效率)� --training_epochs=20” \ #TF运⾏指令� --input /home/xitong/tf-test/data \#训练样本HDFS路径� --output /home/xitong/tf-test/outputTest \ #保存模型的HDFS路径� --worker-num 3 \ #work数量 � --worker-memory 8192M \ #每个worker需要的内存�0 码力 | 32 页 | 4.06 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波模型训练 Task Metrics输出 3 在线机器学习-工作流 互动行为日志 数据处理 点击行为日志 阅读行为日志 曝光行为日志 数据过滤 样本拼接 定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制,先到先走 • 定时轮寻,最长N分钟等待 register Status set/get Model delete Model Save Model Load HA Fault tolerance checkpoint Local HDFS Param Server System Model Serving System 3 在线机器学习-参数服务器 • 参数规模 • 支持百亿特征维度,千亿参数 • 模型版本 • 多 存储 基础/IDE 业务 调度 集群 2 平台架构 计算 机器学习平台 Feed排序 推荐流 文本分类/检测 Hadoop/Spark 集群 数据仓库集群 高性能GPU集群 Hdfs/Odps TensorFlow /Caffe 图像/视频分类 阿里云计算集群 实时计算集群 业务 Storm/Flink Yarn/K8s …… …… …… 调度 Docker0 码力 | 36 页 | 16.69 MB | 1 年前3
构建基于富媒体大数据的弹性深度学习计算平台数据抽样 和整理 样本 训练 模型 模型评估 AVA深度学习平台 Caching IO Distributed System Docker Orchestration Storage HDFS SQL NoSQL Caffe MXNet Tensorflow Data Clean Iterative training Semi-supervised Labeling Incremental0 码力 | 21 页 | 1.71 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排 模型 管理 上线 管理 ⽆量 RGW/Cos/ kafka 样本 存储 实时样本 ⽣成服务 离线样本 ⽣成任务 数据 通道0 码力 | 22 页 | 6.76 MB | 1 年前3
共 4 条
- 1













