HDFS - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

TensorFlow on Yarn：深度学习遇上大数据

Yarn设计� Ø TensorFlow on Yarn技术细节揭秘� Ø 深度学习平台演进及SparkFlow介绍� 背景坐标：360-系统部-⼤数据团队� 专业：Yarn、Spark、MR、HDFS …� 挑战：深度学习空前⽕爆，各种深度学习框架层出不穷，业务部门拥抱新兴技术。平台怎么应对？� 机遇：Maybe 深度学习 + ⼤数据 � � TensorFlow使用现状及痛点同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标：� TensorFlow on Yarn设计 • 支持GPU亲和性调度（提⾼通信效率）� --training_epochs=20” \ #TF运⾏指令� --input /home/xitong/tf-test/data \#训练样本HDFS路径� --output /home/xitong/tf-test/outputTest \ #保存模型的HDFS路径� --worker-num 3 \ #work数量 � --worker-memory 8192M \ #每个worker需要的内存�

0 码力 | 32 页 | 4.06 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

模型训练 Task Metrics输出 3 在线机器学习-工作流互动行为日志数据处理点击行为日志阅读行为日志曝光行为日志数据过滤样本拼接定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光，互动，点击，真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制，先到先走 • 定时轮寻，最长N分钟等待 register Status set/get Model delete Model Save Model Load HA Fault tolerance checkpoint Local HDFS Param Server System Model Serving System 3 在线机器学习-参数服务器 • 参数规模 • 支持百亿特征维度，千亿参数 • 模型版本 • 多存储基础/IDE 业务调度集群 2 平台架构计算机器学习平台 Feed排序推荐流文本分类/检测 Hadoop/Spark 集群数据仓库集群高性能GPU集群 Hdfs/Odps TensorFlow /Caffe 图像/视频分类阿里云计算集群实时计算集群业务 Storm/Flink Yarn/K8s …… …… …… 调度 Docker

0 码力 | 36 页 | 16.69 MB | 1 年前
3
构建基于富媒体大数据的弹性深度学习计算平台

数据抽样和整理样本训练模型模型评估 AVA深度学习平台 Caching IO Distributed System Docker Orchestration Storage HDFS SQL NoSQL Caffe MXNet Tensorflow Data Clean Iterative training Semi-supervised Labeling Incremental

0 码力 | 21 页 | 1.71 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

上线与推理提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结基于深度学习模型的推荐流程，场景与⽬标 Serving系统 HDFS 数据通道训练系统召回业务服务排序混排模型管理上线管理⽆量 RGW/Cos/ kafka 样本存储实时样本⽣成服务离线样本⽣成任务数据通道

0 码力 | 22 页 | 6.76 MB | 1 年前
3

共 4 条前往

页

TensorFlow on Yarn 深度学习遇上数据微博在线机器实践黄波构建基于媒体弹性计算平台推荐模型基础特点大规规模大规模系统设计

分类

语言

格式

TensorFlow on Yarn：深度学习遇上大数据

微博在线机器学习和深度学习实践-黄波

构建基于富媒体大数据的弹性深度学习计算平台

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

分类

语言

格式

TensorFlow on Yarn：深度学习遇上大数据

微博在线机器学习和深度学习实践-黄波

构建基于富媒体大数据的弹性深度学习计算平台

从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱