TensorFlow on Yarn:深度学习遇上大数据on Yarn设计� Ø TensorFlow on Yarn技术细节揭秘� Ø 深度学习平台演进及SparkFlow介绍� 背景 坐标:360-系统部-⼤数据团队� 专业:Yarn、Spark、MR、HDFS …� 挑战:深度学习空前⽕爆,各种深度学习框架层出不穷,业务部门 拥抱新兴技术。平台怎么应对?� 机遇:Maybe 深度学习 + ⼤数据 � � TensorFlow使用现状及痛点 NodeManager端GPU亲和性调度:� 后序、递归、深度优先分配算法 深度学习平台演进 SparkFlow介绍 SparkFlow:360系统部⼤数据团队设计的TensorFlow on Spark解决⽅案� • Coordinator负责协调生成ClusterSpec(扩展的TensorFlow gRPC server) • Worker通过读取RDD获取训练样本 • RDD的数据c 直接读取HDFS数据,不关心文件存 储格式 Worker和PS的资源同构 Worker和PS可以各自配置资源 不支持GPU调度 支持GPU调度 迁移成本较高 迁移成本低 嵌入到Spark计算框架里,方便打通 数据流 实现了一种新的Yarn Applica\on,可 以与TensorFlow灵活整合和功能定制 代码量几百行 代码量几千行 About Me0 码力 | 32 页 | 4.06 MB | 1 年前3
亚马逊AWSAI Services OverviewGPUs & 计算加速 深度学习的爆发 图像理解 自然语言处理 语音识别 机器自主 AWS 之上的人工智能应用 Zillow • Zestimate (using Apache Spark) Howard Hughes Corp • Lead scoring for luxury real estate purchase predictions FINRA • Anomaly Detect online payment fraud DataXu • Leverage automated & unattended ML at large scale (Amazon EMR + Spark) Mapillary • Computer vision for crowd sourced maps Hudl • Predictive analytics on sports plays0 码力 | 56 页 | 4.97 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波样本处理 CTR NLP 图片视频 VGG Yolo inception resnet GRU LSTM Wide&Deep DeepFM Deep Cross Network Spark 超参数 资源 算法 BERT 配置 Tensorflow 4 深度学习-深度学习模型训练 • 通信优化 • PS:BSP/SSP/ASP多种通信模式支持 • MPI&Ring 1 平台背景 算法/模型 计算 数据/特征 存储 基础/IDE 业务 调度 集群 2 平台架构 计算 机器学习平台 Feed排序 推荐流 文本分类/检测 Hadoop/Spark 集群 数据仓库集群 高性能GPU集群 Hdfs/Odps TensorFlow /Caffe 图像/视频分类 阿里云计算集群 实时计算集群 业务 Storm/Flink Yarn/K8s0 码力 | 36 页 | 16.69 MB | 1 年前3
人工智能发展史http://www.iro.umontreal.ca/~vincentp/ift3395/lectures/backprop_old.pdf Backpropagation: First Spark ▪ Derived in early 60’s ▪ Run on computer by Seppo Linnainma in 1970 ▪ Introduced to Neural Networks0 码力 | 54 页 | 3.87 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒TensorCore/int8 *示意图来自互联网 Kubernetes在异构系统调度中的挑战 • Kubernetes版本发布快,新特性更新频繁,对异构调度的支持不断加强;但配套设施落后(e.g. Spark on K8s, GitlabCI) • 容器系统调用栈深,需要仔细验证操作系统,内核及异构设备驱动的兼容性 • Kubernetes对NUMA、异构计算、存储设备的调度能力待加强 1.60 码力 | 23 页 | 9.26 MB | 1 年前3
Keras: 基于 Python 的深度学习库Horovod 对 Keras 模型有第一流的支持。 • Keras 模型可以被转换为 TensorFlow 估计器并在 Google Cloud 的 GPU 集群上训练。 • Keras 可以在 Spark(通过 CERN 的 Dist-Keras)和 Elephas 上运行。 为什么选择 KERAS? 7 2.6 Keras 的发展得到深度学习生态系统中的关键公司的支持 Keras 的开发主要由谷歌支持,Keras0 码力 | 257 页 | 1.19 MB | 1 年前3
共 6 条
- 1













