TensorFlow on Yarn:深度学习遇上大数据多⼈多服务器使用混乱,计算资源如何划分?� • 没有GPUs集群资源管理和调度(内存、CPU、GPU、 端⼝),集群资源负载不均� • 训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死� • 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 • 集群资源的管理(目前支持CPU、内存,需要扩展GPU 资源管理)� • 作业的统⼀管理、状态跟踪� Web的⽅式查看作业的运⾏状况和作业日志� • 在线查看Tensorboard� • HistoryServer支持查看结束作业的日志和状态信息� • 控制已有的TensorFlow作业的迁移成本(最多改三⾏ 代码)� 扩展目标:� TensorFlow on Yarn设计 tensorflow-submit \� --app-name “tfdemo” \#作业名� --files tfTestDemo file.download.thread.nums=10 #其他参数设置� 提交脚本示例(分布式版本):� TensorFlow on Yarn设计 Yarn首页作业信息:� 作业类型 集群GPU资源概况 作业分配到的GPU数量 TensorFlow on Yarn设计 TensorFlow作业AM页面:� Container所在的机器� 分配到的GPU物理设备号� tensorboard0 码力 | 32 页 | 4.06 MB | 1 年前3
谭国富:深度学习在图像审核的应用积极 推动研究成果在业务中落地产生价值。 关于优图实验室 人脸识别 图像识别 音频识别 SACC2017 目录 01 腾讯优图内容审核能力介绍 02 深度学习技术介绍 03 内容审核的扩展和延伸 00 图像审核的行业背景 SACC2017 内容审核 - 行业现状 不良信息泛滥,监管猝不及防 Ø 随着互联网的飞速发展和信息量的猛增, 大量的色情图片、暴力等不良信息夹杂其 中,严重影响着互联网的健康发展。 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 Redis 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器 • 灵活的资源分配 • 支持以 com/tencent/ncnn • 针对移动端优化版本 • 开源建设, 2.6k+ stars SACC2017 从静到动:结合视频识别能力 从图像到声音: 音频识别 03 图像内容审核的扩展和延伸 优图-腾讯云 天御内容识别解决方案 Deep Eye SACC2017 腾讯优图-腾讯云天御 内容审核解决方案 SACC2017 针对直播 – 视频鉴黄解决方案 • 在部署了DeepEye视频直播鉴黄解决方案后,系0 码力 | 32 页 | 5.17 MB | 1 年前3
动手学深度学习 v2.0记录,并得到成熟的、维护 良好的工具的支持。关键思想应该被清楚地提炼出来,尽可能减少需要让新的从业者跟上时代的入门时间。 成熟的库应该自动化常见的任务,示例代码应该使从业者可以轻松地修改、应用和扩展常见的应用程序,以 满足他们的需求。以动态网页应用为例。尽管许多公司,如亚马逊,在20世纪90年代开发了成功的数据库驱 动网页应用程序。但在过去的10年里,这项技术在帮助创造性企业家方面的潜力已经得到了更大程度的发挥, 特定的、面向目标的方式设计、训练和部署的。虽然他们的行为可能会给人一种通用智能的错觉,但设计的 基础是规则、启发式和统计模型的结合。其次,目前还不存在能够自我改进、自我推理、能够在试图解决一 般任务的同时,修改、扩展和改进自己的架构的“人工通用智能”工具。 一个更紧迫的问题是人工智能在日常生活中的应用。卡车司机和店员完成的许多琐碎的工作很可能也将是自 动化的。农业机器人可能会降低有机农业的成本,它们也将使收割作业自动化。工业革命的这一阶段可能对 行按元素操作。在某些情况下,即使形状不同, 我们仍然可以通过调用 广播机制(broadcasting mechanism)来执行按元素操作。这种机制的工作方式如 下: 1. 通过适当复制元素来扩展一个或两个数组,以便在转换之后,两个张量具有相同的形状; 2. 对生成的数组执行按元素操作。 在大多数情况下,我们将沿着数组中长度为1的轴进行广播,如下例子: a = torch.arange(3)0 码力 | 797 页 | 29.45 MB | 1 年前3
Keras: 基于 Python 的深度学习库的开发重点是支持快速的实验。能够以最小的时延把你的想法转 换为实验结果,是做好研究的关键。 如果你在以下情况下需要深度学习库,请使用 Keras: • 允许简单而快速的原型设计(由于用户友好,高度模块化,可扩展性)。 • 同时支持卷积神经网络和循环神经网络,以及两者的组合。 • 在 CPU 和 GPU 上无缝运行。 查看文档,请访问 Keras.io。 Keras 兼容的 Python 版本: Python 数、正则化方法,它们都是可以结合起来构建新模型的模块。 • 易扩展性。新的模块是很容易添加的(作为新的类和函数),现有的模块已经提供了充足 的示例。由于能够轻松地创建可以提高表现力的新模块,Keras 更加适合高级研究。 • 基于 Python 实现。Keras 没有特定格式的单独配置文件。模型定义在 Python 代码中,这 些代码紧凑,易于调试,并且易于扩展。 1.3 快速开始:30 秒上手 Keras metrics=['accuracy']) 如果需要,你还可以进一步地配置你的优化器。Keras 的核心原则是使事情变得相当简单, 同时又允许用户在需要的时候能够进行完全的控制(终极的控制是源代码的易扩展性)。 model.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.SGD(lr=00 码力 | 257 页 | 1.19 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波模型快照:基于ps-scheduler的周期模型版本探测与保存,模型稀疏化分片存储 • 冷备容灾:基于checkpoint机制(Local模式&Remote模式),实现参数服务的高可用,支持基于模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求(PULL&PUSH)聚合,同模型多矩阵并发,锁粒度优化,性能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 分布式模型推理框架:WeiServing 异构CPU集群 kubernetes/ol-submit RPC服务框架 LR/GBDT DNN/DeepFM/W&D 负载均衡/统一版本管理/动态加载/批量化机制 特征映射 Embedding 数据处理 异构GPU集群 CNN 业务应用 模型服务 框架 排序模型服务 多媒体分析服务 自然语言分析服务 集群调度层 核心架构层 算法模型层 4 算法/模型 计算 数据/特征 存储 基础/IDE 业务 调度 集群 2 平台架构 计算 机器学习平台 Feed排序 推荐流 文本分类/检测 Hadoop/Spark 集群 数据仓库集群 高性能GPU集群 Hdfs/Odps TensorFlow /Caffe 图像/视频分类 阿里云计算集群 实时计算集群 业务 Storm/Flink Yarn/K8s …… ……0 码力 | 36 页 | 16.69 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱分布式Serving集群 副本1 副本2 Group 1 Group N 副本1 副本2 推理节点 SDK MB级别DNN部分 Sparse Hotkey TB级别Embedding部分 全量模型,TB级,低峰期(Cos存储) 增量模型,GB级,20分钟(Cos存储) 实时模型,KB级,秒(Kafka) 分布式 Serving集群 推理节点 分布式 Serving集群 推理节点0 码力 | 22 页 | 6.76 MB | 1 年前3
搜狗深度学习技术在广告推荐领域的应用并行化训练 并行化训练 诉求 加大数据量,提 升模型稳定性 加大数据量,提 升模型收益 方案 MxNet支持多机 多卡, 使用成本低 构 建 多 机 多 卡 GPU集群,优化 训练效率,提高 加速比 现状和计划 现状 已经实现LR+DNN融合模型的上线,收益较好 受限于线上计算资源,模型复杂度有限 线下训练流程有依赖,繁琐易出错 计划0 码力 | 22 页 | 1.60 MB | 1 年前3
机器学习课程-温州大学-10机器学习-聚类主要算法 K-means、密度聚类、层次聚类 聚类 主要应用 市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词 典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产 集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预 测…… 7 1.无监督学习方法概述 聚类案例 1.医疗 医生可以使用聚类算法来发现疾病。以甲状 腺疾病为例。当我们对包含甲状腺疾病和非0 码力 | 48 页 | 2.59 MB | 1 年前3
《TensorFlow 2项目进阶实战》5-商品识别篇:使用ResNet识别你的货架商品应⽤用:检测SKU抠图与分类标注流程 • 应⽤用:分类训练集与验证集划分 • 应⽤用:使⽤用TensorFlow 2训练ResNet • 应⽤用:使用ResNet识别货架商品 • 扩展:图像分类常用数据集综述 • 扩展:图像分类更多应⽤用场景介绍 目录 基础:图像分类问题定义与说明 图像分类问题 语义级分类 细粒度分类 图像分类问题 实例级分类 识别问题 图像分类问题 实例级分类 TensorFlow 2 训练 ResNet “Hello TensorFlow” Try it! 应⽤用:使用ResNet识别货架商品 “Hello TensorFlow” Try it! 扩展:图像分类常用数据集综述 https://github.com/zalandoresearch/fashion-mnist http://yann.lecun.com/exdb/mnist/ MNIST edu/Image_Datasets/Caltech256/ Caltech 101 & Caltech 256 https://www.pinlandata.com/rp2k_dataset 扩展:图像分类更多应⽤用场景介绍 图像分类应用:牛脸识别与畜牧险维保 图像分类应用:户型图识别(空间、家具) 原始户型图 空间分割 (整体效果) 空间分割 (中间结果) 图像分类应用:智能相册0 码力 | 58 页 | 23.92 MB | 1 年前3
《TensorFlow 2项目进阶实战》4-商品检测篇:使用RetinaNet瞄准你的货架商品应用:划分检测训练集与测试集 • 应用:生成CSV 格式数据集与标注 • 应用:使用 TensorFlow 2 训练 RetinaNet • 应用:使用 RetinaNet 检测货架商品 • 扩展:目标检测常用数据集综述 • 扩展:目标检测更多应用场景介绍 目录 基础:目标检测问题定义与说明 目标检测问题 目标检测评估:Ground Truth 目标检测评估: Intersection over Union TensorFlow 2 训练 RetinaNet “Hello TensorFlow” Try it! 应用:使用 RetinaNet 检测货架商品 “Hello TensorFlow” Try it! 扩展:目标检测常用数据集综述 通用目标检测数据集 • The ImageNet Large Scale Visual Recognition Challenge ILSVRC • The PASCAL 21841 图像总数: 1400万+ 带有 Bounding box 的图像总数: 1,034,908 带有 SIFT 特征的识别小类: 1000 带有 SIFT 特征的图像总数: 1200万 扩展:目标检测更多应用场景介绍 目标检测应用:仓库流水审计 目标检测应用:仓库流水审计 目标检测应用:仓库盘点 无人智能盘点 人工盘点 目标检测应用:安全防护检测 目标检测应用:内容审核 目标检测应用:车流统计0 码力 | 67 页 | 21.59 MB | 1 年前3
共 30 条
- 1
- 2
- 3













