动手学深度学习 v2.0一个程序 来管理网上商城。经过思考,开发人员可能提出如下一个解决方案:首先,用户通过Web浏览器(或移动应 用程序)与应用程序进行交互;紧接着,应用程序与数据库引擎进行交互,以保存交易历史记录并跟踪每个 用户的动态;其中,这个应用程序的核心——“业务逻辑”,详细说明了应用程序在各种情况下进行的操作。 为了完善业务逻辑,开发人员必须细致地考虑应用程序所有可能遇到的边界情况,并为这些边界情况设计合 , 2015) 和神经编程器‐解释器 (Reed and De Freitas, 2015)。它们允许统计建模者描述用于推理的迭代方法。这些工具允许重复修改深度神经网络的内部状 态,从而执行推理链中的后续步骤,类似于处理器如何修改用于计算的存储器。 • 另一个关键的发展是生成对抗网络 (Goodfellow et al., 2014) 的发明。传统模型中,密度估计和生成模 型的统计方法侧重 的例子都证明了这一进展。即使是业余的涂鸦者也可以根据描述 场景布局的草图生成照片级真实图像((Park et al., 2019) )。 • 在许多情况下,单个GPU不足以处理可用于训练的大量数据。在过去的十年中,构建并行和分布式训练 算法的能力有了显著提高。设计可伸缩算法的关键挑战之一是深度学习优化的主力——随机梯度下降, 它依赖于相对较小的小批量数据来处理。同时,小批量限制了GPU的效率。因此,在1024个GPU上进行0 码力 | 797 页 | 29.45 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据example.com:2222” ], “ps”: [ “ps0.example.com:2222”, “ps1.example.com:2222” ]}) 分布式版本ClusterSpec定义:� 带来的问题:� • ⼿动指定机器很繁琐� • 端⼝冲突� • 机器负载不均� TensorFlow使用现状及痛点 • ⼿动分发训练样本� • ⼿动拉取训练模型� 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 • 集群资源的管理(目前支持CPU、内存,需要扩展GPU 资源管理)� • 作业的统⼀管理、状态跟踪� • 资源组(Schedule Pool)的划分� • 作业进程的资源隔离� Yarn能解决什么问题:� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� --board-enable true \ #是否开启Tensorboard服务� --conf tf.file.download.thread.nums=10 #其他参数设置� 提交脚本示例(分布式版本):� TensorFlow on Yarn设计 Yarn首页作业信息:� 作业类型 集群GPU资源概况 作业分配到的GPU数量 TensorFlow on Yarn设计0 码力 | 32 页 | 4.06 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱Embedding以稀疏的⽅式表达信息 ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) 训练框架—基于参数服务器架构的分布式训练框架 TB级模型 分⽚ 存储/更新 百TB数据 分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中,只有部分参数被⽤到 参数按需 即将⽤到的参数 显存 32/40/80GB 正在训练的参数 分布式训练的慢机与同步问题 � Feature 2.1: 短时间内只有部分item和user被命中, 只有部分参数被⽤到 � GPU训练的优势 � 更少的机器节点,更少的分布式系统相关问题 � 更⾼的性价⽐ 1. 减少节点数 2. 提升节点同 构性 推理服务—分布式Serving架构 � 读写架构 � 多线程⽆锁:基于模型版本的读写分离0 码力 | 22 页 | 6.76 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒AI+金融 AI+智慧城市 AI+芯片 AI+无人驾驶 AI+智能手机 AI+医疗图像 AI+智慧城市:以智能安防场景为例 特征向量 AI+智慧城市 2015-2017 l单机、简易分布式人脸检测、跟踪、比对平台 l处理数十路到数百路监控摄像头数据 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检 索 l处理数万到数十万路,城市范围级别监控、门禁摄 构建百万以上级别的对象缓存,需要 仔细优化 百倍慢于等价的C实现! 回顾 • 智慧城市中,在智能安防领域机器视觉有着爆发式应用 • 我们使用基于深度学习的机器视觉技术,构建了超大规模的自我演化 的分布式智能系统 • 在构建这个规模的系统中,我们广泛使用了Kubernetes、Go等流行技 术,“那些年踩过的坑”0 码力 | 23 页 | 9.26 MB | 1 年前3
Keras: 基于 Python 的深度学习库. . . . . . . 6 2.4 Keras 支持多个后端引擎,并且不会将你锁定到一个生态系统中 . . . . . . . . . . 6 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Keras 的发展得到深度学习生态系统中的关键公司的支持 . . . . . . . TensorFlow 后端和 Google Cloud。 • OpenGL 支持的 GPU, 比如 AMD, 通过 PlaidML Keras 后端。 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 • Keras 内置对多 GPU 数据并行的支持。 • 优步的 Horovod 对 Keras 模型有第一流的支持。 • Keras 模型可以被转换为 TensorFlow 估计器并在 save_to_dir 设置时可用)。 • save_format: “png”, “jpeg” 之一(仅当 save_to_dir 设置时可用)。默认:“png”。 • follow_links: 是否跟踪类子目录中的符号链接(默认为 False)。 • subset: 数据子集 (“training” 或 “validation”),如果在 ImageDataGenerator 中设置了 validation_split。0 码力 | 257 页 | 1.19 MB | 1 年前3
复杂环境下的视觉同时定位与地图构建计算自身位置(在空间中的位置和朝向) • 构建环境地图(稀疏或者稠密的三维点云) 稀疏SLAM 稠密SLAM SLAM系统常用的框架 输入 • 传感器数据 前台线程 • 根据传感器数据进行跟踪求解, 实时恢复每个时刻的位姿 后台线程 • 进行局部或全局优化,减少误差累积 • 场景回路检测 输出 • 设备实时位姿 • 三维点云 RGB图 深度图 IMU测量值 优化以减少误差累积 其它辅助传感器 • 廉价IMU、GPS • 深度传感器 • 优势 • 硬件成本低廉 • 小范围内定位精度较高 • 无需预先布置场景 基本原理:多视图几何 投影函数 主要模块 • 特征跟踪 • 获得一堆特征点轨迹 • 相机姿态恢复与场景三维结构恢复 • 求解相机参数和三维点云 • 如何处理循环回路序列和多视频序列? • 如何高效高精度地处理大尺度场景? • 如何处理动态场景? 循环回路序列和多视频序列 • 如何将不同子序列上的相同特征点高效地匹配上? • 如何高效地进行全局优化,消除重建漂移问题? VisualSFM 结果 ENFT:高效的非连续帧特征跟踪 基于两道匹配的连续帧跟踪 • 抽取SIFT特征 • 第一道匹配:比较描述量 Global distinctive 平面运动分割 • 估计若干个平面运动 • 使用第一道匹配得到的内点匹配对(inlier0 码力 | 60 页 | 4.61 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112神经网络的输入?,设置 requires_grad=False 即可;相反,对于需要计算梯度并优化的张 量,如神经网络层的?和?,必须设置 requires_grad=True,以便 PyTorch 跟踪相关梯度信 息。 创建待优化张量时,指定 requires_grad=True 参数,这样创建的张量才能求解梯度,并 且它的 requires_grad 属性为 True,例如: In [20]: [92, 93, 94, 95]]]]) 在存储数据时,内存并不支持这个维度层级概念,只能以平铺方式按序写入内存,因此这 种层级关系需要人为管理,也就是说,每个张量维度结构需要人为跟踪。为了方便表达, 这里把张量 shape 列表中相对靠左侧的维度叫作大维度,shape 列表中相对靠右侧的维度叫 作小维度,比如[2,4,4,3]的张量中,图片数量维度与通道数量相比,图片数量叫作大维度, 大部分逻辑变换操作 而言,合理性都是可较好判断的。改变张量的存储顺序将在“交换维度”一节介绍。 在算法设计过程中,维度变换操作通常是连续反复进行的,为了保持合理的维度变 换,常用的技巧就是人为跟踪存储的维度顺序。例如根据“图片数量-行-列-通道”初始视 图保存的张量,存储也是按照“图片数量-行-列-通道”的顺序写入的。如果按着“图片数 量-像素-通道”的方式恢复视图,并没有与“图片数量-行-列-通道”相悖,因此能得到合0 码力 | 439 页 | 29.91 MB | 1 年前3
李东亮:云端图像技术的深度学习模型与应用视频 检测 识别 分割 跟踪 物 环境 数 据 核 心 云端 移动端 业 务 视觉感知模型 SACC2017 视觉感知核心问题 Object Segmentation Object Classification Person, Horse, Barrier, Table, etc Object Detection 检测 识别 分割 跟踪 核 心 SACC2017 convolution convolution 检测 识别 Single Frame Predictor SACC2017 视觉感知模型-融合 检测 识别 分割 跟踪 核 心 深度学习 •完全基于深度学习 •统一分类,检测,分割,跟踪 ü通过共享计算提高算法效率 ü通过多个相关任务共同学习提高算法性能 •稀疏标注 ü在节省标注工作量的的同时,充分利用视频数据 Forward Block0 码力 | 26 页 | 3.69 MB | 1 年前3
Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf����/���� ���������� • 目的a定x和识别视频h的特定目标,并在目标生命周期内 进行跟踪 • 方法a检测采用>HgLQP IuNNy FQPvQNuVLQP PHVwQTM >-41:) 的GHHR NHDTPLPg框架,对q小物体在IHDVuTH ODR进行ow 化b跟踪采用214框架,结合颜色模型,并使用0/14进行 候选区域扩充 • 效果a • 检测算法在HQNNywQQG UVDVH-QI-DTV ).)%b • 0TDLPwDUh数据集,O/P-88.4)%,高过VhH UVDVH-QI- DTV 10.(%。 • 跟踪算法在T0-100评测集,在实时速度d,RTHFLULQP 和UuFFHUU TDVH效果最好 内容理解——多目标检测f跟踪 ����/���� A51视频智能缩略图 • 目的a通过对视频进行结构化分析,对关键帧、视频镜头进行筛选和排序, 选择最w的关键帧、关键片段来作i视频的展示0 码力 | 24 页 | 9.60 MB | 1 年前3
机器学习课程-温州大学-07深度学习-卷积神经网络内容,用于后继 处理, 如:筛 选特征点,分割 含有特定目标的 部分 高级处理 验证得到的 数据是否匹 配前提要求 ,估测特定 系数,对 目 标进行分类 •图像分类 •目标检测 •图像分割 •目标跟踪 •OCR文字识别 •图像滤波与降噪 •图像增强 •风格迁移 •三维重建 •图像检索 •GAN 5 图像分类 6 目标检测 目标检测结合了目标分类和定位两个任务。 one-stage(YOLO YOLOV4, YOLOV5,SSD等) two-stage(OverFeat,R-CNN,Fast R-CNN,Faster R-CNN 等) 7 目标检测 8 目标检测 9 图像分割 10 目标跟踪 11 计算机视觉 图像的数字表示 一张图片数据量是64×64×3,因为每张图片都有3个颜色通道。 如果计算一下的话,可得知数据量为12288 12 01 计算机视觉概述 020 码力 | 29 页 | 3.14 MB | 1 年前3
共 24 条
- 1
- 2
- 3













