动手学深度学习 v2.0分离计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.5.4 Python控制流的梯度计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 2.6 概率 . . . . . . . . . 这本书将从头开始教授深度学习的概念。有时,我们想深入研究模型的细节,这些的细节通常会被深度学习 框架的高级抽象隐藏起来。特别是在基础教程中,我们希望读者了解在给定层或优化器中发生的一切。在这 些情况下,我们通常会提供两个版本的示例:一个是我们从零开始实现一切,仅依赖张量操作和自动微分; 另一个是更实际的示例,我们使用深度学习框架的高级API编写简洁的代码。一旦我们教了您一些组件是如 何工作的,我们就可以在随后的教程中使用高级API了。 管我们尽了最大努 力,但仍然缺乏对各种技术的正式解释,这既是因为描述这些模型的数学可能非常困难,也是因为对这些主 题的认真研究最近才进入高潮。我们希望随着深度学习理论的发展,这本书的未来版本将能够在当前版本无 法提供的地方提供见解。 有时,为了避免不必要的重复,我们将本书中经常导入和引用的函数、类等封装在d2l包中。对于要保存到包 中的任何代码块,比如一个函数、一个类或者多个导入,我们都会标记为#@save。我们在0 码力 | 797 页 | 29.45 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波支持百亿特征维度,千亿参数 • 模型版本 • 多模型多版本:多组实验并行执行,提高实验迭代效率 • 在线版本切换:基于ZK的版本感知机制,动态进行版本切换,实现BASE模型的热更新,实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容:在线PS与离线PS模型结构兼容,自动模型参数转换 • 稳定性优化 • 模型快照:基于ps-scheduler的周期模型版本探测与保存,模型稀疏化分片存储 实时训练 模型训练 模型部署 在线服务 离线验证 在线发布 在线验证 在线一致性/ 模型稳定性/… 一键打包 端口探测 蓝绿部署/灰度发布 AUC/准确率/ 召回率/… 流量切换 版本更新 全量发布 … verson1 verson2 … kubenetes/olsubmit 模型库 3 在线机器学习-模型服务部署 • 模型评估 • 模型上线部署前指标评估 • • PS&MPI:DistributionStrategy API,统一分布式语义,解耦分布式架构与模型训练框架 • 使用FP16通信,使用FP32做计算,带宽压力降低一倍 • IO优化 • 多线程样本并发读取,样本读取与计算PIPELINE,实现计算与IO的overlap 4 深度学习-深度学习模型训练 • 分布式模型推理框架:WeiServing 异构CPU集群 kubernetes/ol-submit0 码力 | 36 页 | 16.69 MB | 1 年前3
AI大模型千问 qwen 中文文档generation, vision understanding, audio understanding, tool use, role play, playing as AI agent, etc. 最新版本 Qwen1.5 有以下特点: • 6 种模型规模,包括 0.5B、1.8B、4B、7B、14B 和 72B; • 针对每种尺寸提供基础模型和 Chat 模型,并确保聊天模型按照人类偏好进行校准; Qwen1.5,您可以从 Hugging Face 安装 transformers 库,并使用 Qwen1.5 Collection 中的模型。 我们建议您安装最新版本的 transformers 库,或者至少安装 4.37.0 版本。 1.1.1 Pip 安装 pip install transformers -U 1.1.2 Conda 安装 conda install conda-forge::transformers 从源码安装 pip install git+https://github.com/huggingface/transformers 我们建议您使用 Python3.8 及以上版本和 Pytorch 2.0 及以上版本。 3 Qwen 1.2 快速开始 本指南帮助您快速上手 Qwen1.5 的使用,并提供了如下示例:Hugging Face Transformers 以及 ModelScope0 码力 | 56 页 | 835.78 KB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据example.com:2222” ], “ps”: [ “ps0.example.com:2222”, “ps1.example.com:2222” ]}) 分布式版本ClusterSpec定义:� 带来的问题:� • ⼿动指定机器很繁琐� • 端⼝冲突� • 机器负载不均� TensorFlow使用现状及痛点 • ⼿动分发训练样本� • ⼿动拉取训练模型� 作业的统⼀管理、状态跟踪� • 资源组(Schedule Pool)的划分� • 作业进程的资源隔离� Yarn能解决什么问题:� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 支持GPU亲和性调度(提⾼通信效率)� • Web的⽅式查看作业的运⾏状况和作业日志� • 在线查看Tensorboard� • HistoryServer支持查看结束作业的日志和状态信息� • 控制已有的TensorFlow作业的迁移成本(最多改三⾏ 代码)� 扩展目标:� TensorFlow on Yarn设计 tensorflow-submit \� --app-name0 码力 | 32 页 | 4.06 MB | 1 年前3
谭国富:深度学习在图像审核的应用建筑、动植物、食物等9个大类 。 Ø 技术指标:20个类别平均准确率MAP>90%以上,200种MAP>63%以上, 性能CPU上约200ms/张。 微云相册,相册管家 识别标签效果 Ø 微云,相册管家新版本推出智能全自动图片分类,通过上百 种常用图片标签,实现对所有照片的自动识别分类。 Ø 用户上传图片之后即可被智能分类,各大类下包括小类如人 物大类下有合影、女孩、男孩、聚会等小标签。只需要输入 经过多轮优化,可以准确快速地识别图片中所包含的 各类图标 l 烟雾,吸烟识别 Ø 基于视频直播监管需求, 提供吸烟,烟雾,涉嫌吸毒 等场景的识别能力 SACC2017 深度学习介绍 深度网络训练选择 加快训练 - 分布式训练系统 图像海量数据的积累 02 深度学习技术介绍 加快计算 - 深度学习算法加速 RPN SACC2017 技 术 发 展 应 用 突 破 1956 达特茅 斯会议 标志AI 诞生 client 管理数据 提取模型、 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 Redis 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器0 码力 | 32 页 | 5.17 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒共同发展 AI+金融 AI+智慧城市 AI+芯片 AI+无人驾驶 AI+智能手机 AI+医疗图像 AI+智慧城市:以智能安防场景为例 特征向量 AI+智慧城市 2015-2017 l单机、简易分布式人脸检测、跟踪、比对平台 l处理数十路到数百路监控摄像头数据 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检 索 l处 使用模型压缩算法,在基本保障准确率的情况下大幅提升速度 - 利用最新的硬件特性,如GPU TensorCore/int8 *示意图来自互联网 Kubernetes在异构系统调度中的挑战 • Kubernetes版本发布快,新特性更新频繁,对异构调度的支持不断加强;但配套设施落后(e.g. Spark on K8s, GitlabCI) • 容器系统调用栈深,需要仔细验证操作系统,内核及异构设备驱动的兼容性 对比C++: - 无法直接控制操作系统线程,CUDA 调用需要特殊处理 - 部分标准库实现依赖reflect,性能较 差 - GC的带来的开销,如在Go Heap上 构建百万以上级别的对象缓存,需要 仔细优化 百倍慢于等价的C实现! 回顾 • 智慧城市中,在智能安防领域机器视觉有着爆发式应用 • 我们使用基于深度学习的机器视觉技术,构建了超大规模的自我演化 的分布式智能系统 • 在构0 码力 | 23 页 | 9.26 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱从推荐模型的基础特点看 袁镱 腾讯 个⼈简介 � ⽆量系统 � 项⽬于17年启动,先后经过了6个主要版本的 迭代 � 覆盖腾讯PCG全部业务的推荐场景,⽀持腾讯 IEG,CSIG,QQ⾳乐,阅⽂等业务的部分推 荐场景 � 袁镱 博⼠,专家⼯程师 � 研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, Embedding以稀疏的⽅式表达信息 ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) 训练框架—基于参数服务器架构的分布式训练框架 TB级模型 分⽚ 存储/更新 百TB数据 分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中,只有部分参数被⽤到 参数按需0 码力 | 22 页 | 6.76 MB | 1 年前3
Keras: 基于 Python 的深度学习库© 2018 by Keras-Team 前 言 整理 Keras: 基于 Python 的深度学习库 PDF 版的主要原因在于学习 Keras 深度学习库时方 便本地查阅,下载最新 PDF 版本请访问: https://github.com/wanzhenchn/keras-docs-zh。 感谢 keras-team 所做的中文翻译工作,本文档制作基于此处。 严正声明:本文档可免费用 . . . . . . . 6 2.4 Keras 支持多个后端引擎,并且不会将你锁定到一个生态系统中 . . . . . . . . . . 6 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Keras 的发展得到深度学习生态系统中的关键公司的支持 . . . . . . . 化,可扩展性)。 • 同时支持卷积神经网络和循环神经网络,以及两者的组合。 • 在 CPU 和 GPU 上无缝运行。 查看文档,请访问 Keras.io。 Keras 兼容的 Python 版本: Python 2.7-3.6。 1.2 指导原则 • 用户友好。Keras 是为人类而不是为机器设计的 API。它把用户体验放在首要和中心位置。 Keras 遵循减少认知困难的最佳实践:它提供一致且简单的0 码力 | 257 页 | 1.19 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112NVIDIA GPU 和 Google TPU 等并行加速芯片训练模型参数。如围棋程序 AlphaGo Zero 在 64 块 GPU 上从 零开始训练了 40 天才得以超越所有的 AlphaGo 历史版本;自动网络结构搜索算法使用了 800 块 GPU 同时训练才能优化出较好的网络结构。 目前普通消费者能够使用的深度学习加速硬件设备主要来自 NVIDIA 的 GPU 显卡, 图 1.12 例举了从 型可以在相同的算法、模型结构和超参数的设定下,在 49 个游戏上获得人类相当的游戏水 平,呈现出一定程度的通用智能。图 1.14 是 DQN 算法的网络结构,它并不是针对于某个 游戏而设计的,而是可以控制 Atria 游戏平台上的 49 个游戏。 图 1.14 DQN 算法网络结构示意图 [1] 1.4 深度学习应用 深度学习算法已经广泛应用到人们生活的角角落落,例如手机中的语音助手、汽车上 超越多名人类围棋专家;在 Dota2 和星际争霸游戏上,OpenAI 和 DeepMind 开发的智能程 序也在限制规则下战胜了顶级职业队伍。 机器人(Robotics) 在真实环境中,机器人的控制也取得了一定的进展。如 UC Berkeley 实验室在机器人领域的 Imitation Learning、Meta Learning、Few-shot Learning 等方向上取得 了不少进展0 码力 | 439 页 | 29.91 MB | 1 年前3
阿里云上深度学习建模实践-程孟力图像视频算法库 Bert TextInput Optim izer 性能优越: 分布式存储 分布式查询 功能完备: GSL/负采样 主流图算法 异构图 (user/item/attribute) 动态图 标准化: Standard Libraries Graph-Learn: 分布式图算法库 标准化: Standard Solutions Continuous Optimization: 多路召回 曝光/状态过滤 粗排/精排 策略[类目打散、流量控制、…] 实时采集后端日志 PAI-REC 配置中心 AB实验 实验工具 拉取配置 监控报警 Prometheus Grafana 读取metric 消息队列(datahub/kafka) PAI-REC平台 自动化降级 负载均衡 灰度发布 超时控制 平台支持 日志SLS 在线存储 Hologres/OTS Intelligence) • 一键部署、弹性扩缩 • 多框架、多语言 • 推理优化Blade • 多维度监控+报警 • 自定义镜像 • 全托管+半托管 • 分布式训练优化 • 超大资源池 智能标注 可视化建模(Designer) 分布式训练(DLC) 在线服务(EAS) 生态市场 开发者工具 • CLI • PAIFlow • OpenAPI AI能力 体验中心 开源 PAI平台(Platform0 码力 | 40 页 | 8.51 MB | 1 年前3
共 48 条
- 1
- 2
- 3
- 4
- 5













