【PyTorch深度学习-龙龙老师】-测试版202112在本书中编写时,很多英文词汇尚无法在业界找到一个共识翻译名,因此作者备注翻译 的英文原文,供读者参考,同时也方便读者日后阅读相关英文文献时,不至于感到陌生。 尽管每天都有深度学习相关算法论文的发布,但是作者相信,深度学习的核心思想和基 础理论是共通的。本书已尽可能地涵盖其中基础、主流并且前沿的算法知识,但是仍然有很 多算法无法涵盖,读者学习完本书后,可以自行搜索相关方向的研究论文或资料,进一步学 进行二次撰写,代码部分完全基于 PyTorch 进行实现。考虑到本人能力有限、行文仓促,可 以预见地,本书会存在部分语句表达不准确、部分素材尚未创作完成、部分参考引用未能及 时补充、甚至一些错误出现,因此本书以开源、免费地方式发布,希望一方面能够帮助初学 者快速上手深度学习算法,另一方面也能汇聚众多行业专家们的力量,修正测试版中的谬误 之处,让本书变得更为完善。 本书虽然免费开放电子版,供个人学习使用,但是未经许可,不能用于任何个人或者企 的。 怎么实现人工智能是一个非常广袤的问题。人工智能的发展主要经历了三个阶段,每 个阶段都代表了人们从不同的角度尝试实现人工智能的探索足迹。早期,人们试图通过总 结、归纳出一些逻辑规则,并将逻辑规则以计算机程序的方式实现,来开发出智能系统。 但是这种显式的规则往往过于简单,并且很难表达复杂、抽象的概念和规则。这一阶段被 称为推理期。 1970 年代,科学家们尝试通过知识库加推理的方式解决人工智能,通过构建庞大复杂0 码力 | 439 页 | 29.91 MB | 1 年前3
Keras: 基于 Python 的深度学习库中 你的 Keras 模型可以基于不同的深度学习后端开发。重要的是,任何仅利用内置层构建的 Keras 模型,都可以在所有这些后端中移植:用一种后端训练模型,再将它载入另一种后端中(比 如为了发布)。支持的后端有: • 谷歌的 TensorFlow 后端 • 微软的 CNTK 后端 • Theano 后端 亚马逊也正在为 Keras 开发 MXNet 后端。 如此一来,你的 Keras 来考虑下面的模型。我们试图预测 Twitter 上的一条新闻标题有多少转发和点赞数。模型的 主要输入将是新闻标题本身,即一系列词语,但是为了增添趣味,我们的模型还添加了其他的 辅助输入来接收额外的数据,例如新闻标题的发布的时间等。该模型也将通过两个损失函数进 行监督学习。较早地在模型中使用主损失函数,是深度学习模型的一个良好正则方法。 模型结构如下图所示: 让我们用函数式 API 来实现它。 主要输入接收新 建议条件允许的情况下选择一个尽可 能大的 batch,(因为较大的 batch 通常评估/预测的速度会更快)。 • Epoch: 轮次,通常被定义为「在整个数据集上的一轮迭代」,用于训练的不同的阶段,这 有利于记录和定期评估。 • 当在 Keras 模型的 fit 方法中使用 evaluation_data 或 evaluation_split 时,评估将在 每个 epoch 结束时运行。0 码力 | 257 页 | 1.19 MB | 1 年前3
机器学习课程-温州大学-13深度学习-Transformer会变转化为一个包含向量K(键 向量)和V(值向量)的注意力 向量集 。这些向量将被每个解 码器用于自身的“编码-解码注 意力层”,而这些层可以帮助 解码器关注输入序列哪些位置 合适: 在完成编码阶段后,则开始解码阶段。解码 阶段的每个步骤都会输出一个输出序列(在 这个例子里,是英语翻译的句子)的元素 39 2.Transformer的工作流程 最终的线性变换和Softmax层 解码组件最后会输出一个实数向量。我们如何把 BERT 48 4.BERT NLP 预训练模型的发展 语言模型 word2vec glove fasttext elmo openAI-GPT BERT 词嵌入阶段 预训练模型阶段 2003年 Bengio 2013年 Mikolov 2014年 Jeffrey 2018年2月 Allen 2016年 facebook 2018年6月 openAI 说白了就是transformer的encoder部分 并不需要标签,有语料就能训练了 4.BERT Encoder BERT是一个算法模型,它的出现打破了大量的自然语言处 理任务的记录。在BERT的论文发布不久后,Google的研发 团队还开放了该模型的代码,并提供了一些在大量数据集 上预训练好的算法模型下载方式,这使得所有人都可以通 过它来构建一个涉及NLP的算法模型,节约了大量训练语 言模型所需的时间,精力,知识和资源0 码力 | 60 页 | 3.51 MB | 1 年前3
动手学深度学习 v2.0些代码示例分散在各种博客帖子和GitHub库中。但是,这些示例通常关注如何实现给定的方法,但忽略了为 什么做出某些算法决策的讨论。虽然一些互动资源已经零星地出现以解决特定主题。例如,在网站Distill1上 发布的引人入胜的博客帖子或个人博客,但它们仅覆盖深度学习中的选定主题,并且通常缺乏相关代码。另 一方面,虽然已经出现了几本教科书,其中最著名的是 (Goodfellow et al., 2016)(中文名《深度学习》),它 org/wiki/Ronald_‐Fisher 32 1. 引言 学中的应用做出了重大贡献。他的许多算法(如线性判别分析)和公式(如费舍尔信息矩阵)至今仍被频繁 使用。甚至,费舍尔在1936年发布的鸢尾花卉数据集,有时仍然被用来解读机器学习算法。他也是优生学的 倡导者,这提醒我们:数据科学在道德上存疑的使用,与其在工业和自然科学中的生产性使用一样,有着悠 远而持久的历史。 机器学习的第 解决方案。不需要记住整个文本序列(例如用于固定维度表示中的机器翻译),所有需要存储的都是指 向翻译过程的中间状态的指针。这大大提高了长序列的准确性,因为模型在开始生成新序列之前不再 需要记住整个序列。 • 多阶段设计。例如,存储器网络 (Sukhbaatar et al., 2015) 和神经编程器‐解释器 (Reed and De Freitas, 2015)。它们允许统计建模者描述用于推理的迭代方法。0 码力 | 797 页 | 29.45 MB | 1 年前3
《TensorFlow 2项目进阶实战》4-商品检测篇:使用RetinaNet瞄准你的货架商品商品检测篇:使用 RetinaNet 瞄准你的货架商品 扫码试看/订阅 《 TensorFlow 2项目进阶实战》视频课程 • 基础:目标检测问题定义与说明 • 基础:R-CNN系列二阶段模型综述 • 基础:YOLO系列一阶段模型概述 • 基础:RetinaNet 与 Facol Loss 带来了什么 • 应用:检测数据准备与标注 • 应用:划分检测训练集与测试集 • 应用:生成CSV 格式数据集与标注 arXiv:1905.05055. 深度目标检测网络 两阶段检测器(Two-stage Detectors) •R-CNN •Fast R-CNN •Faster R-CNN •R-FCN 一阶段检测器(One-stage Detectors) •YOLO v1 •YOLO v2 •YOLO v3 理论:R-CNN系列二阶段模型综述 R-CNN 开启CNN+目标检测的大门 R-CNN R-CNN Fast R-CNN Faster R-CNN 理论:YOLO系列一阶段模型概述 YOLO 与 RCNN 系列对比 YOLOv1:首个深度学习的一阶段检测器 YOLOv1:首个深度学习的一阶段检测器 YOLO输出向量:S x S x (B * 5 + C) YOLOv1:首个深度学习的一阶段检测器 YOLO检测网络包括24个卷积层和2个全连接层,如下图所示。 7 x 70 码力 | 67 页 | 21.59 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入Word2Vec 训练流程 在训练过程开始之前,我们预先处理我们正在训练模型的文本。在这一步中, 我们确定词汇量的大小(我们称之为vocab_size,比如说,将其视为10,000)以及 哪些词属于它。在训练阶段的开始,我们创建两个矩阵 - Embedding矩阵和Context 矩阵。这两个矩阵在我们的词汇表中嵌入了每个单词(这vocab_size是他们的维度 之一)。第二个维度是我们希望每次嵌入的时间长度(embedding_size- 同时对模型架构的更改最小。 图:GPT-1模型的核心手段是预训练(Pre-training) 无监督预训练 (Unsupervised pre-training) 不需要标注数据集,即大规 模自学阶段,在保证AI算力 充足的条件下,根据 attention机制进行自学 有监督微调 (Supervised fine-tunning) 微调,用来修正模型理解力。 即小规模指导过程,让AI在 解决和优 化的问题 ◼ GPT-2(2019.2)在GPT-1的基础上进行诸多改进,实现执行任务多样性,开始学习在不需要明确监督的情 况下执行数量惊人的任务 ✓ 在GPT-2阶段,OpenAI去掉了GPT-1阶段的有监督微调(fine-tuning),成为无监督模型。 ✓ 大模型GPT-2是一个1.5B参数的Transformer,在其相关论文中它在8个测试语言建模数据集中的7个数据集上实现了当时最先进的结果。0 码力 | 44 页 | 2.36 MB | 1 年前3
超大规模深度学习在美团的应用-余建平Entropy、etc • 评估指标 AUC、Loss、MAE、RMSE 支持外部eval工具,计算MAP、NDCG MLX的模型能力 • 提供离线、近线、在线全流程解决方案,各阶段提供扩展方案,降低算法迭代成本; • 支持Online Learning,提供从近线到在线的模型数据通路; • 提供从召回到排序全流程的模型解决方案,为业务提供最佳实践; • 提供系统的平台化工具,为用户提供易用的界面操作; 计算图框架Graph 计算逻辑抽象op,通过op组合形成模型结构 提供正向(forward)、反向(backward)、Loss的操作扩展 模型训练框架 • 模型可变计算路径 运行阶段 计算图裁剪 模型训练框架 • 应用场景——离线预计算 模型召回,ANN检索 粗排模型,降低线上计算量 • 分布式Sharding 模型分片存储,支持超大规模模型 key,特征数据在外存 • 分业务场景支持 轻量级predictor:仅支持模型的计算,特征由业务传入,无状态设计 自定义predictor: 提供业务抽象,支持业务自定义逻辑,插件化实现 • 逻辑阶段抽象,业务根据自身需求选择性实现 数据获取: 根据业务的自身逻辑获取特征原始数据 特征抽取: 将特征数据进行转换,转换成模型所需的格式,比如离散化 模型计算: 传入转换后的特征数据,调用模型计算引擎0 码力 | 41 页 | 5.96 MB | 1 年前3
机器学习课程-温州大学-09深度学习-目标检测t等)。 12 1.目标检测概述 2.基于深度学习的Two Stages目标检测框架 (准确度有优势) 此类算法将检测问题分为两个阶段, 第一阶段生成大量可能含有目标的候选区域(Region Proposal),并附 加大概的位置信息; 第二个阶段对其进行分类,选出包含目标的候选区域并对其位置进行 修正(常使用R-CNN、Fast R-CNN、Faster R-CNN等算法)。 13 13 1.目标检测概述 3.基于深度学习的One Stage目标检测框架 (速度有优势) 此类检测算法属于端到端(End-to-End),不需要生成大量候选区域 的阶段,而是将问题转化为回归(Regression)问题处理,使用完整 图像作为输入,直接在图像的多个位置上回归出该位置的目标边框 及所属类别(常使用YOLO、SSD、CornerNet等算法)。 14 1.目标检测概述0 码力 | 43 页 | 4.12 MB | 1 年前3
谭国富:深度学习在图像审核的应用识别率超过99% 和95% 1970 受限于 计算能 力,进 入第一 个寒冬 XCON专 家系统出 现,每年 节约4000 万美元 第1阶段:人工智能起步 期 (1956-1980s) 第2阶段:专家系统推 广 (1980s-1990s) 第3阶段:深度学习 (2000s-至今 ) 1997 IBM的 Deep Blue战 胜国际 象棋冠 军 2011 苹果的 Siri问世, 技术上不 xx-randroid-sdk.java xx-ios-arm-sdk.m xx-x86-sdk.cpp Rapidnet : 深度网络应用的解决方案 • 将深度网络SDK生成,分为解析,编译,运行三个阶段 • 一键生成深度学习SDK,一个模型到处应用 加快应用速度 - RapidNet Ncnn : 移动端前向网络开源框 https://github.com/tencent/ncnn • 针对移动端优化版本0 码力 | 32 页 | 5.17 MB | 1 年前3
机器学习课程-温州大学-05深度学习-深度学习实践2正则化不同的是,被应用的方 式不同,dropout也会有所不同,甚至更适用于不同的输入范围 keep-prob=1(没有dropout) keep-prob=0.5(常用取值,保留一半神经元) 在训练阶段使用,在测试阶段不使用! Dropout正则化 13 正则化 Early stopping代表提早停止训练神经网络 Early stopping的优点是,只运行 一次梯度下降,你可以找出?的较小0 码力 | 19 页 | 1.09 MB | 1 年前3
共 25 条
- 1
- 2
- 3













