动手学深度学习 v2.0能够有效训练模型、克服数值计算缺陷并最大限度地利用现有硬件的工程方法。同时教授表述问题所需的批 判性思维技能、解决问题所需的数学知识,以及实现这些解决方案所需的软件工具,这是一个巨大的挑战。 在我们开始写这本书的时候,没有资源能够同时满足一些条件:(1)是最新的;(2)涵盖了现代机器学习的 所有领域,技术深度丰富;(3)在一本引人入胜的教科书中,人们可以在实践教程中找到干净的可运行代码, 并从中穿插高质量的阐述。我们 什么做出某些算法决策的讨论。虽然一些互动资源已经零星地出现以解决特定主题。例如,在网站Distill1上 发布的引人入胜的博客帖子或个人博客,但它们仅覆盖深度学习中的选定主题,并且通常缺乏相关代码。另 一方面,虽然已经出现了几本教科书,其中最著名的是 (Goodfellow et al., 2016)(中文名《深度学习》),它 对深度学习背后的概念进行了全面的调查,但这些资源并没有将这些概念的描述与这些概念的代码实现结合 概念的代码实现结合 起来。有时会让读者对如何实现它们一无所知。此外,太多的资源隐藏在商业课程提供商的付费壁垒后面。 我们着手创建的资源可以:(1)每个人都可以免费获得;(2)提供足够的技术深度,为真正成为一名应用机 器学习科学家提供起步;(3)包括可运行的代码,向读者展示如何解决实践中的问题;(4)允许我们和社区 的快速更新;(5)由一个论坛2作为补充,用于技术细节的互动讨论和回答问题。0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112造的机器人在复 杂地形行走、多智能体协作等任务上表现良好(图 1.19)。 自动驾驶(Autonomous Driving) 被认为是强化学习短期内能技术落地的一个应用方 向,很多公司投入大量资源在自动驾驶上,如百度、Uber、Google 等,其中百度的无人巴 士“阿波龙”已经在北京、雄安、武汉等地展开试运营;在长沙,市民已经可以免费乘坐 Apollo Robotaxi 无人出租车。图 1 3. 3 = ? ∙ 2 + ? 这也是初中阶段学习过的二元一次方程组,通过消元法可以轻松计算出?和?的解析解: ? = 1. , ? = . 。 可以看到,只需要观测两个不同数据点,就可完美求解单输入线性神经元模型的参 数。推广到多输入的线性神经元模型,对于?输入的线性神经元模型,只需要采样? + 1组 不同数据点即可,似乎线性神经元模型的估计问题可以得到完美解决。那么上述方法存在 型 的所有采样点上的预测值??(?) + ?与真实值?(?)之间的差的平方和作为总误差ℒ,即: ℒ = 1 ? ∑(??(?) + ? − ?(?)) 2 ? ?=1 然后搜索一组参数?∗和?∗使得ℒ最小,对应的直线就是要寻找的最优直线: ?∗,?∗ = arg min ?,? 1 ? ∑(??(?) + ? − ?(?)) 2 ? ?=1 其中?表示采样0 码力 | 439 页 | 29.91 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据多⼈多服务器使用混乱,计算资源如何划分?� • 没有GPUs集群资源管理和调度(内存、CPU、GPU、 端⼝),集群资源负载不均� • 训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死� • 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 • 集群资源的管理(目前支持CPU、内存,需要扩展GPU 资源管理)� 资源管理)� • 作业的统⼀管理、状态跟踪� • 资源组(Schedule Pool)的划分� • 作业进程的资源隔离� Yarn能解决什么问题:� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� download.thread.nums=10 #其他参数设置� 提交脚本示例(分布式版本):� TensorFlow on Yarn设计 Yarn首页作业信息:� 作业类型 集群GPU资源概况 作业分配到的GPU数量 TensorFlow on Yarn设计 TensorFlow作业AM页面:� Container所在的机器� 分配到的GPU物理设备号� tensorboard0 码力 | 32 页 | 4.06 MB | 1 年前3
机器学习课程-温州大学-13深度学习-Transformer那么拆开这个黑箱,我们可以看到它是由编码组件、解码组件和它们之间的 连接组成。 16 2.Transformer的工作流程 编码组件部分由一堆编 码器(encoder)构成 (论文中是将6个编码 器叠在一起)。解码组 件部分也是由相同数量 (与编码器对应)的解 码器(decoder)组成 的。 17 2.Transformer的工作流程 所有的编码器在结构上都是相同 的,但它们没有共享参数。每个 最后,由于我们处理的是矩阵,我们可以用一个公式 来计算自注意力层的输出。 26 2.Transformer的工作流程 “多头”注意力(“multi-headed” attention)的机制 一组Q,K,V得到了一组当前词的特征表达 类似卷积神经网络中的filter提取多种特征? 27 2.Transformer的工作流程 “多头”注意力(“multi-headed” attention)的机制 团队还开放了该模型的代码,并提供了一些在大量数据集 上预训练好的算法模型下载方式,这使得所有人都可以通 过它来构建一个涉及NLP的算法模型,节约了大量训练语 言模型所需的时间,精力,知识和资源 51 4.BERT BERT—模型结构 特点: 1.完全的双向, 每一层都是同时关乎上下文 2. transformer 可以对长句子有更强的特征抽取的能力 输入 词嵌入 段嵌入0 码力 | 60 页 | 3.51 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob联合概率和边缘概率密度函数 3.4 条件概率分布 3.5 贝叶斯定理 3.6 独立性 3.7 期望和协方差 4. 多个随机变量 4.1 基本性质 4.2 随机向量 4.3 多元高斯分布 5. 其他资源 概率论复习和参考 概率论是对不确定性的研究。通过这门课,我们将依靠概率论中的概念来推导机器学习算法。这篇笔记 试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂,并且涉及到“分析”的一个分支:测 是离散随机变量)时,表示与随机变量相关联的概率度量的更简单 的方法是直接指定随机变量可以假设的每个值的概率。特别地,概率质量函数(PMF)是函数 ,这样: 在离散随机变量的情况下,我们使用符号 表示随机变量 可能假设的一组可能值。例如,如果 是一个随机变量,表示十次投掷硬币中的正面数,那么 , , , , 。 性质: 2.3 概率密度函数 对于一些连续随机变量,累积分布函数 处可微。在这些情况下,我们将概率密度函数(PDF)定义 的独立随机扰动的累积;根据中心极限定理,独立随机变量的总和将趋向于“看起来像高斯”。 其次,高斯随机变量便于许多分析操作,因为实际中出现的许多涉及高斯分布的积分都有简单的封闭形 式解。我们将在本课程稍后遇到这种情况。 5. 其他资源 一本关于CS229所需概率水平的好教科书是谢尔顿·罗斯的《概率第一课》( A First Course on Probability by Sheldon Ross)。0 码力 | 12 页 | 1.17 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入这被称为连续词袋结构,并在word2vec论文 one of the word2vec papers 中进行过描述。 18 3.Word2Vec 负采样 计算的角度来看,SkipGram非常消耗资源:尤其是我们将在 数据集中为每个训练样本做一次(很可能数千万次)。我们 需要做一些事情来提高效率。 一种方法是将目标分成两个步骤: 1.生成高质量的单词嵌入(不要担心下一个单词预测)。 2 常见值)。 21 3.Word2Vec 训练流程 在训练过程开始时,我们用随机值初始化这些矩阵。然后我们 开始训练过程。在每个训练步骤中,我们采取一个正样本及其 相关的负样本。我们来看看我们的第一组: 22 3.Word2Vec 训练流程 现在我们有四个单词:输入单词not和输出/上下文单词:( thou实际邻 居),aaron,和taco(负样本)。我们继续查找它们的嵌入 - 对于输 入 务,尽管大量的未标记文本语料库非常丰富,但用于学习这些特定任务的标记数据却很少,这使得经过区分训练的模型很难充分执行。 同时,大多数深度学习方法需要大量手动标记的数据,这限制了它们在许多缺少注释资源的领域的适用性。 ✓ 在考虑以上局限性的前提下,GPT论文中证明,通过对未标记文本的不同语料库进行语言模型的生成性预训练,然后对每个特定任务 进行区分性微调,可以实现这些任务上的巨大收益。和之0 码力 | 44 页 | 2.36 MB | 1 年前3
Keras: 基于 Python 的深度学习库因为下面的层可以自动地推断尺寸)需要接收关于其输入尺寸的信息。有几种方法来做到这一 点: • 传递一个 input_shape 参数给第一层。它是一个表示尺寸的元组 (一个整数或 None 的元 组,其中 None 表示可能为任何正整数)。在 input_shape 中不包含数据的 batch 大小。 • 某些 2D 层,例如 Dense,支持通过参数 input_dim 指定输入尺寸,某些 3D 它沿着空间维度裁剪,即宽度和高度。 参数 • cropping: 整数,或 2 个整数的元组,或 2 个整数的 2 个元组。 • 如果为整数:将对宽度和高度应用相同的对称裁剪。 • 如 果 为 2 个 整 数 的 元 组: 解 释 为 对 高 度 和 宽 度 的 两 个 不 同 的 对 称 裁 剪 值: (symmetric_height_crop, symmetric_width_crop)。 • 如果为 2 个整数的 个不同的对称裁剪值: (symmetric_dim1_crop, symmetric_dim2_crop, symmetric_dim3_crop)。 • 如 果 为 2 个 整 数 的 3 个 元 组: 解 释 为 ((left_dim1_crop, right_dim1_crop), (left_dim2_crop, right_dim2_crop), (left_dim3_crop, right_dim3_crop))。0 码力 | 257 页 | 1.19 MB | 1 年前3
机器学习课程-温州大学-线性代数回顾02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 3 1.行列式 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 4 (1) 设? = ??? ?×?,则:??1??1 + ??2??2 + ⋯ + ?????? = ቊ ? 个特征值,则 |?| = ς?=1 ? ?? 6 2.矩阵 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 7 ? × ?个数???排成?行?列的表格 ?11 ?12 ⋯ ?1? ?21 ?22 ⋯ ?2? ⋯ ⋯ ⋯ ⋯ ⋯ ??1 ??2 ⋯ ??? 称为矩阵, 简记为?,或者 ??? 均为可逆方阵。 2.矩阵 14 2.矩阵 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 15 3.向量 1.有关向量组的线性表示 (1) ?1, ?2, ⋯ , ??线性相关 ⇔至少有一个向量可以用其余向量线性表示。 (2) ?1, ?2, ⋯ , ??线性无关,?1, ?2, ⋯ , ??,0 码力 | 39 页 | 856.89 KB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理(国内教材)( ?−1 ? −?−1??−1 ?−1); (? ? ? ?) −1 = ( ? ?−1 ?−1 ? ) 这里?,?均为可逆方阵。 向量 1.有关向量组的线性表示 (1) ?1, ?2, ⋯ , ??线性相关⇔至少有一个向量可以用其余向量线性表示。 (2) ?1, ?2, ⋯ , ??线性无关,?1, ?2,⋯ , ??,?线性相关⇔ ?可以由 ⋯ , ??唯一线性表 示。 (3) ?可以由?1, ?2, ⋯ , ??线性表示 ⇔ ?(?1, ?2, ⋯ , ??) = ?(?1,?2, ⋯ , ??, ?) 。 2.有关向量组的线性相关性 (1)部分相关,整体相关;整体无关,部分无关. (2) ① ?个?维向量 ?1, ?2 ⋯ ??线性无关⇔ |[?1?2 ⋯ ??]| ≠ 0, ?个?维向量?1, ?2 ⋯ ⇔ |[?1, ?2, ⋯ , ??]| = 0 。 ② ? + 1个?维向量线性相关。 ③ 若?1, ?2 ⋯ ??线性无关,则添加分量后仍线性无关;或一组向量线性相关,去掉某些分 量后仍线性相关。 3.有关向量组的线性表示 (1) ?1, ?2, ⋯ , ??线性相关⇔至少有一个向量可以用其余向量线性表示。 (2) ?1, ?2, ⋯ , ??线性无关,?1, ?2,⋯0 码力 | 31 页 | 1.18 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra二次函数和线性函数的梯度和黑塞矩阵 4.4 最小二乘法 4.5 行列式的梯度 4.6 特征值优化 线性代数复习和参考 1. 基础概念和符号 线性代数提供了一种紧凑地表示和操作线性方程组的方法。 例如,以下方程组: 这是两个方程和两个变量,正如你从高中代数中所知,你可以找到 和 的唯一解(除非方程以某 种方式退化,例如,如果第二个方程只是第一个的倍数,但在上面的情况下,实际上只有一个唯一 的元素给出。 2.3 矩阵-矩阵乘法 有了这些知识,我们现在可以看看四种不同的(形式不同,但结果是相同的)矩阵-矩阵乘法:也就是 本节开头所定义的 的乘法。 首先,我们可以将矩阵 - 矩阵乘法视为一组向量-向量乘积。 从定义中可以得出:最明显的观点是 的 , 元素等于 的第 行和 的的 列的内积。如下面的公式所示: 这里的 , , , , 这里的 , , , ,所以它们可以计算内积。 ,这时 是求外积的和。公式如下: 换句话说, 等于所有的 的第 列和 第 行的外积的和。因此,在这种情况下, 和 , 外积 的维度是 ,与 的维度一致。 其次,我们还可以将矩阵 - 矩阵乘法视为一组矩阵向量积。如果我们把 用列表示,我们可以将 的列 视为 和 的列的矩阵向量积。公式如下: 这里 的第 列由矩阵向量乘积给出,右边的向量为 。 这些矩阵向量乘积可以使用前一小节中 给出的两个观点来解释。0 码力 | 19 页 | 1.66 MB | 1 年前3
共 43 条
- 1
- 2
- 3
- 4
- 5













