资源组 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

动手学深度学习 v2.0

能够有效训练模型、克服数值计算缺陷并最大限度地利用现有硬件的工程方法。同时教授表述问题所需的批判性思维技能、解决问题所需的数学知识，以及实现这些解决方案所需的软件工具，这是一个巨大的挑战。在我们开始写这本书的时候，没有资源能够同时满足一些条件：（1）是最新的；（2）涵盖了现代机器学习的所有领域，技术深度丰富；（3）在一本引人入胜的教科书中，人们可以在实践教程中找到干净的可运行代码，并从中穿插高质量的阐述。我们什么做出某些算法决策的讨论。虽然一些互动资源已经零星地出现以解决特定主题。例如，在网站Distill1上发布的引人入胜的博客帖子或个人博客，但它们仅覆盖深度学习中的选定主题，并且通常缺乏相关代码。另一方面，虽然已经出现了几本教科书，其中最著名的是 (Goodfellow et al., 2016)（中文名《深度学习》），它对深度学习背后的概念进行了全面的调查，但这些资源并没有将这些概念的描述与这些概念的代码实现结合概念的代码实现结合起来。有时会让读者对如何实现它们一无所知。此外，太多的资源隐藏在商业课程提供商的付费壁垒后面。我们着手创建的资源可以：（1）每个人都可以免费获得；（2）提供足够的技术深度，为真正成为一名应用机器学习科学家提供起步；（3）包括可运行的代码，向读者展示如何解决实践中的问题；（4）允许我们和社区的快速更新;（5）由一个论坛2作为补充，用于技术细节的互动讨论和回答问题。

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

造的机器人在复杂地形行走、多智能体协作等任务上表现良好(图 1.19)。自动驾驶(Autonomous Driving) 被认为是强化学习短期内能技术落地的一个应用方向，很多公司投入大量资源在自动驾驶上，如百度、Uber、Google 等，其中百度的无人巴士“阿波龙”已经在北京、雄安、武汉等地展开试运营；在长沙，市民已经可以免费乘坐 Apollo Robotaxi 无人出租车。图 1 3. 3 = ? ∙ 2 + ? 这也是初中阶段学习过的二元一次方程组，通过消元法可以轻松计算出?和?的解析解： ? = 1. , ? = . 。可以看到，只需要观测两个不同数据点，就可完美求解单输入线性神经元模型的参数。推广到多输入的线性神经元模型，对于?输入的线性神经元模型，只需要采样? + 1组不同数据点即可，似乎线性神经元模型的估计问题可以得到完美解决。那么上述方法存在型的所有采样点上的预测值??(?) + ?与真实值?(?)之间的差的平方和作为总误差ℒ，即： ℒ = 1 ? ∑(??(?) + ? − ?(?)) 2 ? ?=1 然后搜索一组参数?∗和?∗使得ℒ最小，对应的直线就是要寻找的最优直线： ?∗,?∗ = arg min ?,? 1 ? ∑(??(?) + ? − ?(?)) 2 ? ?=1 其中?表示采样

0 码力 | 439 页 | 29.91 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

多⼈多服务器使用混乱，计算资源如何划分？� • 没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 • 集群资源的管理（目前支持CPU、内存，需要扩展GPU 资源管理）� 资源管理）� • 作业的统⼀管理、状态跟踪� • 资源组（Schedule Pool）的划分� • 作业进程的资源隔离� Yarn能解决什么问题：� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� download.thread.nums=10 #其他参数设置� 提交脚本示例（分布式版本）：� TensorFlow on Yarn设计 Yarn首页作业信息：� 作业类型集群GPU资源概况作业分配到的GPU数量 TensorFlow on Yarn设计 TensorFlow作业AM页面：� Container所在的机器� 分配到的GPU物理设备号� tensorboard

0 码力 | 32 页 | 4.06 MB | 1 年前
3
机器学习课程-温州大学-13深度学习-Transformer

那么拆开这个黑箱，我们可以看到它是由编码组件、解码组件和它们之间的连接组成。 16 2.Transformer的工作流程编码组件部分由一堆编码器（encoder）构成（论文中是将6个编码器叠在一起）。解码组件部分也是由相同数量（与编码器对应）的解码器（decoder）组成的。 17 2.Transformer的工作流程所有的编码器在结构上都是相同的，但它们没有共享参数。每个最后，由于我们处理的是矩阵，我们可以用一个公式来计算自注意力层的输出。 26 2.Transformer的工作流程 “多头”注意力（“multi-headed” attention）的机制一组Q,K,V得到了一组当前词的特征表达类似卷积神经网络中的filter提取多种特征？ 27 2.Transformer的工作流程 “多头”注意力（“multi-headed” attention）的机制团队还开放了该模型的代码，并提供了一些在大量数据集上预训练好的算法模型下载方式，这使得所有人都可以通过它来构建一个涉及NLP的算法模型，节约了大量训练语言模型所需的时间，精力，知识和资源 51 4.BERT BERT—模型结构特点： 1.完全的双向，每一层都是同时关乎上下文 2. transformer 可以对长句子有更强的特征抽取的能力输入词嵌入段嵌入

0 码力 | 60 页 | 3.51 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob

联合概率和边缘概率密度函数 3.4 条件概率分布 3.5 贝叶斯定理 3.6 独立性 3.7 期望和协方差 4. 多个随机变量 4.1 基本性质 4.2 随机向量 4.3 多元高斯分布 5. 其他资源概率论复习和参考概率论是对不确定性的研究。通过这门课，我们将依靠概率论中的概念来推导机器学习算法。这篇笔记试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂，并且涉及到“分析”的一个分支：测是离散随机变量)时，表示与随机变量相关联的概率度量的更简单的方法是直接指定随机变量可以假设的每个值的概率。特别地，概率质量函数(PMF)是函数，这样：在离散随机变量的情况下，我们使用符号表示随机变量可能假设的一组可能值。例如，如果是一个随机变量，表示十次投掷硬币中的正面数，那么，，，，。性质： 2.3 概率密度函数对于一些连续随机变量，累积分布函数处可微。在这些情况下，我们将概率密度函数(PDF)定义的独立随机扰动的累积；根据中心极限定理，独立随机变量的总和将趋向于“看起来像高斯”。其次，高斯随机变量便于许多分析操作，因为实际中出现的许多涉及高斯分布的积分都有简单的封闭形式解。我们将在本课程稍后遇到这种情况。 5. 其他资源一本关于CS229所需概率水平的好教科书是谢尔顿·罗斯的《概率第一课》( A First Course on Probability by Sheldon Ross)。

0 码力 | 12 页 | 1.17 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

这被称为连续词袋结构，并在word2vec论文 one of the word2vec papers 中进行过描述。 18 3.Word2Vec 负采样计算的角度来看，SkipGram非常消耗资源：尤其是我们将在数据集中为每个训练样本做一次（很可能数千万次）。我们需要做一些事情来提高效率。一种方法是将目标分成两个步骤： 1.生成高质量的单词嵌入（不要担心下一个单词预测）。 2 常见值）。 21 3.Word2Vec 训练流程在训练过程开始时，我们用随机值初始化这些矩阵。然后我们开始训练过程。在每个训练步骤中，我们采取一个正样本及其相关的负样本。我们来看看我们的第一组： 22 3.Word2Vec 训练流程现在我们有四个单词：输入单词not和输出/上下文单词:( thou实际邻居）,aaron，和taco（负样本）。我们继续查找它们的嵌入 - 对于输入务，尽管大量的未标记文本语料库非常丰富，但用于学习这些特定任务的标记数据却很少，这使得经过区分训练的模型很难充分执行。同时，大多数深度学习方法需要大量手动标记的数据，这限制了它们在许多缺少注释资源的领域的适用性。 ✓ 在考虑以上局限性的前提下，GPT论文中证明，通过对未标记文本的不同语料库进行语言模型的生成性预训练，然后对每个特定任务进行区分性微调，可以实现这些任务上的巨大收益。和之

0 码力 | 44 页 | 2.36 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

因为下面的层可以自动地推断尺寸）需要接收关于其输入尺寸的信息。有几种方法来做到这一点： • 传递一个 input_shape 参数给第一层。它是一个表示尺寸的元组 (一个整数或 None 的元组，其中 None 表示可能为任何正整数)。在 input_shape 中不包含数据的 batch 大小。 • 某些 2D 层，例如 Dense，支持通过参数 input_dim 指定输入尺寸，某些 3D 它沿着空间维度裁剪，即宽度和高度。参数 • cropping: 整数，或 2 个整数的元组，或 2 个整数的 2 个元组。 • 如果为整数：将对宽度和高度应用相同的对称裁剪。 • 如果为 2 个整数的元组：解释为对高度和宽度的两个不同的对称裁剪值： (symmetric_height_crop, symmetric_width_crop)。 • 如果为 2 个整数的个不同的对称裁剪值： (symmetric_dim1_crop, symmetric_dim2_crop, symmetric_dim3_crop)。 • 如果为 2 个整数的 3 个元组：解释为 ((left_dim1_crop, right_dim1_crop), (left_dim2_crop, right_dim2_crop), (left_dim3_crop, right_dim3_crop))。

0 码力 | 257 页 | 1.19 MB | 1 年前
3
机器学习课程-温州大学-线性代数回顾

02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 3 1.行列式 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 4 (1) 设? = ??? ?×?，则：??1??1 + ??2??2 + ⋯ + ?????? = ቊ ? 个特征值，则 |?| = ς?=1 ? ?? 6 2.矩阵 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 7 ? × ?个数???排成?行?列的表格 ?11 ?12 ⋯ ?1? ?21 ?22 ⋯ ?2? ⋯ ⋯ ⋯ ⋯ ⋯ ??1 ??2 ⋯ ??? 称为矩阵，简记为?，或者 ??? 均为可逆方阵。 2.矩阵 14 2.矩阵 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 15 3.向量 1.有关向量组的线性表示 (1) ?1, ?2, ⋯ , ??线性相关 ⇔至少有一个向量可以用其余向量线性表示。 (2) ?1, ?2, ⋯ , ??线性无关，?1, ?2, ⋯ , ??，

0 码力 | 39 页 | 856.89 KB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理（国内教材）

( ?−1 ? −?−1??−1 ?−1)； (? ? ? ?) −1 = ( ? ?−1 ?−1 ? ) 这里?，?均为可逆方阵。向量 1.有关向量组的线性表示 (1) ?1, ?2, ⋯ , ??线性相关⇔至少有一个向量可以用其余向量线性表示。 (2) ?1, ?2, ⋯ , ??线性无关，?1, ?2,⋯ , ??，?线性相关⇔ ?可以由 ⋯ , ??唯一线性表示。 (3) ?可以由?1, ?2, ⋯ , ??线性表示 ⇔ ?(?1, ?2, ⋯ , ??) = ?(?1,?2, ⋯ , ??, ?) 。 2.有关向量组的线性相关性 (1)部分相关，整体相关；整体无关，部分无关. (2) ① ?个?维向量 ?1, ?2 ⋯ ??线性无关⇔ |[?1?2 ⋯ ??]| ≠ 0， ?个?维向量?1, ?2 ⋯ ⇔ |[?1, ?2, ⋯ , ??]| = 0 。 ② ? + 1个?维向量线性相关。 ③ 若?1, ?2 ⋯ ??线性无关，则添加分量后仍线性无关；或一组向量线性相关，去掉某些分量后仍线性相关。 3.有关向量组的线性表示 (1) ?1, ?2, ⋯ , ??线性相关⇔至少有一个向量可以用其余向量线性表示。 (2) ?1, ?2, ⋯ , ??线性无关，?1, ?2,⋯

0 码力 | 31 页 | 1.18 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra

二次函数和线性函数的梯度和黑塞矩阵 4.4 最小二乘法 4.5 行列式的梯度 4.6 特征值优化线性代数复习和参考 1. 基础概念和符号线性代数提供了一种紧凑地表示和操作线性方程组的方法。例如，以下方程组：这是两个方程和两个变量，正如你从高中代数中所知，你可以找到和的唯一解（除非方程以某种方式退化，例如，如果第二个方程只是第一个的倍数，但在上面的情况下，实际上只有一个唯一的元素给出。 2.3 矩阵-矩阵乘法有了这些知识，我们现在可以看看四种不同的（形式不同，但结果是相同的）矩阵-矩阵乘法：也就是本节开头所定义的的乘法。首先，我们可以将矩阵 - 矩阵乘法视为一组向量-向量乘积。从定义中可以得出：最明显的观点是的，元素等于的第行和的的列的内积。如下面的公式所示：这里的，，，，这里的，，，，所以它们可以计算内积。，这时是求外积的和。公式如下：换句话说，等于所有的的第列和第行的外积的和。因此，在这种情况下，和，外积的维度是，与的维度一致。其次，我们还可以将矩阵 - 矩阵乘法视为一组矩阵向量积。如果我们把用列表示，我们可以将的列视为和的列的矩阵向量积。公式如下：这里的第列由矩阵向量乘积给出，右边的向量为。这些矩阵向量乘积可以使用前一小节中给出的两个观点来解释。

0 码力 | 19 页 | 1.66 MB | 1 年前
3

共 43 条前往

页

分类

语言

格式

动手学深度学习 v2.0

【PyTorch深度学习-龙龙老师】-测试版202112

TensorFlow on Yarn：深度学习遇上大数据

机器学习课程-温州大学-13深度学习-Transformer

机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob

机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

Keras: 基于 Python 的深度学习库

机器学习课程-温州大学-线性代数回顾

机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理（国内教材）

机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra