【PyTorch深度学习-龙龙老师】-测试版202112定义为向量( ?? ?? , ?? ??)。这里通过一个具体的函数?(?, ?) = −(cos2 ? + cos2 ?)2来观察梯度的性质,如图 2.6 所示,图中??平面的红色箭头的长度表 示梯度向量∇?的模,箭头的方向表示梯度向量∇?的方向。可以看到,箭头的方向总是指向 当前位置函数值增速最大的方向,函数曲面越陡峭,箭头的长度也就越长,梯度的模也越 预览版202112 2.2 优化方法 6 章详细介绍交叉熵损失函数,这里 仍然使用均方误差损失函数来求解手写数字识别问题(机器学习的做法是多种多样的,不要 迷信某种做法,理解了算法思想即可随意变通)。对于?个样本的均方误差损失函数可以表 达为: ℒ( ,?) = 1 ? ∑ ∑ (?? (?) − ?? (?)) 2 10 ?=1 ? ?=1 只需要采用梯度下降算法来优化损失函数得到?和?的最优解,然后再利用求得的模型去 循环迭代多次后,就可以利用学好的模型??去预测未知的图片的类别概率分布。模型的测 试部分暂不讨论。 手写数字图片 MNIST 数据集的训练误差曲线如图 3.11 所示,由于 3 层的神经网络表 达能力较强,手写数字图片识别任务相对简单,误差值可以较快速、稳定地下降,其中, 把对数据集的所有样本迭代一遍叫作一个 Epoch,通常在间隔数个 Epoch 后测试模型的准 确率等指标,方便监控模型的训练效果。0 码力 | 439 页 | 29.91 MB | 1 年前3
动手学深度学习 v2.0用程序在各种情况下进行的操作。 为了完善业务逻辑,开发人员必须细致地考虑应用程序所有可能遇到的边界情况,并为这些边界情况设计合 适的规则。当买家单击将商品添加到购物车时,应用程序会向购物车数据库表中添加一个条目,将该用户ID与 商品ID关联起来。虽然一次编写出完美应用程序的可能性微乎其微,但在大多数情况下,开发人员可以从上 述的业务逻辑出发,编写出符合业务逻辑的应用程序,并不断测试直到满足用户的需求。根据业务逻辑设计 搜索为例,目标不是简单的“查询(query)‐网页(page)”分类,而是在海量搜索结果中找到用户最需要的 那部分。搜索结果的排序也十分重要,学习算法需要输出有序的元素子集。换句话说,如果要求我们输出字 母表中的前5个字母,返回“A、B、C、D、E”和“C、A、B、E、D”是不同的。即使结果集是相同的,集内 的顺序有时却很重要。 该问题的一种可能的解决方案:首先为集合中的每个元素分配相应的相关性分数,然后检索评级最高的元素。 规模算力唾手可得。 这一点在 表1.5.1 中得到了说明。 20 https://en.wikipedia.org/wiki/Claude_Shannon 21 https://en.wikipedia.org/wiki/Alan_Turing 22 https://en.wikipedia.org/wiki/Donald_O._Hebb 1.5. 深度学习的发展 33 表1.5.1: 数据集vs计算机内存和计算能力0 码力 | 797 页 | 29.45 MB | 1 年前3
Keras: 基于 Python 的深度学习库。 模型结构如下图所示: 让我们用函数式 API 来实现它。 主要输入接收新闻标题本身,即一个整数序列(每个整数编码一个词)。这些整数在 1 到 10,000 之间(10,000 个词的词汇表),且序列长度为 100 个词。 from keras.layers import Input, Embedding, LSTM, Dense from keras.models import Model digit_b], out) 3.2.7.4 视觉问答模型 当被问及关于图片的自然语言问题时,该模型可以选择正确的单词作答。 它通过将问题和图像编码成向量,然后连接两者,在上面训练一个逻辑回归,来从词汇表 中挑选一个可能的单词作答。 from keras.layers import Conv2D, MaxPooling2D, Flatten from keras.layers import Input 数组。如果从本地框架张量馈送(例如 TensorFlow 数据张量)数据,x 可 以是 None(默认)。 • y: 目标(标签)数据的 Numpy 数组(如果模型只有一个输出),或者是 Numpy 数组的列 表(如果模型有多个输出)。如果模型中的输出层被命名,你也可以传递一个字典,将输 出层名称映射到 Numpy 数组。如果从本地框架张量馈送(例如 TensorFlow 数据张量)数 据,y 可以是 None(默认)。0 码力 | 257 页 | 1.19 MB | 1 年前3
机器学习课程-温州大学-13深度学习-Transformersentence的缩写形式 输出词汇 我们模型的输出词表在我们训练之前的预处理流程中就被设定好。 42 3.Transformer的训练 一旦我们定义了我们的输出词 表,我们可以使用一个相同宽 度的向量来表示我们词汇表中 的每一个单词。这也被认为是 一个one-hot 编码。所以,我们 可以用下面这个向量来表示单 词“am”: 43 3.Transformer的训练 损失函数 比如说我们正在训练模型, 44 3.Transformer的训练 集束搜索(Bean Search) 贪婪算法只会挑出最可能的那一个单 词,然后继续。而集束搜索则会考虑 多个选择,集束搜索算法会有一个参 数B,叫做集束宽(beam width)。在 这个例子中B=3,这样就意味着集束 搜索不会只考虑一个可能结果,而是 一次会考虑3个,比如对第一个单词有 不同选择的可能性,最后找到in、jane 、september,是英语输出的第一个单0 码力 | 60 页 | 3.51 MB | 1 年前3
pytorch 入门笔记-03- 神经网络包都只支持小批量样本,而不支持单个样本。 例如,nn.Conv2d 接受一个4维的张量,每一维分别是 sSamples * nChannels * Height * Width( 本数 * 通道数 * 高 * 宽)。如果你有单个样本,只需使用 input.unsqueeze(0) 来添加其它的维数 在继续之前,我们回顾一下到目前为止用到的类。 回顾: ● torch.Tensor:一个用过自动调用backward()0 码力 | 7 页 | 370.53 KB | 1 年前3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) 打平的具体做法 标准Transformer的输入是1D序列,对于图像? ∈ ??∗?∗?, 将其reshape 成 ?? ∈ ??∗ ?2⋅? 的序列。 P是patch的大小; (H,W)是图像的高和宽;C是图像通道数;? = ??/?2, 即patch的个数。 2.模型介绍 24 3.模型训练策略 03 模型训练策略 01 背景知识 02 模型介绍 04 模型的缺点与改进0 码力 | 34 页 | 2.78 MB | 1 年前3
谭国富:深度学习在图像审核的应用16nm FinFET 12nm FinFET Core Clock(<=) 1621MHz 1531MHz 1450MHz GPU显存 显存类型 GDDR5X GDDR5 HBM2 显存位宽 384-bit 384-bit 4096-bit 显存带宽 480 GB/s 346 GB/s 900GB/s 显存容量 12GB 24GB 16G 性能 FP32 (TFLOPS) 10.60 码力 | 32 页 | 5.17 MB | 1 年前3
机器学习课程-温州大学-时间序列总结的别名表示,比如“D”是“day”的别名 。 • 频率是由一个基础频率和一个乘数组成的 ,比如,“5D”表示每5天。 26 时间序列的频率、偏移量 通过一张表来列举时 间序列的基础频率。 27 时间序列的频率、偏移量 通过一张表来列举时 间序列的基础频率。 28 时间序列的频率、偏移量 每个基础频率还可以跟着一个被称为日期偏 移量的DateOffset对象。如果想要创建一个 DateOffset对象,则需要先导入pd mean() how参数不再建议使用,而是采用新的方式 “.resample(...).mean()”求平均值。 44 重采样方法(resample) 如果重采样时传入closed参数为left,则表 示采样的范围是左闭右开型的。 time_ser.resample('W-MON', closed='left').mean() 换句话说位于某范围的时间序列中,开头的时间戳 包含在内,结尾的时间戳是不包含在内的。0 码力 | 67 页 | 1.30 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言2 (14) ? = arccot? 则:?′ = − 1 1+?2 (15) ? = ?ℎ? 则:?′ = ?ℎ?,(16) ? = ?ℎ? 则:?′ = ?ℎ? 高等数学-基本导数与微分表 35 (1) ? ± ? ′ = ?′ ± ?′ (2) (??)′ = ??′ + ??′ d(??) = ?d? + ?d? (3) ( ? ?)′ = ??′−??′ ?2 (? read_sql() | 从 SQL 表 或 数 据 库 读 取 pd.read_json() | 从JSON格式的URL或文件读取 pd.read_clipboard() | 从剪切板读取 将DataFrame写入⽂件 df.to_csv() | 写入CSV文件 df.to_excel() | 写入Excel文件 df.to_sql() | 写入SQL表或数据库 df.to_json()0 码力 | 78 页 | 3.69 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言2 (14) ? = arccot? 则:?′ = − 1 1+?2 (15) ? = ?ℎ? 则:?′ = ?ℎ?,(16) ? = ?ℎ? 则:?′ = ?ℎ? 高等数学-基本导数与微分表 36 (1) ? ± ? ′ = ?′ ± ?′ (2) (??)′ = ??′ + ??′ d(??) = ?d? + ?d? (3) ( ? ?)′ = ??′−??′ ?2 (? read_sql() | 从 SQL 表 或 数 据 库 读 取 pd.read_json() | 从JSON格式的URL或文件读取 pd.read_clipboard() | 从剪切板读取 将DataFrame写入⽂件 df.to_csv() | 写入CSV文件 df.to_excel() | 写入Excel文件 df.to_sql() | 写入SQL表或数据库 df.to_json()0 码力 | 80 页 | 5.38 MB | 1 年前3
共 25 条
- 1
- 2
- 3













