动手学深度学习 v2.03:查询(自主提示)和键(非自主提示)之间的交互形成 了注意力汇聚;注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出。本节将介绍注意力汇聚的更 多细节,以便从宏观上了解注意力机制在实践中的运作方式。具体来说,1964年提出的Nadaraya‐Watson核 回归模型是一个简单但完整的例子,可以用于演示具有注意力机制的机器学习。 import torch from torch import {beta:.2f}') d2l.plt.xlabel('time') d2l.plt.legend(); 470 11. 优化算法 11.6.2 实际实验 让我们来看看动量法在实验中是如何运作的。为此,我们需要一个更加可扩展的实现。 从零开始实现 相比于小批量随机梯度下降,动量方法需要维护一组辅助变量,即速度。它与梯度以及优化问题的变量具有 相同的形状。在下面的实现中,我们称这些变量为states。 hyperparams['momentum'] * v + p.grad p[:] -= hyperparams['lr'] * v p.grad.data.zero_() 让我们看看它在实验中是如何运作的。 def train_momentum(lr, momentum, num_epochs=2): d2l.train_ch11(sgd_momentum, init_momentum_states(feature_dim)0 码力 | 797 页 | 29.45 MB | 1 年前3
超大规模深度学习在美团的应用-余建平美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 超大规模模型的有效性 • VC维理论 描述模型的学习能力:VC维越大模型越复杂,学习能力越强 机器学习能力 = 数据 + 特征 + 模型 • 数据 海量数据: 美团的亿级用户、千万级POI • 特征 大规模离散特征 > 小规模泛化特征0 码力 | 41 页 | 5.96 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112那么如何去选择模型的容量?统计学习理论给我们提供了一些思路,其中 VC 维度 (Vapnik-Chervonenkis 维度)是一个应用比较广泛的度量函数容量的方法。尽管这些方法给 机器学习提供了一定程度的理论保证,但是这些方法却很少应用到深度学习中去,一部分 原因是神经网络过于复杂,很难去确定网络结构背后的数学模型的 VC 维度。 尽管统计学习理论很难给出神经网络所需要的最小容量,但是却可以根据奥卡姆剃刀0 码力 | 439 页 | 29.91 MB | 1 年前3
共 3 条
- 1













