RNN原理https://weberna.github.io/blog/2017/11/15/LSTM-Vanishing-Gradients.html ℎ0, ??ℎ, ?ℎℎ ? = ???ℎ(?) 下一课时 RNN Layer使用 Thank You.0 码力 | 12 页 | 705.66 KB | 1 年前3
RNN训练难题RNN训练难题 主讲人:龙良曲 Simple Yet? ▪ Nothing is straightforward. Gradient Exploding and Gradient Vanishing Why https://weberna.github.io/blog/2017/11/15/LSTM-Vanishing-Gradients.html Step 1. Gradient Exploding pdf Gradient Clipping Step 2. Gradient Vanishing: 1997 http://harinisuresh.com/2016/10/09/lstms/ RNN V.S. LSTM Gradient Visualization https://imgur.com/gallery/vaNahKE 下一课时 LSTM Thank You.0 码力 | 12 页 | 967.80 KB | 1 年前3
RNN-Layer使用RNN Layer使用 主讲人:龙良曲 Folded model feature ??@??ℎ + ℎ?@?ℎℎ [0,0,0 … ] x: ??? ???, ????ℎ, ??????? ??? ????ℎ, ??????? ??? @[ℎ????? ???, ??????? ???]?+ ????ℎ, ℎ????? ??? @ ℎ????? ???, ℎ????? ??? ? dim, hidden dim nn.RNN ▪ __init__ nn.RNN ▪ out, ht = forward(x, h0) ▪ x: [seq len, b, word vec] ▪ h0/ht: [num layers, b, h dim] ▪ out: [seq len, b, h dim] Single layer RNN feature ??@??ℎ 1 + + ℎ? 1@?ℎℎ 1 [0,0,0 … ] ℎ? 1@??ℎ 2 + ℎ? 2@?ℎℎ 2 [0,0,0 … ] 2 layer RNN [T, b, h_dim], [layers, b, h_dim] nn.RNNCell ▪ __init__ nn.RNNCell ▪ ht = rnncell(xt, ht_1) ▪ xt: [b, word vec] ▪ ht_1/ht:0 码力 | 15 页 | 883.60 KB | 1 年前3
机器学习课程-温州大学-11深度学习-序列模型01 序列模型概述 02 循环神经网络(RNN) 05 深层循环神经网络 3 03 长短期记忆(LSTM) 04 双向循环神经网络 1.序列模型概述 01 序列模型概述 02 循环神经网络(RNN) 05 深层循环神经网络 4 1.序列模型概述 循环神经网络(RNN)之类的模型在语音识别、自然语言处理和 其他领域中引起变革。 息 它是如何实现的? 7 03 长短期记忆(LSTM) 04 双向循环神经网络 2.循环神经网络(RNN) 01 序列模型概述 02 循环神经网络(RNN) 05 深层循环神经网络 8 2.循环神经网络(RNN) ?<1> = ?1(????<0> + ????<1> + ??) ̰? <1> = ?2(????<1> + ??) + ??) RNN的前向传播 ?<0> =0 rnn=nn.RNN(input size=10,hidden size=20,num layers=2) 9 2.循环神经网络(RNN) RNN的前向传播 ?> = ?1(????−1> + ????> + ??) ̰? > = ?2(????> + ??) 10 2.循环神经网络(RNN) RNN的反向传播 110 码力 | 29 页 | 1.68 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112参考文献 第 11 章 循环神经网络 11.1 序列表示方法 11.2 循环神经网络 11.3 梯度传播 11.4 RNN 层使用方法 11.5 RNN 情感分类问题实战 11.6 梯度弥散和梯度爆炸 11.7 RNN 短时记忆 11.8 LSTM 原理 11.9 LSTM 层使用方法 11.10 GRU 简介 11.11 LSTM/GRU 情感分类问题再战 XOR异或问题 1969 1974 BP反向传播 Hopfield 网络 1982 1985 Boltzmann 机器 受限Boltzmann 1986 RNN 1986 1986 MLP 1990 LeNet 双向RNN 1997 1997 LSTM 2006 DBN深度 置信网络 图 1.8 浅层神经网络发展时间线 1.2.2 深度学习 2006 年,Geoffrey t Neural Network,简称 RNN)在 Yoshua Bengio、Jürgen Schmidhuber 等人的持续研究下,被证明非常擅长处理序列信号。1997 预览版202112 6.8 汽车油耗预测实战 21 年,Jürgen Schmidhuber 提出了 LSTM 网络,作为 RNN 的变种,它较好地克服了 RNN 缺 乏长期记忆、不擅长处理长序列的问题,在自然语言处理中得到了广泛的应用。基于0 码力 | 439 页 | 29.91 MB | 1 年前3
房源质量打分中深度学习应用及算法优化-周玉驰2019 KE.COM ALL COPYRIGHTS RESERVED 15 模型演变历程 v1.0 初版模型系统 v2.0 深度学习模型 v2.0+ 效果持续优化 XGBoost DNN+RNN 特征建设 v1.0 初版模型系统 2019 KE.COM ALL COPYRIGHTS RESERVED 16 v1.0 - 初版模型系统概览 • 房源特征 静态特征 时序特征 XGBoost DNN+RNN 特征建设 2019 KE.COM ALL COPYRIGHTS RESERVED 21 RNN RNN LSTM 2019 KE.COM ALL COPYRIGHTS RESERVED 22 DNN 2019 KE.COM ALL COPYRIGHTS RESERVED 23 深度学习模型结构 混合模型:DNN + RNN Deep neural 激活层(RELU) - dropout正则化 Recurrent neural networks (RNN) - LSTM 2019 KE.COM ALL COPYRIGHTS RESERVED 24 模型系统对比 房源特征 特征处理 M XGBoost 分数映射 房源特征 分数映射 DNN + RNN v1.0 v2.0 2019 KE.COM ALL COPYRIGHTS RESERVED0 码力 | 48 页 | 3.75 MB | 1 年前3
机器学习课程-温州大学-13深度学习-TransformerTransformer的工作流程 04 BERT 4 1.Transformer介绍 为什么需要用transformer 其实在之前我们使用的是RNN(或者是其的单向或者双向变种LSTM/GRU等) 来 作为编解码器。RNN模块每次只能够吃进一个输入token和前一次的隐藏状态,然 后得到输出。它的时序结构使得这个模型能够得到长距离的依赖关系,但是这也 使得它不能够并行计算,模型效率十分低。 key,等着被查的 V: value,实际的特征信息 9 1.Transformer介绍 Attention的优点 1.参数少:相比于 CNN、RNN ,其复杂度更小,参数也更少。所以对算力的要求 也就更小。 2.速度快:Attention 解决了 RNN及其变体模型不能并行计算的问题。Attention机 制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。 3.效果好:在Attention 一样的。 10 2017年google的机器翻译团队在 NIPS上发表了Attention is all you need的文章,开创性地提出了 在序列转录领域,完全抛弃 CNN和RNN,只依赖Attention-注 意力结构的简单的网络架构, 名为Transformer;论文实现的 任务是机器翻译。 Transformer结构 Multi-Head Attention0 码力 | 60 页 | 3.51 MB | 1 年前3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文问答资料 02 深度学习与NLP 深度学习发展与应用 语音识别 计算机视觉 自然语言处理 海量数据 算法进步 芯片技术 应用 基础 深度学习与机器学习 深度学习 例如CNN、RNN等 机器学习 例如Logistics Regression AI 例如Knowledge Base 标准机器学习过程 标注数据 机器学习算法 数据 已训练模型 预测 训练 预测 枣庄市 [-2.5211799145, -0.6317474842, -0.052895709, … 2.8651976585, -3.9351148605, 1.3284717798 ] RNN与LSTM RNN LSTM Ref: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ LSTM原理 Ref: http://colah ,决 策树) • 特征工程构造特征 • 不同领域定制优化成本高 • 常需要分类算法融合提升效果 深度学习(CNN,RNN等) • 端到端,无需大量特征工程 • 框架通用性好,满足多领域需求 • 可以使用非监督语料训练字词向量提升效果 文本分类 CNN RNN CLSTM 序列标注 传统机器学习(CRF) • 需要大量特征工程 • 不同领域需要反复调整 深度学习(Bi-LSTM+CRF)0 码力 | 46 页 | 25.61 MB | 1 年前3
深度学习下的图像视频处理技术-沈小勇Scales Analysis 87 1 scale Input 2 scales 3 scales Baseline Models Analysis 88 Model SS SC w/o R RNN SR-Flat Param 2.73M 8.19M 2.73M 3.03M 2.66M PSNR 28.40 29.05 29.26 29.35 27.53 Solver ????????? ??1 EBlocks DBlocks Solver Single Scale (SS) Baseline Models Analysis 89 Model SS SC w/o R RNN SR-Flat Param 2.73M 8.19M 2.73M 3.03M 2.66M PSNR 28.40 29.05 29.26 29.35 27.53 EBlocks DBlocks Solver 3 ????????????2 ????????????1 ????????????1 Baseline Models Analysis 90 Model SS SC w/o R RNN SR-Flat Param 2.73M 8.19M 2.73M 3.03M 2.66M PSNR 28.40 29.05 29.26 29.35 27.53 EBlocks DBlocks0 码力 | 121 页 | 37.75 MB | 1 年前3
动手学深度学习 v2.0neural network,CNN),这是构成大多数现代计算机视觉系统骨干的强大工具。随后,在 8节 和 9节 中,我们引入了循环神经网络(recurrent neural network,RNN),这是一种利用数据中的时间或序列 结构的模型,通常用于自然语言处理和时间序列预测。在 10节 中,我们介绍了一类新的模型,它采用 了一种称为注意力机制的技术,最近它们已经开始在自然语言处理中取代循环神经网络。这一部分将 股市的波动、患者的体温曲线或者赛车所需的加速度。同理,我们需要能够处理这些数据的特定模型。 简言之,如果说卷积神经网络可以有效地处理空间信息,那么本章的循环神经网络(recurrent neural network, RNN)则可以更好地处理序列信息。循环神经网络通过引入状态变量存储过去的信息和当前的输入,从而可 以确定当前的输出。 许多使用循环网络的例子都是基于文本数据的,因此我们将在本章中重点介绍语言模型。在对序列数据进行 式。因此,这种方式提供了一个重要的上限,而任何实际模型都必须超越这个上限。 在接下来的小节中,我们将基于循环神经网络实现字符级语言模型,并使用困惑度来评估这样的模型。 小结 • 对隐状态使用循环计算的神经网络称为循环神经网络(RNN)。 • 循环神经网络的隐状态可以捕获直到当前时间步序列的历史信息。 • 循环神经网络模型的参数数量不会随着时间步的增加而增加。 • 我们可以使用循环神经网络创建字符级语言模型。 • 我们可以使用困惑度来评价语言模型的质量。0 码力 | 797 页 | 29.45 MB | 1 年前3
共 28 条
- 1
- 2
- 3













