深度学习与PyTorch入门实战 - 51. LSTM原理
1.53 MB
16 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档系统阐述了LSTM(长短时记忆网络)在PyTorch中的工作原理。核心内容包括:RNN在处理长期依赖时的局限性,LSTM通过细胞状态(Cell State)和门控机制(包括输入门、遗忘门和输出门)来保护和控制信息的流动,从而解决长期依赖问题。详细介绍了LSTM的输入门和细胞状态更新机制,输出门的决策过程以及整个网络的结构与操作,如神经网络层、点wise操作等。 | ||
AI总结 | ||
### 总结
以下是对文档《深度学习与PyTorch入门实战 - 51. LSTM原理》的核心内容进行的总结:
#### 1. **RNN的长期依赖问题**
传统的循环神经网络(RNN)在处理长序列时,会遇到长期依赖问题。虽然RNN能够利用之前的信息进行预测,但在处理需要更多上下文的情况时,其表现可能不够理想。例如:
- 预测句子中的下一个词时,短期依赖可能足够。
- 但在需要更多上下文的情况下(如“I grew up in France...IsSpeak fluent Fryremn.”),长期依赖的处理能力不足。
#### 2. **LSTM的核心思想**
长短时记忆网络(LSTM)通过引入门控机制(Gates)来解决长期依赖问题。LSTM的核心是**细胞状态(Cell State)**,通过三个门控(Input Gate、Forget Gate和Output Gate)来控制信息的流动。具体机制如下:
- **门控机制**:
- **遗忘门(Forget Gate)**:决定遗忘多少信息,通过sigmoid函数输出0到1的值,用于乘以旧的细胞状态。
- **输入门(Input Gate)**:决定哪些新信息需要加入到细胞状态中,包含两个部分:
- 一个sigmoid层选择需要更新的部分。
- 一个tanh层生成候选值,通过乘以sigmoid的输出来得到最终的新信息。
- **输出门(Output Gate)**:决定输出哪些内容,通过sigmoid层选择需要输出的细胞状态部分,并结合tanh归一化后的细胞状态生成最终输出。
- **细胞状态更新**:
- 旧细胞状态乘以遗忘门的输出,决定遗忘的信息。
- 新的候选值(由输入门生成)被加入到细胞状态中。
- 细胞状态的更新完成后,通过输出门控制输出。
#### 3. **LSTM的结构**
- LSTM的重复模块包含四个交互层,而传统RNN只有单个层。这使得LSTM能够更灵活地处理信息。
-HTTPS://墅脉 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
9 页请下载阅读 -
文档评分