LSTM原理## PyTorch ## LSTM 主讲人:龙良曲 ## The problem of long-term dependencies (Vanilla) RNNs connect previous information to present task: - enough for predicting the next word for “the clouds are in the sky” [Image](/uploads/documents/a/1/6/2/a1621b960ddea198d7320d4ff531e405/p5_1.jpg) The repeating module in an LSTM contains four interacting layers.  An LSTM has three of these gates, to protect and control the cell state. ## LSTM : Forget gate  $$ \begin{pmatrix}\mathbf{i}^{(t)}\\\mathbf{f}^{(t)}\\\mathbf{o}^{(t)}\\\mathbf{g}^{(t) t)} $$ $$ \mathbf{h}^{(t)}=\mathbf{o}^{(t)}\circ\mathrm{t a n h}(\mathbf{c}^{(t)}). $$ ### nn.LSTM ## ___init___ • input_size – The number of expected features in the input x • hidden_size – The together to form a stacked LSTM, with the second LSTM taking in outputs of the first LSTM and computing the final results. Default: 1 ### LSTM.forward() - out, (ht, ct) = lstm(x, [ht_1, ct_1]) x: [seq0 码力 | 11 页 | 643.79 KB | 2 年前3
Golang在接入层长连接服务中的实践-黄欣## Golang 在接入层长连接服务中的实践 黄欣 基础平台—架构部 - 背景 - 架构 - 心得 ## 目录 - 背景 - 架构 - 心得 ## 目录 ## 背景—why 长连接? - 业务场景 - 大量实时计算 - 司机乘客撮合 - 实时计价 - 高频度的数据交互 - 坐标数据 - 计价数据 - launcher: 接收连接,接收请求,go出去,等待业务层返回结果,并write back business:业务代码,拿到请求自行处理,完事之后return到laucher backend:和长连接系统中的其他模块异步通信模块 storage:和存储交互模块,提供统一的封装 util:其他通用模块(时间轮、对象池、wait封装等) ## 心得—coding-实现 • 过程编程 - route0 码力 | 31 页 | 1.67 MB | 2 年前3
机器学习课程-温州大学-11深度学习-序列模型2023年05月 ## 本章目录 01 序列模型概述 02 循环神经网络(RNN) 03 长短期记忆(LSTM) 04 双向循环神经网络 05 深层循环神经网络 ### 1. 序列模型概述 ## 01 序列模型概述 02 循环神经网络(RNN) 03 长短期记忆(LSTM) 04 双向循环神经网络 05 深层循环神经网络 ### 1. 序列模型概述 循环神经网络(RN 循环神经网络可以解决时序问题 · 基于语言模型(LM),故可以捕捉时序规则信息 它是如何实现的? ### 2. 循环神经网络(RNN) 01 序列模型概述 02 循环神经网络(RNN) 03 长短期记忆(LSTM) 04 双向循环神经网络 05 深层循环神经网络 ### 2. 循环神经网络(RNN) ## RNN的前向传播 $$ a^{<0>}=0 $$ $$ a^{( and pear salad}) = 5.7 \times 10^{-10} $ , ### 3. 长短期记忆(LSTM) 01 序列模型概述 02 循环神经网络(RNN) 03 长短期记忆(LSTM) 04 双向循环神经网络 05 深层循环神经网络 ### 3. 长短期记忆 (LSTM)  ..... 342 9.2.1 门控记忆元 ..... 342 9.2.2 从零开始实现 ..... 345 9.2.3 简洁实现 ..... 348 9.3 深度循环神经网络 ..... 349 别)的预测概率;在这些情况下,模型只会将输入作为生成输出的“原料”,而不会“记住”输入的具体内容。 如果输入的样本之间没有任何关系,以上模型可能完美无缺。但是如果输入是连续的,模型可能就需要拥有“记忆”功能。比如,我们该如何处理视频片段呢?在这种情况下,每个视频片段可能由不同数量的帧组成。通过前一帧的图像,我们可能对后一帧中发生的事情更有把握。语言也是如此,机器翻译的输入和输出都为文字序列。0 码力 | 797 页 | 29.45 MB | 2 年前3
Moonshot AI 介绍产品Kimi智能助手中实现“无损长上下文窗口(Lossless Long Context Window)”,支持20万汉字输入,实现对长文本的无损记忆。OpenAI和Anthropic到11月才在Context Length上追上来,且在精度(无损记忆)和中文能力上Kimi智能助手依然领先。 b. 聚焦底层技术创新,不走技术捷径。最早提出 “Lossless Long Context 可以解决 90% ChatBots” 产品中排在第一;月环比增长率 94.1%,增长速度也在大模型创业公司的第一位。 ## “Kimi 智能助手” 详细介绍 Kimi 是由月之暗面(Moonshot AI)提供的超长记忆 AI 助手,支持约 20 万汉字的上下文输入,具备显著的中文优势,随时为你回答问题、速读文件、整理资料、激发灵感、辅助创作。你可以与 Kimi 聊天,发送网址链接,上传文件。 提醒:对了,我们产品名字已更新为 everything Lossless long context is everything。这是我们跟杨植麟聊完两个小时后记忆最深刻的一个观点。 这个技术判断在 23 年 10 月已经被传递出来,当时杨植麟创立的月之暗面发布了首个模型 moonshot 和智能助手 Kimi,支持 20 万字的输入。做 “长” 是因为杨植麟判断 AI-Native 产品的终极价值是提供个性化的交互,而 lossless long-context0 码力 | 74 页 | 1.64 MB | 2 年前3
Hello Agents V1.0.2 (从零开始构建智能体)AutoGen、AgentScope、LangGraph等主流框架应用 √ 第七章 构建你的Agent框架 从0开始构建智能体框架 √ 章节 关键内容 状态 第三部分:高级知识扩展 第八章 记忆与检索 记忆系统,RAG,存储 √ 第九章 上下文工程 持续交互的"情境理解" √ 第十章 智能体通信协议 MCP、A2A、ANP等协议解析 √ 第十一章 Agentic-RL 从SFT到GRPO的LLM训练实战 建一个属于自己的智能体框架,让你兼具“用轮子”与“造轮子”的能力。 第三部分:高级知识扩展(第八章~第十二章),在这一部分,你的智能体将“学会”思考与协作。我们将使用第二部分的自研框架,深入探索记忆与检索、上下文工程、Agent训练等核心技术,并学习多智能体间的通信协议。最终,你将掌握评估智能体系统性能的专业方法。 第四部分:综合案例进阶(第十三章~第十五章),这里是理论与实践的交汇点。你 景有宏观的认识。 第二部分(单体篇):这是你动手实践的开始。我们将带你从零开始,构建一个功能完备的单体智能,深入理解其内部的“心智”结构。 第三部分(高级篇):在这里,你的智能体将“学会”思考、拥有记忆和工具,并掌握智能体之间的通信协议,最终完成评估的闭环。 第四部分(实战篇):这是项目的核心价值所在。你将通过一系列精心设计的综合案例,将所学知识融会贯通,在实战中淬炼真金。 第五部分(展望篇):旅0 码力 | 633 页 | 58.72 MB | 1 月前3
2020美团技术年货 算法篇/4/42c4fbcf187df0f624a5e70022348082/p31_1.jpg) 图 3 Transformer 行为序列建模 ## 行为序列建模 ## 输入部分: · 分为短期行为序列和长期行为序列。 - 行为序列内部的每个行为原始表示是由商户 ID,以及一些商户泛化信息的 Embedding 进行 concat 组成。 · 每段行为序列的长度固定,不足部分使用零向量进行补齐。 Transformer 里面原生的正余弦以及距当前预测时间的时间间隔的位置编码都无效果,分析应该是我们在处理行为序列的时候,已经将序列切割成不同时间段,一定程度上包含了时序位置信息。为了验证这个想法,我们做了仅使用一个长序列的实验(对照组不加位置编码,实验组加位置编码,离线 NDCG 有提升),这验证了我们的猜测。 • Transformer 编码层不需要太多,层数过多导致模型过于复杂,模型收敛慢效果不好。 · 通过神经网络预训练方式来生成词向量(Word Embedding),极大地推动了深度自然语言处理的发展。针对 Word2vec 生成的固定词向量无法解决多义词的问题,2018 年,Allen AI 团队提出基于双向 LSTM 网络的 ELMo $ ^{[5]} $ 。ELMo 根据上下文语义来生成动态词向量,很好地解决了多义词的问题。2017 年底,Google 提出了基于自注意力机制的 Transformer $ ^{[6]}0 码力 | 317 页 | 16.57 MB | 2 年前3
【PyTorch深度学习-龙龙老师】-测试版202112层使用方法 11.5 RNN 情感分类问题实战 11.6 梯度弥散和梯度爆炸 11.7 RNN 短时记忆 11.8 LSTM 原理 11.9 LSTM 层使用方法 11.10 GRU 简介 11.11 LSTM/GRU 情感分类问题再战 11.12 预训练的词向量 11.13 参考文献 第12章 自编码器 算法应用在多层感知机上;1989 年 Yann LeCun 等人将 BP 算法应用在手写数字图片识别上,取得了巨大成功,这套系统成功商用在邮政编码识别、银行支票识别等系统上;1997 年,现在应用最为广泛的循环神经网络变种之一 LSTM 被 Jürgen Schmidhuber 提出;同年双向循环神经网络也被提出。 遗憾的是,神经网络的研究随着以支持向量机(Support Vector Machine,简称 SVM)为代表的传 2D 图片的相关任务上取得较好的效果,具有时间维度信息的 3D 视频理解任务受到越来越多的关注。常见的视频理解任务有视频分类、行为检测、视频主体抽取等。常用的模型有 C3D、TSN、DOVF、TS_LSTM 等。 图片生成(Image Generation) 是指通过学习真实图片的分布,并从学习到的分布中采样而获得逼真度较高的生成图片。目前常见的生成模型有 VAE 系列、GAN 系列等。其中 GAN0 码力 | 439 页 | 29.91 MB | 2 年前3
共 717 条
- 1
- 2
- 3
- 4
- 5
- 6
- 72













