RNN - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Moonshot AI 介绍

主流模型的重要组成部分；发明了groupnormalization，是StableDiffusion等AI模型成功的关键组件；发明了Transformer-XL，是历史上第⼀个在词级别和字级别都全⾯超越RNN 的注意⼒语⾔模型，解决了语⾔建模上下⽂⻓度的关键问题，定义了语⾔建模的新标准；曾与DeepMind和CMU合作研究，⾸次实现⼩样本性能逼近全监督学习的⾼效对⻬⽅法。 ii. 视觉⽅⾯。团有的架构演进本质上都是在提升有效的contextlength。word2vec最近拿了NeurIPS的Testof Time奖。它在10年前⽤⼀个词去预测周围的词，相当于contextlength是5。RNN把有效的 contextlength提升到了20。LSTM涨到⼤⼏⼗。transformer到了⼏千。现在我们能做到⼏⼗万。如果你有10亿的contextlength，今天看到的问题都不是问题。在过去的五年的过程中，我们聚集了⼀⽀⼈才密度⾮常⾼的团队，我们主导和参与了国内外的⾮常多经典⼤模型的开发，包括GoogleBard，googleGemini、盘古和悟道⼀系列的⼤模型。我们也发明了历史上第⼀个全⾯超越了RNN的Transformer语⾔模型。我们团队的很多作为第⼀作者和核⼼贡献者发明了的技术，被许多主流的产品多采⽤，⽐如，LLaMA就⽤了我们很关键的Positional encoding技术，像

0 码力 | 74 页 | 1.64 MB | 1 年前
3
2024 中国开源开发者报告

数量，但其前任语言模型担当 RNN 只有 O(n)的理论计算复杂度。最近，以 Mamba、RWKV 为代表的类 RNN 结构死灰复燃，公开挑战 transformer 地位。更有最新研究【13】从理论上表明，RNN 对比 Transformer 的表达力，只差一个 in-context-retrieval。在这个方向的持续投入下，我们很可能会迎接一个介于 RNN 和 Transformer

0 码力 | 111 页 | 11.44 MB | 9 月前
3

共 2 条前往

页

Moonshot AI 介绍 2024 中国开源开发开发者报告

分类

语言

格式

Moonshot AI 介绍

2024 中国开源开发者报告