Moonshot AI 介绍主流模型的重要组成部分;发明了groupnormalization,是StableDiffusion等AI模型成功 的关键组件;发明了Transformer-XL,是历史上第⼀个在词级别和字级别都全⾯超越RNN 的注意⼒语⾔模型,解决了语⾔建模上下⽂⻓度的关键问题,定义了语⾔建模的新标准;曾 与DeepMind和CMU合作研究,⾸次实现⼩样本性能逼近全监督学习的⾼效对⻬⽅法。 ii. 视觉⽅⾯。团 有的架构演进本质上都是在提升有效的contextlength。word2vec最近拿了NeurIPS的Testof Time奖。它在10年前⽤⼀个词去预测周围的词,相当于contextlength是5。RNN把有效的 contextlength提升到了20。LSTM涨到⼤⼏⼗。transformer到了⼏千。现在我们能做到⼏⼗万。 如果你有10亿的contextlength,今天看到的问题都不是问题。 在过去的五年的过程中,我们聚集了⼀⽀⼈才密度⾮常⾼的团队,我们主导和参与了国内外的⾮常多 经典⼤模型的开发,包括GoogleBard,googleGemini、盘古和悟道⼀系列的⼤模型。 我们也发明了历史上第⼀个全⾯超越了RNN的Transformer语⾔模型。我们团队的很多作为第⼀作者和 核⼼贡献者发明了的技术,被许多主流的产品多采⽤,⽐如,LLaMA就⽤了我们很关键的Positional encoding技术,像0 码力 | 74 页 | 1.64 MB | 1 年前3
2024 中国开源开发者报告数量,但其前任语言模型担当 RNN 只有 O(n)的理论计算复杂度。 最近,以 Mamba、RWKV 为代表的类 RNN 结构死灰复燃,公开挑战 transformer 地位。 更有最新研究【13】从理论上表明,RNN 对比 Transformer 的表达力,只差一个 in-context-retrieval。 在这个方向的持续投入下,我们很可能会迎接一个介于 RNN 和 Transformer0 码力 | 111 页 | 11.44 MB | 9 月前3
共 2 条
- 1













