新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型
2024-07-09
阅读 5 分钟
10原创 关注前沿科技 量子位新架构,再次向Transformer发起挑战!核心思想:将RNN中的隐藏状态换成可学习的模型。甚至在测试时都可以学习,所以该方法称为TTT(Test-Time Training)。共同一作UC伯克利的Karen Dalal表示:我相信这将从根本上改变语言模型。一个TTT层拥有比RNN表达能力更强的隐藏状态,可以直接取代Transfo...