最近,一些计算机科学家创建了一种更灵活、更灵巧的机器学习模型。诀窍在于:它必须定期忘记它所知道的信息。虽然这种新方法不会取代支撑最大应用程序的庞大模型,但它能揭示这些程序如何理解语言的更多信息。
(PS:如果你还没体验过ChatGPT Plus或者不会升级,可以点击参考)
计算机科学家创建了一种更灵活、更灵巧的机器学习模型。诀窍在于:它必须定期忘记它所知道的信息。虽然这种新方法不会取代支撑最大应用程序的庞大模型,但它能揭示这些程序如何理解语言的更多信息。
韩国基础科学研究所的人工智能工程师Jea Kwon表示,新研究标志着该领域的“一个重大进步”。
如今使用的AI语言引擎大多由人工神经网络驱动。网络中的每个“神经元”都是一个数学函数,它从其他神经元接收信号,进行一些计算,然后通过多层神经元传递信号。最初,信息流动或多或少是随机的,但通过训练,随着网络适应训练数据,神经元之间的信息流动得到改善。如果一个AI研究员想要创建一个双语模型,例如,她会用两种语言的大量文本来训练模型,这将调整神经元之间的连接,以某种方式将一种语言中的文本与另一种语言中的等效词汇关联起来。
但这个训练过程需要大量的计算能力。如果模型工作得不是很好,或者如果用户的需求后来发生变化,很难对其进行调整。“假设你有一个包含100种语言的模型,但想象你想要的一种语言没有被覆盖,”新研究的共同作者兼AI创业公司Reka的创始人Mikel Artetxe说。“你可以从头开始,但这不是理想的选择。”
Artetxe和他的同事试图绕过这些限制。几年前,Artetxe和其他人训练了一个单语言的神经网络,然后抹去了它对单词构建块(称为令牌)的了解。这些存储在神经网络的第一层,即嵌入层中。他们保留了模型的所有其他层。在擦除了第一种语言的令牌后,他们重新训练模型以第二种语言,这使得嵌入层填充了该语言的新令牌。
尽管模型包含了不匹配的信息,重新训练还是成功了:模型能够学习并处理新语言。研究人员推测,虽然嵌入层存储了与语言中使用的单词具体相关的信息,但网络更深层次存储了有关人类语言背后概念的更抽象信息,这有助于模型学习第二种语言。
“我们生活在同一个世界。我们用不同的词汇概念化相同的事物,”最近论文的主要作者Yihong Chen说。“这就是为什么模型中有这种相同的高层次推理。苹果是某种甜美多汁的东西,而不仅仅是一个词。”
通过这种遗忘的方法是一个有效的方式来向已经训练好的模型添加新语言,但重新训练仍然要求很高——它需要大量的语言数据和处理能力。Chen建议进行一个调整:不是训练、擦除嵌入层然后重新训练,而应该在最初的训练轮次期间定期重置嵌入层。“通过这样做,整个模型变得习惯于重置,”Artetxe说。“这意味着当你想将模型扩展到另一种语言时,会更容易,因为这就是你一直在做的。”
研究人员采用了一种常用的语言模型叫做Roberta,使用他们的周期性遗忘技术对其进行训练,并将其性能与使用标准、非遗忘方法训练的相同模型进行了比较。遗忘模型的表现略低于常规模型,在一种常用的语言准确性度量上,前者得分为85.1,后者为86.1。然后他们使用只有500万令牌的更小数据集(而不是他们在第一次训练期间使用的700亿)重新训练模型。标准模型的准确性平均降至53.3,但遗忘模型仅降至62.7。
这种方法类似于我们自己的大脑如何工作。“一般来说,人类记忆不擅长准确存储大量详细信息。相反,人类倾向于记住我们经验的要点,抽象和推断,”旧金山大学的神经科学家Benjamin Levy说。“使AI具有更像人类的过程,如适应性遗忘,是一种让它们表现得更灵活的方式。”
除了它可能说明理解工作的方式之外,Artetxe希望更灵活的遗忘语言模型也能帮助将最新的AI突破带给更多语言。尽管AI模型擅长处理有大量训练材料的西班牙语和英语,但对他的母语巴斯克语,这是西班牙东北部的地方语言,就不那么擅长了。“大型科技公司的大多数模型做得不好,”他说。“将现有模型适应巴斯克语是一种方式。”
Chen也期待一个更多AI花朵绽放的世界。“我在想一个世界不需要一个大型语言模型。我们有这么多,”她说。“如果有一个制造语言模型的工厂,你需要这种技术。它有一个基础模型,可以快速适应新领域。”
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。