头图

最近,Nature期刊上发布了一项重要研究,挑战了长达35年的关于神经网络缺乏系统泛化能力的经典观点。这项研究由纽约大学的Brenden Lake和西班牙加泰罗尼亚研究所的Marco Baroni共同完成。

人类可以系统地结合新旧概念,这种能力被称为“系统泛化”。例如,学会“跳跃”后,人类能迅速理解“向后跳跃”或“跳过障碍物”。

尽管神经网络在过去35年中在诸如自然语言处理等领域取得了巨大进展,但其是否具备系统泛化能力长期受到质疑。

Lake和Baroni成功创建了一个神经网络,其在学习并应用新词汇时,展现出与人类相似的能力。

相比于如ChatGPT这类大型语言模型,他们的研究展示了更为接近人类的表现,表明了人类在训练网络的系统化能力方面已迈出了坚实的一步。

人类与神经网络的系统泛化能力对比

人类在语言上展现出强大的系统泛化能力,能够轻松将新学的词汇运用于多种场景。相较于人类,神经网络需要依赖大量示例文本才能训练并使用新词汇。

人工智能领域已争论了35年:如果神经网络不能体现系统泛化,它们是否可以作为模拟人类认知的有效工具?

Brenden Lake和Marco Baroni证明了神经网络可以展现出与人类相似的系统泛化能力。

采用了名为“组合性元学习”(Meta-Learning for Compositionality)的方法,这种方法优化了组织能力(按逻辑顺序组织概念的能力),使得系统能够在动态变化的任务中学习。

论文作者首先将25名参与者进行测试其使用特制伪语言的能力。他们通过用两类无意义伪造词组成的伪语言测试他们,确保参与者是第一次学习这些单词。

使用基础词汇如“dax”,“wif”,“lug”代表“jump”、“skip”等具体动作,以及功能性词。如“blicket”,“kiki”,“fep”来组合和定义像“跳三次”或“向后跳跃”这样的词组。

训练参与者将基础词汇与特定颜色的圆圈关联。红色圆圈代表“dax”,蓝色圆圈代表“lug”。例如,短语“dax fep”用三个红色圆圈表示,而“lug fep”用三个蓝色圆圈表示。这说明fep代表了一个抽象规则,即将一个基本单词重复三次。然后测试中,参与者需要根据给定的规则选择正确的圆圈颜色和数量,并进行排序。

结果显示,80%的参与者能够准确完成任务,验证了人类的系统泛化能力。

然后,研究者们对神经网络进行了培训,让其完成与之前人类实验者所进行的相似任务。

该人工智能的训练方法与常规有所不同,允许其在各种不断变化的任务中进行学习,而不是仅在静态的数据集上优化。

为了模拟人类的认知,研究者特意在训练中复现人类实验中出现的错误模式。在神经网络进行新的测试中,神经网络展现出与人类相似的表现,有时甚至优于人类。

当ChatGPT的升级版本GPT-4被用于相同的测试时,其表现不尽如人意,平均错误率高达42%至86%。这样的成绩相比研究中的神经网络和人类表现都明显较差。

总结与展望

该研究旨在提高神经网络的学习效率,这可能降低训练如ChatGPT这类系统所需的大量数据。研究还指出,优化学习过程可以减少AI“幻觉”——即AI误解并产生不准确输出的情况。

与机器不同,人类在系统泛化方面表现出色。这项研究尝试模拟这种人类的认知能力,并努力让机器在系统泛化方面做得更好。尽管目前的元学习方法尚不能完全实现系统泛化,但他们相信,此研究为未来开发更接近人类大脑行为的AI系统提供了有价值的方向。

图片参考论文:https://www.nature.com/articles/s41586-023-06668-3


汇思人机资本
1 声望0 粉丝