1962 年 12 月 17 日,《生活国际》发表了一个包含 15 个句子的逻辑谜题,描述了街道上 5 栋房子的情况,每个句子都是一个线索,如“英国人住在红房子里”等,问题是“谁拥有斑马?”。这类问题被用来衡量当今机器学习模型的能力(实际上是局限性)。
- 研究背景:名为爱因斯坦谜题或谜语(可能是虚构的归属),测试某种多步推理能力。艾伦人工智能研究所的研究科学家 Nouha Dziri 及其同事让基于 Transformer 的大型语言模型(如 ChatGPT)处理此类任务,发现它们存在不足。
研究发现:
- 成功引发审视:大型语言模型因其在自然语言任务上的惊人能力而引发了对其是否真正推理的好奇,但在基本乘法等任务上表现不佳,在爱因斯坦谜题等任务上也只有有限的成功,微调后也存在局限性,这引发了对其如何执行任务和是否真正推理的质疑。
- 硬限制:研究表明,仅通过预测序列中的下一个单词进行训练的大型语言模型在解决组合推理任务方面存在根本限制,即使是多层 Transformer 也无法解决某些复杂的组合任务,这意味着 Transformer 架构存在固有局限性。
- 突破边界:尽管有这些限制,研究人员仍在尝试增强 Transformer 以更好地处理算术等问题,如通过在数字中嵌入额外的“位置”信息;另一种方法是在提示中提供问题的分步解决方案,即思维链提示,能让大型语言模型解决更多相关任务,但这并不意味着实际模型能真正解决困难问题,只是在理论上扩展了其模式匹配能力,且新的“状态空间模型”也有类似限制。
总之,大型语言模型本质上是在匹配所看到的模式,其能力受数学边界限制,这些结果对大多数使用这些工具的人影响不大,但对构建和理解模型能力的人很重要。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。