AI研究人员通过模仿从错误中学习来改进基于LLM的推理

研究背景与目标

来自微软、北京大学和西安交通大学的研究人员开发了一种名为LeMa(Learning from Mistakes)的技术,旨在通过模仿人类从错误中学习的方式,提升大语言模型(LLMs)解决数学问题的能力。尽管LLMs能够分步解决问题,但研究人员指出,这并不意味着它们具备真正的推理能力。

问题分析

研究人员认为,LLMs可能只是模仿了人类推理的表面行为,而没有真正理解精确推理所需的底层逻辑和规则。这种理解的缺乏导致推理过程中出现错误,因此需要一种具备现实世界逻辑和规则意识的“世界模型”来辅助。

LeMa技术概述

LeMa的核心思想是使用GPT-4作为“校正器”,对由其他LLMs生成的错误推理进行纠正。具体步骤如下:

  1. 识别错误:GPT-4首先识别出LLMs在解决问题时出现的错误。
  2. 解释错误:GPT-4进一步解释错误产生的原因。
  3. 纠正错误:GPT-4生成正确的答案。

校正质量分类

LeMa在每一步都可能失败,因此校正结果被分为三类:

  • 优秀:35个校正中的35个。
  • 良好:11个校正。
  • 较差:4个校正。

技术应用与反馈

所有成功的校正最终会被反馈给生成原始答案的LLMs,用于对其进行微调。

实验结果

研究团队在GSM8K和MATH两个数学推理任务上测试了LeMa,发现与之前的方法相比,LeMa带来了显著的性能提升。例如,LeMa在GSM8K上的pass@1准确率达到了85.4%,在MATH上达到了27.1%。此外,LeMa还提升了如WizardMath和MetaMath等专门LLMs的性能。

其他发现

  • GPT-3.5-Turbo的局限性:研究发现,GPT-3.5-Turbo不足以替代GPT-4作为校正器。
  • GPT-4的局限性:尽管GPT-4在低难度问题上表现良好,但随着问题难度的增加,其正确率逐渐下降,表明仍有改进空间。

资源开放

研究团队将他们的代码、数据及模型在GitHub上公开,供进一步研究和应用。

阅读 61
0 条评论