OpenAI 的 CriticGPT 捕捉到 ChatGPT 生成的代码中的错误

OpenAI发布CriticGPT论文

OpenAI最近发布了一篇关于CriticGPT的论文,这是GPT-4的一个微调版本,专门用于批评ChatGPT生成的代码。与人类评估者相比,CriticGPT能够发现更多的错误并生成更好的批评。OpenAI计划使用CriticGPT来改进未来版本的模型。

CriticGPT的开发背景

在最初开发ChatGPT时,OpenAI使用了人类“AI训练师”来评估模型的输出,创建了一个数据集,通过人类反馈的强化学习(RLHF)进行微调。然而,随着AI模型的改进,它们现在能够在某些任务上达到人类专家的水平,这使得人类评估者难以评估其输出。CriticGPT是OpenAI在“可扩展监督”(scalable oversight)方面努力的一部分,旨在帮助解决这一问题。

CriticGPT的应用与评估

OpenAI首先专注于帮助ChatGPT提高其代码生成能力。研究人员使用CriticGPT生成代码的批评,并聘请合格的人类程序员进行同样的工作。在评估中,AI训练师80%的时间更喜欢CriticGPT的批评,表明CriticGPT可以成为RLHF训练数据的良好来源。

CriticGPT的微调过程

CriticGPT本身也是通过RLHF微调的GPT-4版本。在这个案例中,RLHF训练数据包括有错误的代码作为输入,以及人类生成的批评或错误解释作为期望输出。错误的代码是通过让ChatGPT编写代码,然后由人类承包商插入错误并撰写批评来生成的。

CriticGPT的评估结果

为了评估CriticGPT,OpenAI使用人类评估者对多个批评进行排名;评估者展示了CriticGPT和基线ChatGPT的输出,以及仅由人类生成的批评或由人类与CriticGPT辅助生成的批评(“Human+CriticGPT”)。评估者更喜欢CriticGPT的输出,而不是ChatGPT和人类批评者的输出。OpenAI还发现,Human+CriticGPT团队输出的批评比仅由人类生成的批评“更为全面”,但往往有更多的“挑剔”。

社区反应与相关研究

在Hacker News上关于这项工作的讨论中,一位用户提到这是Paul Christiano六年前提出的“迭代放大”(Iterated Amplification)对齐程序提案的实现。Paul Christiano曾是OpenAI语言模型对齐团队的负责人。除了OpenAI,其他公司也在进行可扩展监督的研究,特别是Anthropic,他们发表了关于使用LLM之间的辩论来提高模型真实性的研究论文。

总结

CriticGPT是OpenAI在可扩展监督方面的重要进展,通过微调GPT-4来帮助人类评估AI模型的输出。其评估结果表明,CriticGPT在生成代码批评方面优于基线模型和人类评估者,并且在人类辅助下生成更为全面的批评。这一研究也反映了AI安全领域的创新和紧迫性。

阅读 25
0 条评论