OpenAI 的 CriticGPT 捕捉到 ChatGPT 生成的代码中的错误

OpenAI发布CriticGPT论文

OpenAI最近发布了一篇关于CriticGPT的论文，这是GPT-4的一个微调版本，专门用于批评ChatGPT生成的代码。与人类评估者相比，CriticGPT能够发现更多的错误并生成更好的批评。OpenAI计划使用CriticGPT来改进未来版本的模型。

CriticGPT的开发背景

在最初开发ChatGPT时，OpenAI使用了人类“AI训练师”来评估模型的输出，创建了一个数据集，通过人类反馈的强化学习（RLHF）进行微调。然而，随着AI模型的改进，它们现在能够在某些任务上达到人类专家的水平，这使得人类评估者难以评估其输出。CriticGPT是OpenAI在“可扩展监督”（scalable oversight）方面努力的一部分，旨在帮助解决这一问题。

CriticGPT的应用与评估

OpenAI首先专注于帮助ChatGPT提高其代码生成能力。研究人员使用CriticGPT生成代码的批评，并聘请合格的人类程序员进行同样的工作。在评估中，AI训练师80%的时间更喜欢CriticGPT的批评，表明CriticGPT可以成为RLHF训练数据的良好来源。

CriticGPT的微调过程

CriticGPT本身也是通过RLHF微调的GPT-4版本。在这个案例中，RLHF训练数据包括有错误的代码作为输入，以及人类生成的批评或错误解释作为期望输出。错误的代码是通过让ChatGPT编写代码，然后由人类承包商插入错误并撰写批评来生成的。

CriticGPT的评估结果

为了评估CriticGPT，OpenAI使用人类评估者对多个批评进行排名；评估者展示了CriticGPT和基线ChatGPT的输出，以及仅由人类生成的批评或由人类与CriticGPT辅助生成的批评（“Human+CriticGPT”）。评估者更喜欢CriticGPT的输出，而不是ChatGPT和人类批评者的输出。OpenAI还发现，Human+CriticGPT团队输出的批评比仅由人类生成的批评“更为全面”，但往往有更多的“挑剔”。

社区反应与相关研究

在Hacker News上关于这项工作的讨论中，一位用户提到这是Paul Christiano六年前提出的“迭代放大”（Iterated Amplification）对齐程序提案的实现。Paul Christiano曾是OpenAI语言模型对齐团队的负责人。除了OpenAI，其他公司也在进行可扩展监督的研究，特别是Anthropic，他们发表了关于使用LLM之间的辩论来提高模型真实性的研究论文。

总结

CriticGPT是OpenAI在可扩展监督方面的重要进展，通过微调GPT-4来帮助人类评估AI模型的输出。其评估结果表明，CriticGPT在生成代码批评方面优于基线模型和人类评估者，并且在人类辅助下生成更为全面的批评。这一研究也反映了AI安全领域的创新和紧迫性。