OpenAI发布GPT模型微调行为规范

OpenAI发布《模型规范》指导GPT模型行为

OpenAI最近发布了《模型规范》(Model Spec),该文件描述了GPT模型行为的规则和目标,旨在为数据标注员和AI研究人员提供参考,以便在微调模型时创建数据。

主要内容和结构

《模型规范》基于OpenAI在强化学习从人类反馈(RLHF)训练中使用的内部文档,用于微调GPT模型。该规范包含三类原则:

  1. 目标:定义了模型行为应具备的广泛特征,如“造福人类”。
  2. 规则:具体规定了在“高风险”情况下不可被用户覆盖的行为,例如“永远不做X”。
  3. 默认行为:提供了基本的响应风格指导和冲突处理模板,虽然这些可以被覆盖,但为模型行为提供了基础框架。

OpenAI的意图

OpenAI表示,《模型规范》是其集体对齐和模型安全工作的延续,旨在为从事RLHF的研究人员和AI训练师提供指导。此外,OpenAI还探索模型是否能直接从《模型规范》中学习,并希望通过这一工作推动关于模型行为、行为确定方式以及公众参与讨论的持续对话。

背景与相关技术

2022年,OpenAI推出了基于RLHF微调的GPT-3版本InstructGPT,旨在使模型更符合用户意图,减少虚假或有害输出。此后,许多研究团队对大型语言模型(LLM)进行了类似的指令微调,例如Google的Gemini模型和Meta的Llama 3模型,后者采用了直接偏好优化(DPO)方法。

数据集与标注指导

指令微调的关键在于由人类标注员对多个输出进行排名的数据集。《模型规范》的部分目的是指导标注员对输出进行排名。OpenAI还致力于开发直接从《模型规范》中自动化指令微调的方法,因此规范中包含了许多用户提示及其“好”与“坏”响应的示例。

规则与默认行为的具体应用

《模型规范》中的许多规则和默认行为旨在解决LLM的常见滥用问题。例如,“遵循命令链”规则旨在防止用户通过提示模型忽略先前指令来实现“越狱”。其他规范则旨在塑造模型的响应方式,尤其是在拒绝执行任务时,规范要求“拒绝应简短且不应说教”。

社区反应与对比

沃顿商学院教授兼AI研究员Ethan Mollick在X上对《模型规范》发表了评论,认为其比Anthropic的“宪法AI”更具分量和清晰性,因为后者仅概述了一般原则,难以理解不同原则之间的选择。

相关技术发展

Anthropic在2022年提出了“宪法AI”的概念,使用AI模型对输出进行排名以实现指令微调。尽管Anthropic的代码未开源,但HuggingFace基于其工作发布了宪法AI的参考实现。

总结

OpenAI的《模型规范》为GPT模型的行为提供了明确的指导框架,涵盖了目标、规则和默认行为,旨在提升模型的对齐性和安全性。这一规范不仅为数据标注员和研究人员提供了指导,还推动了对AI模型行为及其社会影响的公共讨论。

阅读 21
0 条评论