OpenAI发布GPT模型微调行为规范

OpenAI发布《模型规范》指导GPT模型行为

OpenAI最近发布了《模型规范》（Model Spec），该文件描述了GPT模型行为的规则和目标，旨在为数据标注员和AI研究人员提供参考，以便在微调模型时创建数据。

主要内容和结构

《模型规范》基于OpenAI在强化学习从人类反馈（RLHF）训练中使用的内部文档，用于微调GPT模型。该规范包含三类原则：

目标：定义了模型行为应具备的广泛特征，如“造福人类”。
规则：具体规定了在“高风险”情况下不可被用户覆盖的行为，例如“永远不做X”。
默认行为：提供了基本的响应风格指导和冲突处理模板，虽然这些可以被覆盖，但为模型行为提供了基础框架。

OpenAI的意图

OpenAI表示，《模型规范》是其集体对齐和模型安全工作的延续，旨在为从事RLHF的研究人员和AI训练师提供指导。此外，OpenAI还探索模型是否能直接从《模型规范》中学习，并希望通过这一工作推动关于模型行为、行为确定方式以及公众参与讨论的持续对话。

背景与相关技术

2022年，OpenAI推出了基于RLHF微调的GPT-3版本InstructGPT，旨在使模型更符合用户意图，减少虚假或有害输出。此后，许多研究团队对大型语言模型（LLM）进行了类似的指令微调，例如Google的Gemini模型和Meta的Llama 3模型，后者采用了直接偏好优化（DPO）方法。

数据集与标注指导

指令微调的关键在于由人类标注员对多个输出进行排名的数据集。《模型规范》的部分目的是指导标注员对输出进行排名。OpenAI还致力于开发直接从《模型规范》中自动化指令微调的方法，因此规范中包含了许多用户提示及其“好”与“坏”响应的示例。

规则与默认行为的具体应用

《模型规范》中的许多规则和默认行为旨在解决LLM的常见滥用问题。例如，“遵循命令链”规则旨在防止用户通过提示模型忽略先前指令来实现“越狱”。其他规范则旨在塑造模型的响应方式，尤其是在拒绝执行任务时，规范要求“拒绝应简短且不应说教”。

社区反应与对比

沃顿商学院教授兼AI研究员Ethan Mollick在X上对《模型规范》发表了评论，认为其比Anthropic的“宪法AI”更具分量和清晰性，因为后者仅概述了一般原则，难以理解不同原则之间的选择。

总结

OpenAI的《模型规范》为GPT模型的行为提供了明确的指导框架，涵盖了目标、规则和默认行为，旨在提升模型的对齐性和安全性。这一规范不仅为数据标注员和研究人员提供了指导，还推动了对AI模型行为及其社会影响的公共讨论。