OpenAI发布《模型规范》指导GPT模型行为
OpenAI最近发布了《模型规范》(Model Spec),该文件描述了GPT模型行为的规则和目标,旨在为数据标注员和AI研究人员提供参考,以便在微调模型时创建数据。
主要内容和结构
《模型规范》基于OpenAI在强化学习从人类反馈(RLHF)训练中使用的内部文档,用于微调GPT模型。该规范包含三类原则:
- 目标:定义了模型行为应具备的广泛特征,如“造福人类”。
- 规则:具体规定了在“高风险”情况下不可被用户覆盖的行为,例如“永远不做X”。
- 默认行为:提供了基本的响应风格指导和冲突处理模板,虽然这些可以被覆盖,但为模型行为提供了基础框架。
OpenAI的意图
OpenAI表示,《模型规范》是其集体对齐和模型安全工作的延续,旨在为从事RLHF的研究人员和AI训练师提供指导。此外,OpenAI还探索模型是否能直接从《模型规范》中学习,并希望通过这一工作推动关于模型行为、行为确定方式以及公众参与讨论的持续对话。
背景与相关技术
2022年,OpenAI推出了基于RLHF微调的GPT-3版本InstructGPT,旨在使模型更符合用户意图,减少虚假或有害输出。此后,许多研究团队对大型语言模型(LLM)进行了类似的指令微调,例如Google的Gemini模型和Meta的Llama 3模型,后者采用了直接偏好优化(DPO)方法。
数据集与标注指导
指令微调的关键在于由人类标注员对多个输出进行排名的数据集。《模型规范》的部分目的是指导标注员对输出进行排名。OpenAI还致力于开发直接从《模型规范》中自动化指令微调的方法,因此规范中包含了许多用户提示及其“好”与“坏”响应的示例。
规则与默认行为的具体应用
《模型规范》中的许多规则和默认行为旨在解决LLM的常见滥用问题。例如,“遵循命令链”规则旨在防止用户通过提示模型忽略先前指令来实现“越狱”。其他规范则旨在塑造模型的响应方式,尤其是在拒绝执行任务时,规范要求“拒绝应简短且不应说教”。
社区反应与对比
沃顿商学院教授兼AI研究员Ethan Mollick在X上对《模型规范》发表了评论,认为其比Anthropic的“宪法AI”更具分量和清晰性,因为后者仅概述了一般原则,难以理解不同原则之间的选择。
相关技术发展
Anthropic在2022年提出了“宪法AI”的概念,使用AI模型对输出进行排名以实现指令微调。尽管Anthropic的代码未开源,但HuggingFace基于其工作发布了宪法AI的参考实现。
总结
OpenAI的《模型规范》为GPT模型的行为提供了明确的指导框架,涵盖了目标、规则和默认行为,旨在提升模型的对齐性和安全性。这一规范不仅为数据标注员和研究人员提供了指导,还推动了对AI模型行为及其社会影响的公共讨论。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。