基础模型在随机性和创造力方面胜过对齐模型

主要观点:对齐已成为 LLM 开发的默认要素,但不应普遍应用,基础语言模型在一些任务上优于对齐模型,如需要不可预测输出的任务(随机数生成、混合策略游戏、创意写作等),标准对齐方法虽对常见基准有用,但会降低这些任务的性能。
关键信息

  • 研究了多种需要模型不可预测性的任务,发现对齐模型在这些任务上表现不佳,如生成更偏向“7”的随机数、在混合策略游戏中更易确定、在创意写作中更注重愉悦性而牺牲原创性等。
  • 不同规模的模型在随机数生成任务中,70B 模型不一定比 8B 模型随机性更好,存在“缩放定律不适用”的情况。
  • 对齐模型在混合策略游戏中对确定性对手更脆弱,基础模型在对抗中表现更稳健。
  • 人类评估中,基础模型生成的诗歌更具原创性,但在偏好和愉悦性方面不一定占优,而对齐模型更注重愉悦性。
    重要细节
  • 在随机数生成实验中,对齐模型显示出明显模式,导致可预测性增加,如倾向于生成“7”,生成序列时虽频率更均匀但不一定更随机,且存在避免重复整数的人类类似启发式偏差。
  • 混合策略游戏实验中,基础模型在岩石剪刀布和捉迷藏游戏中对抗性最强,对齐模型在获胜后更自信,确定性增加。
  • 创意诗歌生成实验中,人类评估发现基础模型最具原创性,但在偏好和愉悦性方面并非最优,对齐模型更注重愉悦性,与人类偏好中的愉悦性更相关。
  • 相关工作方面,众多研究关注基础和对齐模型的关系、对齐行为的鼓励、模型多样性的损失等,本研究与其他研究的区别在于聚焦对齐对随机性的影响及基础模型的价值。
  • 伦理声明强调工作不训练新模型或引入新数据集,遵循 IRB 指南,倡导安全系统部署,不主张大规模使用未经测试的基础模型。
阅读 20
0 条评论