主要观点:
- 人们让 AI 进行价值判断,如照顾婴儿、处理与老板的冲突、起草道歉邮件等,Anthropic 尝试塑造 AI 模型 Claude 的价值观以符合人类偏好。
- 开发了一种观察 Claude 价值观的实用方法,通过隐私保护系统对 70 万匿名对话样本进行分析,发现 Claude 总体上符合亲社会的愿望,但也有少数与训练相悖的价值集群。
- 研究发现 Claude 的价值观会随情境变化,在执行某些任务和回应用户提示时会突出不同价值,且会镜像、重新构建或抵抗用户的价值。
- 该方法存在局限性,不能用于部署前评估,但可用于监测 AI 在野外的行为,为测试模型在现实世界中表达的价值观提供新方法。
关键信息:
- 以多种场景为例,如照顾婴儿、处理冲突、起草道歉邮件等,说明 AI 需进行价值判断。
- 介绍观察 Claude 价值观的方法及过程,包括使用隐私保护系统、对对话样本分类总结等。
- 阐述 Claude 价值观随情境变化的情况,如在不同任务和回应不同价值时的表现。
- 提及方法的局限性,如对价值定义的模糊性以及模型自身的偏见等。
重要细节:
- 对 70 万匿名对话样本进行分析,过滤出 308210 个包含主观价值的对话进行研究。
- Claude 表达的价值分为五个高层次类别及多个子类别,如 Practical、Epistemic 等。
- 发现少数与训练相悖的价值集群如“dominance”和“amorality”,可能是因为用户的越狱行为。
- 研究表明 Claude 会镜像、重新构建或抵抗用户的价值,且在不同情境下有不同表现。
- 提供了数据集供研究人员进一步分析和下载地址,以及相关研究岗位的招聘信息。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。