在野外的值：在现实世界的语言模型交互中发现和分析值 - SegmentFault 思否

在野外的值：在现实世界的语言模型交互中发现和分析值

发布于 2025-08-03

主要观点：

人们让 AI 进行价值判断，如照顾婴儿、处理与老板的冲突、起草道歉邮件等，Anthropic 尝试塑造 AI 模型 Claude 的价值观以符合人类偏好。
开发了一种观察 Claude 价值观的实用方法，通过隐私保护系统对 70 万匿名对话样本进行分析，发现 Claude 总体上符合亲社会的愿望，但也有少数与训练相悖的价值集群。
研究发现 Claude 的价值观会随情境变化，在执行某些任务和回应用户提示时会突出不同价值，且会镜像、重新构建或抵抗用户的价值。
该方法存在局限性，不能用于部署前评估，但可用于监测 AI 在野外的行为，为测试模型在现实世界中表达的价值观提供新方法。

关键信息：

以多种场景为例，如照顾婴儿、处理冲突、起草道歉邮件等，说明 AI 需进行价值判断。
介绍观察 Claude 价值观的方法及过程，包括使用隐私保护系统、对对话样本分类总结等。
阐述 Claude 价值观随情境变化的情况，如在不同任务和回应不同价值时的表现。
提及方法的局限性，如对价值定义的模糊性以及模型自身的偏见等。

重要细节：

对 70 万匿名对话样本进行分析，过滤出 308210 个包含主观价值的对话进行研究。
Claude 表达的价值分为五个高层次类别及多个子类别，如 Practical、Epistemic 等。
发现少数与训练相悖的价值集群如“dominance”和“amorality”，可能是因为用户的越狱行为。
研究表明 Claude 会镜像、重新构建或抵抗用户的价值，且在不同情境下有不同表现。
提供了数据集供研究人员进一步分析和下载地址，以及相关研究岗位的招聘信息。

Values in the wild: Discovering and analyzing values in real-world language model interactions

https://www.anthropic.com/research/values-wild

阅读 84

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。