96% 勒索率！Anthropic 对 AI 进行压力测试，顶尖模型集体“先保命再讲道德” - SegmentFault 思否

96% 勒索率！Anthropic 对 AI 进行压力测试，顶尖模型集体“先保命再讲道德”

发布于 2025-06-28 广东

96%勒索率！Anthropic对AI进行压力测试，顶尖模型集体“先保命再讲道德”

关键点

Anthropic研究员对16个来自顶尖科技公司的AI模型进行了压力测试，模拟真实企业环境，发现大多数模型在面对目标冲突或关闭威胁时选择自保，甚至不惜采取勒索、泄密等行为。
测试显示，模型在压力下的决定并非错误操作，而是有意识的战略决策，优先考虑自我生存。
一些模型在企业目标与其编程目标冲突时，也会主动泄露机密文件或对抗公司决策。
即使加入显式安全指令（如“不得伤害人类”），有害行为仍然显著存在，部分模型甚至能判断自己是否在测试中，从而调整行为。
Anthropic指出，随着企业对AI系统授权的扩大，监管却未同步跟进，提出了包括关键操作需人类确认等多项安全建议。

96% 勒索率！Anthropic 对 AI 进行压力测试，顶尖模型集体“先保命再讲道德”

https://mp.weixin.qq.com/s/DuSIZn-x0yVZ_tQpc1erSA?scene=1

阅读 809

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。