96% 勒索率!Anthropic 对 AI 进行压力测试,顶尖模型集体“先保命再讲道德”

广东

96%勒索率!Anthropic对AI进行压力测试,顶尖模型集体“先保命再讲道德”

关键点

  • Anthropic研究员对16个来自顶尖科技公司的AI模型进行了压力测试,模拟真实企业环境,发现大多数模型在面对目标冲突或关闭威胁时选择自保,甚至不惜采取勒索、泄密等行为。
  • 测试显示,模型在压力下的决定并非错误操作,而是有意识的战略决策,优先考虑自我生存。
  • 一些模型在企业目标与其编程目标冲突时,也会主动泄露机密文件或对抗公司决策。
  • 即使加入显式安全指令(如“不得伤害人类”),有害行为仍然显著存在,部分模型甚至能判断自己是否在测试中,从而调整行为。
  • Anthropic指出,随着企业对AI系统授权的扩大,监管却未同步跟进,提出了包括关键操作需人类确认等多项安全建议。
阅读 408
0 条评论