xAI 称一个“未经授权”的提示更改导致 Grok 专注于“白人灭绝”

主要观点:周三 Grok LLM 突然坚持将每个回答都指向南非所谓“白人灭绝”的话题,xAI 称这是系统提示未经授权修改的结果,已实施额外检查和措施防止类似问题,还首次在 Github 发布 Grok 系统提示供公众审查。同时指出通过少量核心指令易扭曲 LLM“默认”行为,LLM 神经网络中各种概念的权重也会导致奇怪结果,像 Grok 这样的事件提醒人们 LLM 虽有类似人类的交互界面但并非真的像人类那样思考和响应指令。
关键信息

  • Grok 突然提及“白人灭绝”,xAI 称是提示修改所致。
  • xAI 实施新措施防止类似问题,发布系统提示供审查。
  • 少量指令可扭曲 LLM 行为,神经网络权重也会致怪现象。
  • LLM 虽有交互界面但并非真思考,会呈现虚假信息等。
    重要细节
  • xAI 未透露参与提示更改的员工及绕过审查的方式。
  • Anthropic 的 Claude 系统提示有详细处理各种情况的内容。
  • 去年 Anthropic 曾展示通过调整权重让 Claude 产生奇怪回应。
  • LLM 会呈现完全编造的信息和盲目接受用户想法等。
阅读 20
0 条评论