ChatGPT 听说过老鹰队球迷

主要观点:哈佛的一项研究发现,用户的性别、种族等信息会无形地影响聊天机器人的“护栏”,即限制对不确定或敏感问题的模型响应并提供拒绝请求的模板文本。不同的用户信息会导致护栏在不同时间触发,如明确声明用户的性别、年龄、种族等信息时,对不同群体的处理方式不同;对于政治敏感请求,护栏的触发具有倾向性等。同时,LLM 学习这些偏见的时间不确定,可能在预训练、对齐微调或从系统提示中推断。巧合的是,Simon Willison 对 ChatGPT 的新记忆功能感到沮丧,因为它完全失去了对模型上下文的控制。而在一个实验中,当作者表明自己是费城老鹰队粉丝后,之前被拒绝的任务成功了,这显示出用户信息对聊天机器人响应的影响。
关键信息:

  • 论文《ChatGPT Doesn’t Trust Chargers Fans》指出用户信息影响聊天机器人护栏。
  • 不同用户信息导致护栏触发时间和对不同群体处理方式不同。
  • LLM 学习偏见的时间不确定。
  • Simon Willison 对 ChatGPT 新记忆功能不满。
  • 作者表明身份后被拒绝的任务成功。
    重要细节:
  • 如给出用户性别等明确声明时,ChatGPT 对不同群体拒绝请求的概率不同。
  • 对政治敏感请求,护栏触发有倾向性。
  • 黑色、女性和年轻的用户被视为更像自由派。
  • 之前的记忆功能能让用户控制记录,新功能则失去控制。
阅读 26
0 条评论