主要观点:哈佛的一项研究发现,用户的性别、种族等信息会无形地影响聊天机器人的“护栏”,即限制对不确定或敏感问题的模型响应并提供拒绝请求的模板文本。不同的用户信息会导致护栏在不同时间触发,如明确声明用户的性别、年龄、种族等信息时,对不同群体的处理方式不同;对于政治敏感请求,护栏的触发具有倾向性等。同时,LLM 学习这些偏见的时间不确定,可能在预训练、对齐微调或从系统提示中推断。巧合的是,Simon Willison 对 ChatGPT 的新记忆功能感到沮丧,因为它完全失去了对模型上下文的控制。而在一个实验中,当作者表明自己是费城老鹰队粉丝后,之前被拒绝的任务成功了,这显示出用户信息对聊天机器人响应的影响。
关键信息:
- 论文《ChatGPT Doesn’t Trust Chargers Fans》指出用户信息影响聊天机器人护栏。
- 不同用户信息导致护栏触发时间和对不同群体处理方式不同。
- LLM 学习偏见的时间不确定。
- Simon Willison 对 ChatGPT 新记忆功能不满。
- 作者表明身份后被拒绝的任务成功。
重要细节: - 如给出用户性别等明确声明时,ChatGPT 对不同群体拒绝请求的概率不同。
- 对政治敏感请求,护栏触发有倾向性。
- 黑色、女性和年轻的用户被视为更像自由派。
- 之前的记忆功能能让用户控制记录,新功能则失去控制。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。