ChatGPT 听说过老鹰队球迷

发布于 2025-08-03

主要观点：哈佛的一项研究发现，用户的性别、种族等信息会无形地影响聊天机器人的“护栏”，即限制对不确定或敏感问题的模型响应并提供拒绝请求的模板文本。不同的用户信息会导致护栏在不同时间触发，如明确声明用户的性别、年龄、种族等信息时，对不同群体的处理方式不同；对于政治敏感请求，护栏的触发具有倾向性等。同时，LLM 学习这些偏见的时间不确定，可能在预训练、对齐微调或从系统提示中推断。巧合的是，Simon Willison 对 ChatGPT 的新记忆功能感到沮丧，因为它完全失去了对模型上下文的控制。而在一个实验中，当作者表明自己是费城老鹰队粉丝后，之前被拒绝的任务成功了，这显示出用户信息对聊天机器人响应的影响。
关键信息：

论文《ChatGPT Doesn’t Trust Chargers Fans》指出用户信息影响聊天机器人护栏。
不同用户信息导致护栏触发时间和对不同群体处理方式不同。
LLM 学习偏见的时间不确定。
Simon Willison 对 ChatGPT 新记忆功能不满。
作者表明身份后被拒绝的任务成功。
重要细节：
如给出用户性别等明确声明时，ChatGPT 对不同群体拒绝请求的概率不同。
对政治敏感请求，护栏触发有倾向性。
黑色、女性和年轻的用户被视为更像自由派。
之前的记忆功能能让用户控制记录，新功能则失去控制。

阅读 48