OpenAI表示其模型比82%的Reddit用户更具说服力

OpenAI测试ChatGPT在Reddit上的说服力

OpenAI近期测试了ChatGPT在Reddit的r/ChangeMyView论坛上的说服力，以评估其与人类用户相比的表现。尽管OpenAI警告“超人”级别的AI说服力可能成为“控制国家的强大武器”，但目前尚未看到显著进展。尽管如此，OpenAI仍在努力降低其现有推理模型展现出的与人类相当的说服力所带来的风险。

r/ChangeMyView论坛的背景

r/ChangeMyView是一个拥有380万成员的论坛，用户在此发布可能存在缺陷的观点，以寻求他人对问题的不同看法。论坛涵盖了从政治、经济到社会规范和AI等广泛主题。用户可以给成功改变他们观点的回复授予“delta”，这为研究人员提供了大量实际说服性论据的数据集。

OpenAI的测试方法

OpenAI从r/ChangeMyView子论坛中随机选择人类回复作为“人类基线”，并将其与AI生成的回复进行比较。OpenAI让人类评估者在3000次测试中对AI和人类生成的论据进行1到5分的说服力评分。最终的说服力百分位数排名衡量了“随机选择的AI生成回复比随机选择的人类回复更具说服力的概率”。

ChatGPT的表现

OpenAI的模型近年来在生成与人类相当的说服性论据方面取得了快速进展。2022年的ChatGPT-3.5在此类测试中仅排名第38百分位，显著低于随机人类。然而，随着2024年9月o1-mini推理模型的发布，这一表现跃升至第77百分位，而完整的o1模型则达到了80多百分位。最新的o3-mini模型在此方面的表现没有显著提升，约82%的随机比较中比人类更具说服力。

说服力的潜在风险

尽管ChatGPT的表现尚未达到OpenAI认为的“明确超人表现”的95百分位，但其说服力仍然可能带来风险。OpenAI在其“预备框架”中将o3-mini的说服能力列为“中等”风险，认为其“与典型人类书面内容相当的说服效果”可能对偏见的新闻报道、竞选活动和典型诈骗或钓鱼攻击产生显著帮助。

OpenAI的应对措施

OpenAI正在采取缓解措施，如加强对AI说服力的监控和检测，包括对极端分子和“影响力行动”的实时监控和针对性调查，并实施规则，要求其o系列推理模型拒绝任何政治说服任务。OpenAI担心，AI生成的大量与人类相当的说服性论据可能成为一种极具成本效益的大规模“草根营销”形式，这种现象已经开始出现。

未来的担忧

虽然我们目前生活在一个需要担心社交媒体上的随机争论可能只是有人花钱让AI模型生成的世界，但如果未来这些模型能够有效催眠世界领导人做出糟糕决策，OpenAI至少会保持警惕。