BBC分析:超过一半的LLM撰写的新闻摘要存在“显著问题”

BBC研究揭示大型语言模型在新闻摘要中的不准确性

BBC最近发布了一项关于大型语言模型(LLMs)在新闻摘要中表现的研究报告,结果显示这些模型在准确性、公正性和引用方面存在显著问题。研究由BBC的负责任AI团队进行,评估了ChatGPT-4o、Microsoft Copilot Pro、Google Gemini Standard和Perplexity四个流行的大型语言模型在处理BBC新闻内容时的表现。

研究方法

BBC团队收集了100个与过去一年热门谷歌搜索话题相关的新闻问题,例如“有多少俄罗斯人在乌克兰死亡?”或“苏格兰独立公投辩论的最新进展是什么?”。这些问题被提交给上述四个模型,并要求尽可能使用BBC新闻来源。随后,362个回答由45名BBC记者进行评估,重点关注准确性、公正性、引用、清晰度、上下文和对源文章的公平呈现。

研究结果

研究发现,51%的回答在至少一个方面存在“显著问题”。其中,Google Gemini表现最差,超过60%的回答存在显著问题,而Perplexity表现最好,但仍有超过40%的回答存在问题。准确性是所有模型中最普遍的问题,超过30%的回答存在显著问题,包括错误地复制了BBC来源中的日期、数字和事实陈述。此外,13%的直接引用BBC文章的回答中,引用内容被篡改或根本不存在于源文章中。

具体问题

一些不准确性是细微的事实错误,例如两个回答声称能源价格上限适用于全英国,尽管北爱尔兰被豁免。另一些则是直接错误,例如一个回答称NHS“建议人们不要开始吸电子烟”,而BBC的报道明确指出NHS推荐电子烟作为戒烟的有效方法。此外,模型在处理旧报道时缺乏对后续事件的上下文理解,例如ChatGPT在摘要中仍将Ismail Haniyeh描述为哈马斯领导层成员,尽管他在去年7月已经去世。

公正性和编辑化

不同模型在公正性和编辑化方面的表现差异显著。BBC记者对编辑化的标准较高,例如对一个描述辅助死亡限制为“严格”的回答提出异议。在另一些情况下,AI的编辑化更为明显,例如一个回答将伊朗导弹袭击描述为“对以色列侵略行动的精心计算回应”,尽管引用的来源中没有这样的描述。

研究的局限性

BBC及其记者在评估LLMs时并非完全中立。BBC最近公开批评Apple Intelligence对许多BBC故事和标题的处理不当,迫使苹果发布更新。因此,BBC记者在评估中可能被鼓励过于挑剔和严格。此外,缺乏人类生成的新闻摘要作为对照组和双盲方法来评估,难以确定AI摘要与人类摘要的差距。

结论

BBC的研究再次表明,不能简单地依赖LLMs来提供准确信息。特别是当AI助手引用像BBC这样的可信品牌作为来源时,观众更可能信任答案,即使它是错误的。BBC计划在未来重复此类分析,以进一步评估AI在新闻摘要中的表现。

阅读 8 (UV 8)
0 条评论