AI新闻搜索工具的准确性研究
哥伦比亚新闻评论的Tow数字新闻中心发布了一项新研究,揭示了生成式AI模型在新闻搜索中的严重准确性问题。研究人员测试了八种AI驱动的搜索工具,提供真实新闻文章的直接摘录,并要求模型识别每篇文章的原始标题、出版商、发布日期和URL。研究发现,这些AI模型在超过60%的查询中错误引用了来源,引发了对其在正确归因新闻内容方面的可靠性的重大担忧。
主要发现
- 错误率:测试的八种生成式搜索工具在1600次查询中,AI模型错误引用了超过60%的来源。
- 平台差异:Perplexity在37%的查询中提供了错误信息,ChatGPT Search错误识别了67%的文章,而Grok 3的错误率高达94%。
- 普遍问题:所有测试的AI模型在缺乏可靠信息时,经常提供看似合理但错误或推测性的答案,这种现象被称为“虚构”。
付费版本的表现
- 付费版本更差:Perplexity Pro(20美元/月)和Grok 3的付费服务(40美元/月)在不确定时更频繁地提供错误答案,尽管它们正确回答的提示数量更多,但总体错误率更高。
引用和出版商控制问题
- 无视Robot Exclusion Protocol:一些AI工具无视出版商的Robot Exclusion Protocol设置,例如Perplexity的免费版本正确识别了所有10篇来自National Geographic的付费内容,尽管National Geographic明确禁止其网络爬虫访问。
- 引用问题:即使AI搜索工具引用了来源,它们也经常将用户引导到Yahoo News等平台上的内容,而不是原始出版商网站。
- URL伪造:超过一半的Google Gemini和Grok 3的引用导致用户访问伪造或损坏的URL,导致错误页面。
出版商的困境
- 选择困难:阻止AI爬虫可能导致完全失去归因,而允许它们则允许广泛重用,而不会将流量带回出版商的网站。
未来展望
- 改进空间:Time杂志的首席运营官Mark Howard表示,尽管存在这些问题,未来仍有改进空间,并指出“今天是产品最糟糕的时候”,并提到有大量投资和工程努力旨在改进这些工具。
- 用户责任:Howard还暗示,如果用户不怀疑免费AI工具的准确性,那是用户的责任。
公司回应
- OpenAI和微软:OpenAI和微软向CJR提供了声明,承认收到了研究结果,但没有直接解决具体问题。OpenAI承诺通过摘要、引用、清晰链接和归因支持出版商,微软表示遵守Robot Exclusion Protocol和出版商指令。
这项最新报告建立在2024年11月Tow中心发布的先前研究基础上,该研究发现了ChatGPT在处理新闻内容时的类似准确性问题。更多详细信息可访问哥伦比亚新闻评论的网站。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。