研究指出,AI搜索引擎引用错误新闻来源的比例高达60%,令人震惊

AI新闻搜索工具的准确性研究

哥伦比亚新闻评论的Tow数字新闻中心发布了一项新研究,揭示了生成式AI模型在新闻搜索中的严重准确性问题。研究人员测试了八种AI驱动的搜索工具,提供真实新闻文章的直接摘录,并要求模型识别每篇文章的原始标题、出版商、发布日期和URL。研究发现,这些AI模型在超过60%的查询中错误引用了来源,引发了对其在正确归因新闻内容方面的可靠性的重大担忧。

主要发现

  • 错误率:测试的八种生成式搜索工具在1600次查询中,AI模型错误引用了超过60%的来源。
  • 平台差异:Perplexity在37%的查询中提供了错误信息,ChatGPT Search错误识别了67%的文章,而Grok 3的错误率高达94%。
  • 普遍问题:所有测试的AI模型在缺乏可靠信息时,经常提供看似合理但错误或推测性的答案,这种现象被称为“虚构”。

付费版本的表现

  • 付费版本更差:Perplexity Pro(20美元/月)和Grok 3的付费服务(40美元/月)在不确定时更频繁地提供错误答案,尽管它们正确回答的提示数量更多,但总体错误率更高。

引用和出版商控制问题

  • 无视Robot Exclusion Protocol:一些AI工具无视出版商的Robot Exclusion Protocol设置,例如Perplexity的免费版本正确识别了所有10篇来自National Geographic的付费内容,尽管National Geographic明确禁止其网络爬虫访问。
  • 引用问题:即使AI搜索工具引用了来源,它们也经常将用户引导到Yahoo News等平台上的内容,而不是原始出版商网站。
  • URL伪造:超过一半的Google Gemini和Grok 3的引用导致用户访问伪造或损坏的URL,导致错误页面。

出版商的困境

  • 选择困难:阻止AI爬虫可能导致完全失去归因,而允许它们则允许广泛重用,而不会将流量带回出版商的网站。

未来展望

  • 改进空间:Time杂志的首席运营官Mark Howard表示,尽管存在这些问题,未来仍有改进空间,并指出“今天是产品最糟糕的时候”,并提到有大量投资和工程努力旨在改进这些工具。
  • 用户责任:Howard还暗示,如果用户不怀疑免费AI工具的准确性,那是用户的责任。

公司回应

  • OpenAI和微软:OpenAI和微软向CJR提供了声明,承认收到了研究结果,但没有直接解决具体问题。OpenAI承诺通过摘要、引用、清晰链接和归因支持出版商,微软表示遵守Robot Exclusion Protocol和出版商指令。

这项最新报告建立在2024年11月Tow中心发布的先前研究基础上,该研究发现了ChatGPT在处理新闻内容时的类似准确性问题。更多详细信息可访问哥伦比亚新闻评论的网站。

阅读 9 (UV 9)
0 条评论