Meta希望通过新AI模型提高维基百科的准确性

Meta AI 开发 SIDE 系统以提升维基百科引用准确性

Meta AI 的研究与进展团队最近开发了一个基于神经网络的系统,名为 SIDE,该系统能够一次性扫描数十万条维基百科引用,并检查这些引用是否真正支持相关的内容。

维基百科的背景与挑战

维基百科是一个多语言的免费在线百科全书,由志愿者通过开放协作和基于维基的编辑系统编写和维护。维基百科拥有约 650 万篇文章。由于维基百科是众包的,通常要求事实被佐证;引用、有争议的陈述和关于在世人物的争议性材料必须包含引用。志愿者会双重检查维基百科的脚注,但随着每月新增超过 17,000 篇文章,保持更新速度变得具有挑战性。读者常常对维基百科条目的准确性感到疑惑。人类编辑需要技术的帮助来识别无意义的陈述或缺乏引用的内容,但确定来源是否支持某个主张对 AI 来说是一项复杂的任务,因为它需要深入的理解来进行准确的分析。

SIDE 系统的开发与数据集

为此,Meta AI 研究团队创建了一个包含 1.34 亿个公共网页(分为 9.06 亿个段落,每段 100 个标记)的新数据集,这一数据集的规模比当前 NLP 研究中考虑的知识来源大一个数量级,并且比以往用于此类研究的数据集更为复杂。这一新数据集是神经网络模型的知识来源,该模型能够找到看似不相关的引用,并建议更适用的来源,指出支持主张的具体段落。

自然语言理解技术的应用

系统使用自然语言理解(NLU)技术来执行任务,允许系统评估引用。在 NLU 中,模型将人类句子(或单词、短语、段落)翻译成复杂的数学表示。该工具设计用于比较这些表示,以确定一个陈述是否支持或反驳另一个陈述。

Sphere 检索库

新数据集还作为系统的主要组件之一:Sphere,这是一个网络规模的检索库,并且已经开源。

SIDE 的工作流程

SIDE 的工作流程从维基百科的一个主张到建议新引用的决策过程如下:

  1. 主张被发送到 Sphere 检索引擎,该引擎从 Sphere 语料库中生成潜在候选文档列表。
  2. 稀疏检索子系统使用 seq2seq 模型将引用上下文翻译为查询文本,然后在 Sphere 的 BM25 索引上匹配生成的查询。
  3. 密集检索子系统是一个神经网络,它从维基百科数据中学习,将引用上下文编码为密集查询向量。
  4. 验证引擎根据主张对候选文档和原始引用进行排名。神经网络将主张和文档作为输入,并预测其对主张的支持程度。
  5. 模型通过 BERT 变换器计算验证分数,该变换器使用串联的主张和段落作为输入。

测试与目标

Sphere 在知识密集型语言任务基准上进行了测试,并在两个任务上超越了现有技术水平。Meta AI 的研究与进展团队表示,这项工作的目标是构建一个平台,帮助维基百科编辑系统地发现引用问题,并快速修复引用或纠正相应文章的内容。SIDE 已开源,并可以在此测试。

阅读 19
0 条评论