基于摘要的用于语言模型生成检索的文档 ID

主要观点:介绍了基于摘要的文档 ID 用于生成式检索,其文档 ID 由语言模型生成的提取式摘要或抽象式关键词组成,而非过去工作中的整数 ID 序列或 n 元语法包,通过实验发现抽象式、基于内容的 ID(ACID)和基于前 30 个标记的 ID 在与先前创建 ID 的方法直接比较中非常有效,使用 ACID 能分别在 MSMARCO 100k 检索任务和基于维基百科的 NQ 100k 检索任务中使 top-10 和 top-20 召回率提高 15.6%和 14.4%、9.8%和 9.9%,证明了通过摘要创建的人类可读、自然语言 ID 对生成式检索的有效性,且观察到在 NQ 中的维基百科文章上提取式 ID 优于抽象式 ID,但在 MSMARCO 的片段中并非如此,表明文档特征会影响生成式检索性能。
关键信息:生成式检索的流行方法,介绍基于摘要的文档 ID,不同版本的提交时间及大小,相关实验结果及在不同任务中的表现,将在 NLP for Wikipedia Workshop in EMNLP 2024 发表,涉及计算与语言(cs.CL)和信息检索(cs.IR)领域,可通过特定链接查看 PDF 和 HTML 版本,有相应的引用信息等。
重要细节:如具体提到在 MSMARCO 任务中基于 ACID 的召回率提升数据,在维基百科相关任务中的表现差异等细节内容。

阅读 12
0 条评论