打破语言模型的上下文障碍：InfiRetri 与 RAG

发布于 3 月 27 日

主要观点：大型语言模型面临超越训练数据检索和利用信息的挑战，InfiniRetri 和 retrieval-augmented generation（RAG）两种方法作为解决方案出现。
关键信息：

InfiniRetri 利用 LLM 自身注意力机制从长输入中检索相关上下文，采用滚动内存系统处理文本，在受控检索场景中检索准确率高，但依赖模型已有知识，不适用于需要实时知识的任务。
RAG 通过外部检索步骤增强模型，先搜索知识库找到相关文档再生成响应，能补充模型知识，在知识密集型任务中效果好，但计算成本高、有延迟。
两者在效率、准确性和计算需求上有明显对比，各有优势和局限性，未来可能会融合。
重要细节：
InfiniRetri 基于 transformer 模型的注意力机制，可处理长输入且优化内存效率，在 NIH 测试中对 100 万令牌检索准确率达 100%。
RAG 检索外部知识时需进行数据库搜索、文档检索和增强等操作，速度比 InfiniRetri 慢，且需维护检索基础设施。
未来检索系统可能会融合两者优势，如自适应检索模型和智能缓存机制，根据任务需求动态平衡内部和外部检索。
选择哪种方法取决于应用的具体需求，InfiniRetri 适合长文档处理，RAG 适合实时事实检查和外部知识增强。

阅读 15