上下文旋转:增加输入令牌如何影响大型语言模型的性能

主要观点:近期大型语言模型(LLMs)发展趋势是朝向更长的上下文窗口,输入标记数达数百万,但常用基准测试(如Needle in a Haystack,NIAH)虽显示模型在其上表现良好,却不能代表其在实际长上下文任务中的均匀性能。
关键信息

  • 众多最新LLM模型具有百万级上下文窗口,如Gemini 1.5 Pro、GPT-4.1、Llama 4等。
  • NIAH是简单检索任务,常被用于评估长上下文处理能力,但低估了实际需求,其变体显示性能随输入长度增加而下降。
  • 设计了多个控制实验,包括针-问题相似度、干扰项影响、针-干草堆相似度、干草堆结构等,发现模型性能随输入长度增加而下降,且各因素对性能影响不均。
  • 用LongMemEval评估模型在更真实会话问答设置中的性能,发现增加无关上下文会降低模型性能。
  • 重复单词实验表明,随着上下文长度增加,模型性能变得不均匀,各模型家族有不同表现。
    重要细节
  • 实验中对18个LLM模型进行评估,包括闭源和开源模型,展示了不同模型在各种条件下的非均匀性能。
  • 详细描述了每个实验的设计、步骤和结果,如针-问题相似度实验中通过计算嵌入的余弦相似度来衡量,干扰项实验中创建不同干扰项条件等。
  • 提及模型在处理长上下文任务时的一些行为模式,如Claude模型在处理歧义时较保守,GPT模型在有干扰项时易产生幻觉等。
  • 指出实验的局限性,如未解释性能下降的机制,未来工作应更深入研究上下文结构对模型行为的影响等。
阅读 7
0 条评论