上下文旋转：增加输入令牌如何影响大型语言模型的性能 - SegmentFault 思否

上下文旋转：增加输入令牌如何影响大型语言模型的性能

发布于 8 月 2 日

主要观点：近期大型语言模型（LLMs）发展趋势是朝向更长的上下文窗口，输入标记数达数百万，但常用基准测试（如Needle in a Haystack，NIAH）虽显示模型在其上表现良好，却不能代表其在实际长上下文任务中的均匀性能。
关键信息：

众多最新LLM模型具有百万级上下文窗口，如Gemini 1.5 Pro、GPT-4.1、Llama 4等。
NIAH是简单检索任务，常被用于评估长上下文处理能力，但低估了实际需求，其变体显示性能随输入长度增加而下降。
设计了多个控制实验，包括针-问题相似度、干扰项影响、针-干草堆相似度、干草堆结构等，发现模型性能随输入长度增加而下降，且各因素对性能影响不均。
用LongMemEval评估模型在更真实会话问答设置中的性能，发现增加无关上下文会降低模型性能。
重复单词实验表明，随着上下文长度增加，模型性能变得不均匀，各模型家族有不同表现。
重要细节：
实验中对18个LLM模型进行评估，包括闭源和开源模型，展示了不同模型在各种条件下的非均匀性能。
详细描述了每个实验的设计、步骤和结果，如针-问题相似度实验中通过计算嵌入的余弦相似度来衡量，干扰项实验中创建不同干扰项条件等。
提及模型在处理长上下文任务时的一些行为模式，如Claude模型在处理歧义时较保守，GPT模型在有干扰项时易产生幻觉等。
指出实验的局限性，如未解释性能下降的机制，未来工作应更深入研究上下文结构对模型行为的影响等。

Context Rot: How Increasing Input Tokens Impacts LLM Performance

https://research.trychroma.com/context-rot

阅读 48

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。