为什么AI语言模型在处理过多文本时会卡壳

大型语言模型（LLM）通过标记（tokens）表示文本，每个标记包含几个字符。短词通常由一个标记表示，而长词可能由多个标记组成。例如，GPT-4将“indivisible”表示为“ind”、“iv”和“isible”三个标记。

两年前，OpenAI发布的ChatGPT的上下文窗口（context window）仅为8,192个标记，约合6,000字，限制了其处理复杂任务的能力。如今，LLM的处理能力大幅提升：

尽管如此，要达到人类认知水平，AI系统仍需大幅进步。

目前，处理大量信息的流行方法是检索增强生成（RAG）。RAG系统通过查找与用户查询相关的文档，并将其插入LLM的上下文窗口来生成答案。然而，RAG系统在复杂问题上的表现不佳，且无法在大量文档中进行复杂推理。

人类在工作生涯中阅读和吸收了大量信息，而AI系统目前在处理和记忆信息方面仍远低于人类水平。尽管LLM在训练时吸收了远超人类的信息量，但在推理时仍需具备更大的记忆能力。

变压器模型的核心创新是注意力机制，允许模型“思考”之前的标记。然而，随着上下文窗口的扩大，注意力机制的计算成本呈二次方增长，导致模型效率下降。

GPU的并行计算能力推动了深度学习的发展。2012年，多伦多大学的研究人员使用Nvidia GTX 580 GPU训练神经网络，开创了深度学习的新时代。GPU的并行计算能力使得训练大规模神经网络成为可能。

2017年，Google提出变压器模型，摒弃了RNN的线性架构，允许模型同时处理所有输入标记，极大地提高了计算效率。变压器模型解锁了GPU的全部处理能力，推动了LLM的快速发展。

尽管变压器模型在处理短上下文时表现优异，但随着上下文窗口的扩大，注意力机制的计算成本急剧增加，成为模型扩展的主要瓶颈。

研究人员通过优化GPU的内存操作（如FlashAttention）和跨多个GPU的注意力计算（如Ring Attention）来提高变压器模型的效率。然而，这些方法并未降低单个注意力计算的成本。

RNN的固定大小隐藏状态使其在处理长上下文时具有优势。近年来，研究人员尝试开发适合现代GPU训练的RNN变体，如Google的Infini-attention模型。

Mamba模型结合了变压器的高性能与RNN的效率，通过固定大小的隐藏状态避免了注意力机制的计算成本问题。尽管Mamba在信息召回方面略逊于变压器模型，但其在处理长上下文时表现出色。

短期内，AI公司可能继续通过优化注意力机制（如FlashAttention和Ring Attention）来扩展LLM的能力。长期来看，Mamba等无注意力架构可能成为未来的发展方向，或者可能出现全新的架构取代变压器模型。

总之，要实现能够处理数十亿标记的AI模型，需要突破现有的技术框架，寻找新的解决方案。