为什么AI语言模型在处理过多文本时会卡壳

大型语言模型(LLM)的进展与挑战

1. 模型处理能力的提升

大型语言模型(LLM)通过标记(tokens)表示文本,每个标记包含几个字符。短词通常由一个标记表示,而长词可能由多个标记组成。例如,GPT-4将“indivisible”表示为“ind”、“iv”和“isible”三个标记。

两年前,OpenAI发布的ChatGPT的上下文窗口(context window)仅为8,192个标记,约合6,000字,限制了其处理复杂任务的能力。如今,LLM的处理能力大幅提升:

  • OpenAI的GPT-4o可处理128,000个标记(约200页文本)。
  • Anthropic的Claude 3.5 Sonnet可接受200,000个标记(约300页文本)。
  • Google的Gemini 1.5 Pro允许处理2百万个标记(约2,000页文本)。

尽管如此,要达到人类认知水平,AI系统仍需大幅进步。

2. 检索增强生成(RAG)的局限性

目前,处理大量信息的流行方法是检索增强生成(RAG)。RAG系统通过查找与用户查询相关的文档,并将其插入LLM的上下文窗口来生成答案。然而,RAG系统在复杂问题上的表现不佳,且无法在大量文档中进行复杂推理。

3. 记忆与推理的挑战

人类在工作生涯中阅读和吸收了大量信息,而AI系统目前在处理和记忆信息方面仍远低于人类水平。尽管LLM在训练时吸收了远超人类的信息量,但在推理时仍需具备更大的记忆能力。

4. 变压器模型的瓶颈

变压器模型的核心创新是注意力机制,允许模型“思考”之前的标记。然而,随着上下文窗口的扩大,注意力机制的计算成本呈二次方增长,导致模型效率下降。

5. GPU与深度学习的革命

GPU的并行计算能力推动了深度学习的发展。2012年,多伦多大学的研究人员使用Nvidia GTX 580 GPU训练神经网络,开创了深度学习的新时代。GPU的并行计算能力使得训练大规模神经网络成为可能。

6. 变压器模型的突破

2017年,Google提出变压器模型,摒弃了RNN的线性架构,允许模型同时处理所有输入标记,极大地提高了计算效率。变压器模型解锁了GPU的全部处理能力,推动了LLM的快速发展。

7. 变压器模型的扩展问题

尽管变压器模型在处理短上下文时表现优异,但随着上下文窗口的扩大,注意力机制的计算成本急剧增加,成为模型扩展的主要瓶颈。

8. 注意力机制的优化

研究人员通过优化GPU的内存操作(如FlashAttention)和跨多个GPU的注意力计算(如Ring Attention)来提高变压器模型的效率。然而,这些方法并未降低单个注意力计算的成本。

9. RNN的潜在回归

RNN的固定大小隐藏状态使其在处理长上下文时具有优势。近年来,研究人员尝试开发适合现代GPU训练的RNN变体,如Google的Infini-attention模型。

10. Mamba模型的潜力

Mamba模型结合了变压器的高性能与RNN的效率,通过固定大小的隐藏状态避免了注意力机制的计算成本问题。尽管Mamba在信息召回方面略逊于变压器模型,但其在处理长上下文时表现出色。

11. 未来展望

短期内,AI公司可能继续通过优化注意力机制(如FlashAttention和Ring Attention)来扩展LLM的能力。长期来看,Mamba等无注意力架构可能成为未来的发展方向,或者可能出现全新的架构取代变压器模型。

总之,要实现能够处理数十亿标记的AI模型,需要突破现有的技术框架,寻找新的解决方案。

阅读 14
0 条评论