键值缓存：实时大型语言模型背后的隐藏速度提升

发布于 8 月 1 日

主要观点：大型语言模型（LLM）工作时会出现响应变慢的情况，这是因为其采用自回归解码方式，生成文本时需逐个处理令牌，随着响应变长计算量增加。Transformer 架构虽训练快但推理时会变慢，注意力机制虽强大但计算量也大。KV 缓存可避免重复计算，将二次时间的注意力循环变为接近线性，能大幅提升 LLM 生成速度，在实际部署中可使生成速度提升 4 倍且不影响质量。

关键信息：

LLM 响应变慢原因：自回归解码及处理长序列时计算量增加。
Transformer 特点：训练时并行处理快，推理时逐令牌预测慢。
注意力机制：将令牌转为 Q、K、V 向量，通过计算得分加权值来决定关注内容，但每次计算需用到所有先前的 K 和 V。
KV 缓存原理：缓存已处理的 K 和 V，在每个解码步骤中仅计算新令牌的 Q，复用缓存的 K 和 V 进行注意力计算，避免重复计算。
实际应用中的加速效果：不同模型在使用 KV 缓存后生成速度有显著提升，如 GPT-2 提升 3.75 倍等。
适用场景：适用于处理长对话的聊天机器人、代码辅助工具、语音助手等顺序生成令牌的应用；不适用于单步推理且输出短、非自回归任务及训练时间。

重要细节：

文中通过代码示例详细说明了注意力机制和 KV 缓存的计算过程。
列举了不同模型在使用 KV 缓存前后的生成速度对比数据。
强调 KV 缓存是 LLM 实时部署的关键性能优化，而非小众技巧。

阅读 31