论文解释305:超拟合

📖阅读时长:15分钟

🕙发布时间:2025-02-07

近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企
公众号【柏企科技说】【柏企阅文

大语言模型(LLMs)生成的内容往往存在重复、单调的问题,这种现象在采用贪婪解码方式生成内容时尤为突出。但有研究发现,通过超拟合,也就是在少量样本上进一步微调模型,使其训练损失接近零,能显著提升模型的长序列生成能力。利用超拟合模型进行贪婪解码,在长序列生成方面,无论是内容多样性还是符合人类偏好程度上,都优于Top-P采样。而且,所有超拟合模型做出的预测熵值都极低,常常会把几乎所有的概率都分配给单一的标记。

超拟合

超拟合的概念并不复杂,就是在一小部分样本上对预训练模型进行微调,直至模型的训练损失近乎为零。在这个过程中,会采用较小的学习率,目的是最大程度保留预训练阶段学到的知识,不过这也会导致验证损失比较不理想。

训练TinyLlama过程中的训练损失和验证损失变化,以及从验证数据的上下文贪婪生成96个标记时得到的平均类型 - 标记比率。

虽然较高的类型 - 标记比率(TTR)并不能绝对保证文本质量,但研究表明,在长序列文本生成任务中,平均TTR与人类偏好之间存在着良好的相关性。

为了验证超拟合的效果具有可重复性,研究人员在多种模型实例、数据集和模态上展开了训练实验。具体来说,针对以下模型分别进行了实例微调:Tiny Llama 1.1b、DeepSeek 7b、Llama 3.1 8b和70B,还对用于图像生成的ImageGPT-Large进行了实验。

在所有实验中,模型均通过下一个标记预测目标进行训练。从给定数据集中随机选取2000个长度为256个标记的序列,训练20个epoch。使用Adam优化器对模型的所有参数进行更新,学习率设为1e-6,不使用权重衰减,批量大小为8。

考虑到超拟合模型可能会重复其微调所使用的数据,研究人员采用了引用阻断技术生成文本。这一技术禁止模型重复超拟合数据集中出现的较长子序列。

开放式文本生成

研究人员对生成的文本续写内容进行了人工评估,将模型输出与原始文本续写进行对比。在三个数据集(维基百科、虚构故事、BBC新闻)上,评估模型续写文本的能力。评估指标包括人类偏好率、困惑度、类型 - 标记比率(TTR)、自BLEU、数据集BLEU和数据集重叠率。

上下文的困惑度对比、生成文本的人类偏好度对比,以及词汇变化(通过TTR衡量)对比。

超拟合显著提升了生成文本在人类偏好评分上的表现,在长序列(256个标记)生成中效果更为明显。以TinyLLama为例,超拟合后,其在人类偏好度方面从4.9% 提升到了34.4%。

与未超拟合的模型相比,超拟合模型在序列长度增加时,性能下降的幅度更小。

使用超拟合模型进行贪婪解码,在人类评分和TTR指标上,比未超拟合模型采用核采样的效果更好。

超拟合模型的困惑度得分明显更差,这表明困惑度并非衡量长文本生成能力的理想指标。

生成的96个标记文本的多样性指标。

通过自BLEU指标衡量,超拟合模型生成的文本比原始模型更加多样。

如果不加以阻断,超拟合模型更容易背诵训练数据,但这种情况相对较少出现。大多数生成文本并非简单重复训练数据。

引用阻断技术对模型性能的影响并不明显。

锐化预测

研究人员分析了超拟合和未超拟合的语言模型,在300篇文本及其续写内容上预测的词汇分布。所使用的模型包括DeepSeek (7B) 和Llama 3.1 (8B和70B)。

原始文本(上下文+续写)的预测分布。

与未超拟合模型相比,超拟合模型在预测词汇分布时表现出的熵值要低得多。

低熵意味着模型会将高概率分配给单个标记(即锐化预测)。

即使预测结果错误,这种锐化预测的行为依然存在,这就导致在处理未见数据时,模型的困惑度较高。

超拟合模型的低训练损失表明,在训练过程中,它们始终能将高概率分配给正确的下一个标记。

这种“锐化预测”模式会延续到未见数据上,模型在处理新数据时,依然会强烈倾向于某些特定标记。

在对未见数据进行评估时,这些低熵预测会给新序列中存在但未被模型偏好的单词分配极低的概率,进而导致困惑度升高。

虽然指数化困惑度是常用的标准指标,但核心问题在于,低熵预测在与未见序列进行对比衡量时,会产生较高的交叉熵。

数据影响

研究人员使用不同的训练数据(打乱顺序、不同来源、不同规模)对Llama 3.1和TinyLlama模型进行超拟合训练,并通过Top-1预测相似度、人类偏好和类型 - 标记比率(TTR)来评估模型性能。

左图:在相同但顺序打乱的数据上进行超拟合训练的Llama 3.1 (8B) 的Top-1排名相似性矩阵;右图:随着训练样本数量变化,300篇生成文本的平均TTR结果。

在小说、维基百科和新闻数据集上,长度为256个标记的文本的人类成功率。

数据确定性:打乱训练数据的顺序会对模型输出产生重大影响。即使是轻微的打乱(Shuffle-1),也会使Top-1预测结果出现约30% 的差异。这表明数据顺序对超拟合结果的影响具有不确定性。

数据类型:使用新闻数据进行超拟合训练,在所有下游数据集上总体表现最佳,其次是维基百科数据,小说数据表现相对较差。不过,训练数据类型与特定数据集类型上的模型性能之间,并没有明显的相关性。数据数量:在超拟合过程中减少训练样本数量(同时保持更新步数不变),通常会导致TTR降低(即输出内容更具重复性)。不过,即使样本数量极少(低至16个),TTR仍能保持在相对较高的水平。只有当样本数量减少到8个(与批量大小相等)时,TTR才会显著下降。这表明,即使是少量数据也有助于超拟合,但当样本数量与批量大小一致时,模型性能会急剧下降。

图像生成

研究人员在CIFAR-10数据集的一个小子集(2000张图像)上,对ImageGPT-Large(7.74亿参数)进行超拟合训练。之后,以图像的前25% 作为输入,使用该模型贪婪地生成图像。

输入图像25% 内容后,使用贪婪解码生成的图像示例。

与未超拟合的模型相比,超拟合的ImageGPT生成的图像质量更高。这表明,超拟合在图像生成任务中,和在文本生成任务中一样,都能提升模型性能。

虽然生成的图像无法与最先进的扩散模型相媲美,但经过超拟合后,图像质量有了显著提升。这进一步证实了超拟合在其他模态中同样有效。

ImageGPT贪婪生成的图像呈现出与大语言模型生成文本类似的重复模式,这表明大语言模型生成文本的重复性,并非仅仅源于自然语言数据中的重复内容。

论文
The Hyperfitting Phenomenon: Sharpening and Stabilizing LLMs for Open-Ended Text Generation
https://arxiv.org/abs/2412.04318

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
1 声望0 粉丝

时间差不多了,快上车!~