新型AI文本扩散模型通过从噪声中提取词汇突破速度壁垒

Mercury Coder:基于扩散技术的AI语言模型

Inception Labs于周四发布了Mercury Coder,这是一款基于扩散技术的新型AI语言模型,能够比传统模型更快地生成文本。与逐字生成文本的传统模型(如ChatGPT)不同,基于扩散的模型(如Mercury)能够同时生成整个响应,从最初的遮蔽状态逐步优化为连贯的文本。

传统模型与扩散模型的区别

传统的大型语言模型(如ChatGPT)使用自回归技术,从左到右逐字生成文本,每个单词必须等待前一个单词生成后才能出现。而基于扩散的模型(如LLaDA和Mercury)则受图像生成模型(如Stable Diffusion、DALL-E和Midjourney)的启发,采用遮蔽技术,从完全遮蔽的内容开始,逐步“去噪”,同时生成所有部分的响应。

在图像扩散模型中,噪声被连续添加到像素值中,而文本扩散模型无法对离散的文本数据应用连续噪声。因此,它们用特殊的遮蔽标记替换文本标记,作为噪声的等效物。LLaDA通过遮蔽概率控制噪声水平,高遮蔽代表高噪声,低遮蔽代表低噪声。扩散过程从高噪声向低噪声过渡。

训练与性能

与图像合成模型的创建类似,研究人员通过训练神经网络在部分遮蔽的数据上预测最可能的完成内容,并将其与实际答案进行比较。如果模型预测正确,神经网络中导致正确答案的连接会得到加强。经过足够的训练,模型可以生成足够可信的输出,尽管目前在许多主题上仍然存在虚构内容。

Inception Labs表示,其方法允许模型优化输出并纠正错误,因为它不仅限于考虑先前生成的文本。这种并行处理使Mercury在Nvidia H100 GPU上实现了每秒1000多个标记的生成速度。

性能比较

扩散模型在性能上与传统模型相当或更快。LLaDA的8B参数模型在各种基准测试中表现与LLaMA3 8B相当,而Mercury Coder Mini在HumanEval和MBPP测试中分别得分为88.0%和77.1%,与GPT-4o Mini相当,但生成速度是后者的19倍(1109标记/秒 vs 59标记/秒)。与其他速度优化模型相比,Mercury Coder Mini的速度优势依然显著,比Gemini 2.0 Flash-Lite快5.5倍,比Claude 3.5 Haiku快18倍。

潜在应用与未来前景

扩散模型虽然需要多次前向传递来生成完整响应,但由于并行处理所有标记,仍然实现了更高的吞吐量。Inception Labs认为,这种速度优势可能会影响代码补全工具、对话AI应用、资源有限的环境(如移动应用)以及需要快速响应的AI代理。

如果基于扩散的语言模型在保持质量的同时提高速度,它们可能会改变AI文本生成的发展方向。尽管这些模型在处理复杂推理任务和减少虚构内容方面仍面临挑战,但它们为小型AI语言模型提供了一种不牺牲能力的替代方案。

试用与下载

用户可以在Inception的演示网站上试用Mercury Coder,或在Hugging Face上下载LLaDA代码或尝试演示

阅读 6 (UV 6)
0 条评论