微软提出 Phi-4-Mini:小巧却强大的多模态语言模型
一款拥有38亿参数的语言模型,在数学和编码领域表现卓越。它利用高质量的网络和合成数据进行训练,具备20万词元的词汇表,还采用了组查询注意力机制。
通过一种新颖的“低秩自适应(LoRA)混合”方法,Phi-4-Mini在视觉和语音/音频模态上进行了扩展,得到了Phi-4-Multimodal。这一扩展实现了多模态的无干扰联合推理,在各种多模态任务中达到了顶尖水平,同时还保留了基础语言模型的能力。
Phi-4-Mini是基于高质量网络和合成数据训练的38亿参数语言模型。它的性能远超近期类似规模的开源模型,在需要复杂推理的数学和编码任务中,能与规模为其两倍的模型相媲美。
Phi-4-Multimodal则是将文本、视觉和语音/音频输入模态集成到一个模型中的多模态模型。它独特的模态扩展方法借助LoRA适配器和特定模态的路由器,允许多种推理模式组合不同模态,且相互之间不会产生干扰。Phi-4-Multimodal支持(视觉+语言)、(视觉+语音)和(语音/音频)等输入场景,在众多任务上的表现优于大型视觉-语言和语音-语言模型。
模型架构
Phi-4-Mini和Phi-4-Multimodal共享相同的语言模型主干。Phi-4-Mini由32个Transformer层构成,隐藏状态大小为3072,并且采用了绑定的输入/输出嵌入。与Phi-3.5相比,这种设计显著降低了内存消耗,同时提供了更广泛的词汇覆盖范围。
每个Transformer块都包含基于组查询注意力(Group Query Attention,GQA)的注意力机制,该机制优化了键值内存(KV缓存)的使用,有助于长上下文生成。具体而言,该模型使用24个查询头和8个键/值头,将KV缓存消耗减少到标准大小的三分之一。
此外,在旋转位置嵌入(RoPE)配置中,Phi-4-Mini使用了分数RoPE维度,确保25%的注意力头维度与位置无关,这一设计使其能够更流畅地处理较长的上下文。Phi-4-Mini模型使用词汇量为200,064的分词器o200k base tiktoken,旨在更高效地支持多语言和多模态的输入与输出。
Phi-4-Multimodal的多模态架构概述
为了实现特定模态的功能,多模态模型通常需要对基础语言模型进行微调,但这往往会削弱其原有的语言能力。例如,LLama-Vision采用了受Flamingo启发的策略,在保留核心语言模型的同时添加额外的交叉注意力层,然而与完全微调的模型相比,这种方法在视觉语言基准测试中的性能有所下降。
NVLM进一步探索了混合框架,采用联合监督微调以及高质量的文本监督微调(SFT)数据,不过这种方法只测试了有限的语言基准,且没有解决SFT之后通常所需的额外训练阶段的问题。
Phi-4-Multimodal架构采用了LoRAs混合设计,以支持多种多模态用例。不同的LoRA经过专门训练,用于处理不同模态之间的交互。
视觉模式
视觉模态由图像编码器、用于对齐视觉和文本嵌入的投影仪以及LoRA适配器实现。视觉编码器基于SigLIP-400M,在分辨率为448×448的大规模图像文本对上通过LLM2CLIP进行微调。投影仪是一个2层的多层感知器(MLP),负责将视觉特征维度映射到文本嵌入维度。
额外的LoRA添加到语言解码器的所有线性层上,并且仅在监督微调(SFT)阶段进行部署。图像编码器和投影仪引入了4.4亿个模型参数,而视觉适配器LoRA_V则另外消耗3.7亿个模型参数。
为了让模型能够高效地处理不同分辨率的图像,研究人员提出了一种新的动态多裁剪策略。具体来说,对于给定的目标图像,每边的裁剪数量通过将原始尺寸除以裁剪尺寸来计算,即(\lceil H/C\rceil\times\lceil W/C\rceil) ,其中(H)、(W)、(C)分别代表图像的高度、宽度和裁剪尺寸。
如果裁剪总数在最大数量范围内(预训练阶段为16,SFT阶段为36),则对图像进行轻微调整大小,使其符合计算出的图像裁剪尺寸。否则,通过匹配最佳纵横比来确定裁剪数量。
语音和音频模态
语音/音频输入采用80维对数梅尔滤波器组特征,帧率为10毫秒。为了实现Phi-4-Multimodal的语音和音频功能,预训练的音频编码器和Phi-4-Mini通过音频适配器连接。此外,LoRA应用于语言解码器,在保留文本能力的同时,提升语音/音频基准测试的性能。引入的语音/音频模态模块包括:
- 音频编码器:由3个卷积层和24个构象块组成,具有1024个注意力维度、1536个前馈维度和16个注意力头。卷积层实现了8的子采样率,因此语言解码器的标记率为80毫秒。
- 音频投影仪:是一个2层MLP,类似于视觉投影仪,将1024维的语音特征映射到3072维的文本嵌入空间。
- LoRA_A:应用于Phi-4-Mini中的所有注意力层和MLP层,秩为320。音频编码器和投影仪引入4.6亿个参数,而LoRA_A则消耗另外4.6亿个参数。
注意,语音标记速率为80毫秒,这意味着1分钟的音频包含750个标记。
训练管道
视力训练
视力训练遵循四个阶段的过程:
- 投影仪对齐阶段:最初,仅使用字幕数据对投影仪进行训练,以对齐视觉和文本嵌入,同时保留视觉编码器的预训练表示。
- 联合视觉训练阶段:接下来,在完整的视觉预训练数据集上联合训练投影仪和视觉编码器,以增强关键的视觉能力,如光学字符识别(OCR)和密集理解。
- 生成视觉 - 语言训练阶段:然后将LoRA部署在语言解码器上,并使用精心挑选的单帧SFT数据与视觉编码器和投影仪一起进行训练,使模型具备处理视觉语言输入的生成能力。
- 多帧训练阶段:最后,在冻结视觉编码器的情况下,使用多帧SFT数据对模型进行训练,将上下文长度覆盖范围扩展到64k,并实现多图像和时间理解。
语音和音频培训
语音和音频训练采用两阶段范式,即语音/音频预训练和后训练。在预训练阶段,大规模自动语音识别(ASR)数据用于在语义空间中对齐音频编码器和Phi-4-Mini。在此阶段,编码器和投影仪进行更新,而语言解码器保持冻结状态。音频编码器使用基于注意力的编码器解码器(AED)ASR模型中的预训练编码器进行初始化。
在预训练阶段之后,模型只能执行ASR任务。为了解锁Phi-4-Multimodal在各种语音和音频任务中的指令跟随能力,使用大约1亿个精心挑选的语音和音频SFT样本(加权后)继续对模型进行训练,这一阶段称为语音后训练。
在语音/音频后训练中,音频编码器被冻结。音频投影仪和LoRA_A再更新5万步。在后训练中,针对不同任务考虑不同的最大音频长度。对于语音摘要任务,训练使用长达30分钟的音频(22,500个标记)。对于其他任务,训练中使用的最大音频长度为30秒(375个标记)。
视觉-语音联合训练
视觉-语音联合训练在视觉后训练和语音后训练之后进行。语言基础模型、音频编码器和音频投影仪被冻结,而视觉适配器LoRA_V、视觉编码器和视觉投影仪进行微调。在这个阶段,模型主要在视觉-语音SFT数据上进行训练,同时也包含语言和视觉后训练数据的混合,以保持相应的性能。
推理训练
首先在大量的推理数据上进行预训练,以捕捉通用的推理链,然后在精心挑选的SFT或偏好数据上进行精细微调。Phi-4-Mini的推理能力训练分为三个不同阶段:
- 第一阶段,基于Phi-4-Mini,在由前沿推理大语言模型生成的约600亿个推理思维链(CoT)标记上进行预训练。然后采用拒绝采样的方法过滤掉错误输出,使Phi-4-Mini的推理扩展能够学习这些模型产生的推理链。
- 第二阶段,在一个较小但精心挑选的约20万个高质量CoT样本数据集上进行微调,这些样本涵盖了不同的领域和难度级别。
- 第三阶段,将过滤出的错误输出标记为“不偏好”,并将其纠正后的版本标记为“偏好”,从而编译出一个包含30万个偏好样本的新数据集,用于近端策略优化(DPO)训练 。
语言训练数据
预训练数据
构建了一个包含5万亿数据的预训练语料库,与Phi-3.5-Mini相比,其规模更大且质量更高。
后训练数据
与Phi-3.5-Mini相比,Phi-4-Mini包含了更多、更多样化的函数调用和摘要数据。此外,还合成了大量的指令跟随数据,以增强模型的指令跟随能力。在编码方面,融入了大量的代码补全数据,包括要求模型在现有代码片段中间生成缺失代码的任务。
推理训练数据
从更大的推理模型中生成了大量的合成思维链(CoT)数据,涵盖了不同的领域和难度级别。在采样过程中,采用基于规则和基于模型的拒绝方法,丢弃错误的生成结果,并将其反馈用于重新采样。这些数据仅用于实验性的推理模型,并未应用于正式发布的Phi-4-Mini检查点。
视觉-语言训练数据
Phi-4-Multimodal模型的预训练阶段使用了丰富多样的数据集,包括交错的图像文本文档、图像文本对、图像定位数据、从PDF和真实图像的OCR合成的数据集,以及用于图表理解的合成数据集。
预训练过程总共涉及0.5T的标记,融合了视觉和文本元素。此外,由于大多数训练图像的尺寸小于此大小,最大图像分辨率被限制在1344x1344。
对于监督微调(SFT),使用了文本SFT数据集、公开可用的多模态指令调优数据集以及大规模内部多模态指令调优数据集的组合。这些数据集涵盖了不同的领域和任务,包括一般自然图像理解、图表、表格和图表的理解与推理、PowerPoint分析、OCR、多图像比较、视频摘要和模型安全性。
总体而言,多模态SFT数据包含约0.3T个标记。
视觉-语音训练数据
Phi-4-Multimodal模型在各种合成视觉-语音数据上进行训练,涵盖单帧和多帧场景。重复使用视觉语言SFT数据的一个子集,并运行内部文本转语音(TTS)引擎,将用户查询从文本转换为音频。
合成语音的质量通过使用内部ASR模型转录音频,并计算原始文本和转录文本之间的词错误率(WER)来衡量。最终的视觉-语音数据通过基于WER的过滤生成,以确保质量。
语音和音频训练数据
- 预训练数据:为了预训练适配器并缩小语音和文本序列之间的模态差距,整理了一个包含约200万小时匿名内部语音文本对的数据集,该数据集具有强/弱ASR监督。此数据集涵盖八种支持的语言:中文、英文、法文、德文、意大利文、日文、葡萄牙文和西班牙文。
训练后数据:在语音后训练期间,使用真实和合成的语音/音频数据,涵盖了大多数语音和音频理解任务。
- 语音识别数据:ASR训练数据包含约2万小时的内部匿名数据,以及2万小时精选的涵盖8种语言的公共转录语音录音。加权后的ASR训练数据贡献了2800万个SFT示例。
- 语音翻译数据:AST训练数据包含约3万小时的匿名内部和公共语音数据,具有双向翻译(从7种语言到英语,以及从英语到7种语言)。这些数据包含来自机器翻译模型的监督式翻译和合成翻译。AST数据以两种格式创建:直接语音翻译(direct ST)和以思维链(CoT)方式的ASR +翻译,在训练后阶段贡献了2800万个加权训练示例。
语音和口语查询问答数据:SQA和SQQA训练数据包含来自真实语音的合成问答对,以及来自文本SFT数据的合成音频。
- SQA的合成QA对:为了实现SQA功能,在ASR训练数据中重复使用语音-转录对,并促使语言模型为每个转录生成多个文本问答对。在训练过程中过滤掉低质量的问答对。
- SQQA的合成语音查询(音频):SQA的任务是响应语音上下文和文本查询。直接响应语音查询也是Phi-4-Multimodal的一项重要功能。因此,从语言后训练数据中提取样本,并使用内部零样本TTS系统将文本查询转换为音频查询。
- SQQA的合成LM响应:通过使用这些提示的ASR转录文本来促使语言模型,从而为语音提示创建合成生成的响应。由于从ASR训练数据中采样的语音查询更加多样化,LM响应数据可以提高Phi-4-Multimodal在真实场景中的SQQA鲁棒性。
- 语音摘要数据:摘要训练数据由匿名录音及其转录文本配对组成。音频包含多说话人对话语音,涵盖各种主题。为了为每个音频片段构建查询-摘要对,GPT-4根据转录文本生成各种查询及其相应的摘要。对于每个音频片段,摘要查询涉及对话的特定或一般方面,并且格式各异,包括长度(单词或句子数量)和结构(格式为项目符号、JSON或电子邮件的摘要)。加权数据集仅包含英语语音,贡献了100万个SFT示例。
- 音频理解数据:音频理解数据贡献了约1700万个来自公众的加权SFT示例。数据集以(音频、问题、答案)元组的形式创建,其中“音频”包含语音、音频和音乐输入。问题和答案对是根据音频转录和/或元信息由GPT4生成的。
评估
语言基准
Phi-4-Mini的推理增强版本,即使参数数量明显较少,也能实现与大型推理模型相媲美的性能。
视觉基准
Phi-4-Multimodal相较于Phi-3.5-Vision有显著改进,在视觉语言基准测试中优于类似规模的开源模型。
Phi-4-Multimodal在图表理解和科学推理任务上超越了一些闭源模型(如Gemini、GPT-4o)。
在视觉-语音基准测试中,Phi-4-Multimodal显著优于InternOmni和Gemini-2.0-Flash等更大的模型,在某些任务(如ShareGPT4o AI2D、ShareGPT4o ChartQA)上实现了超过10分的提升。
与其他完全微调后会出现语言性能下降的模型不同,Phi-4-Multimodal通过使用可微调的LoRA模块并保持基础语言模型冻结,在纯文本输入时仍能保持语言性能。
语音和音频基准
- 强大的ASR和AST性能:Phi-4-Multimodal在多个数据集(如CommonVoice、FLEURS、OpenASR、CoVoST2)上的表现优于专业的ASR和AST模型(如WhisperV3、SeamlessM4T-large-v2)。
- 领先的OpenASR性能:在Huggingface OpenASR排行榜上排名第一,相对词错误率(WER)比之前的最佳模型提高了5.5%。
- 开源语音摘要能力:第一个具备此功能的开源模型,在依从性和低幻觉方面表现出接近GPT-4o的质量。
- 高效的多模态性能:在多项任务上优于大小为其两倍的Qwen2-audio模型。
- 针对语音/音频理解进行了优化:与可能针对聊天体验进行更多优化的Gemini和GPT-4o相比,Phi-4-Multimodal在ASR和AST方面表现出色,但在SQQA任务中存在性能差距。
- CoT对AST的好处:思维链(CoT)提示显著提升了AST性能。
- 与语言无关的ASR:与其他一些模型不同,Phi-4-Multimodal能够在提示中没有明确语言信息的情况下成功识别目标语言。
- 竞争性语音摘要:尽管用于摘要的训练数据有限,但在Golden3和AMI数据集上,Phi-4-Multimodal与Gemini-2.0-Flash和GPT-4o相比仍具有竞争力。
- 强大的音频理解能力:在AIRBench-chat和MMAU上,Phi-4-Multimodal在音频和音乐理解方面表现出色,优于Qwen2-audio。
论文
Phi-4-Mini Technical Report: Compact yet Powerful Multimodal
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。