中国科学院大学开源多模态LLM LLaMA-Omni

LLaMA-Omni:支持语音和文本的多模态大模型

中国科学院大学(UCAS)的研究人员近期开源了 LLaMA-Omni,这是一个能够同时处理语音和文本数据的多模态大模型。LLaMA-Omni 基于 Meta 的 Llama-3.1-8B-Instruct 模型,并在性能上超越了类似的基线模型,同时减少了训练数据和计算资源的消耗。

模型架构与特点

LLaMA-Omni 的架构在 Llama-3 的基础上进行了扩展,增加了语音编码器(输入)和语音解码器(输出)。与传统的语音识别(SR)和文本转语音(TTS)模块串联使用的方式相比,这种架构显著降低了从输入语音提示到输出语音生成之间的延迟。模型在 UCAS 团队自建的 InstructS2S-200K 数据集上进行了微调,该数据集包含 20 万个语音提示及其预期的语音回复。

性能表现

实验结果显示,LLaMA-Omni 在内容和风格上均优于基线语音语言模型,响应延迟低至 226ms。此外,训练 LLaMA-Omni 仅需在 4 个 GPU 上运行不到 3 天,能够基于最新的大语言模型快速开发语音交互模型。未来,研究团队计划进一步提升生成语音的表现力和实时交互能力。

任务评估

研究团队在两项任务上评估了 LLaMA-Omni 的性能:语音到文本指令跟随(S2TIF)语音到语音指令跟随(S2SIF),并与包括 Qwen2-Audio 在内的其他基线模型进行了对比。评估数据集来自 Alpaca-Eval 的一个子集,共包含 199 个提示,团队还通过 TTS 系统生成了语音提示。

使用 GPT-4o 自动评分,评估内容(输出是否满足用户指令)和风格(输出是否适合语音交互)。在 S2TIF 任务中,LLaMA-Omni 在风格上优于基线模型;在 S2SIF 任务中,LLaMA-Omni 在内容和风格上均表现更佳。

社区讨论

在 Hacker News 的讨论中,有用户指出端到端模型相较于独立组件串联系统的优势:

  • 从音频到文本的转换过程中存在数据丢失,端到端模型可以减少这种损失,提升输出质量。
  • 其他潜在优势包括:降低回复延迟、改进说话人分离、以及更好地处理对话中的停顿。

Reddit 用户则特别关注了模型使用 OpenAI 的 Whisper 模型进行语音编码的方式,类似于 LLaVA 使用 CLIP 进行图像理解,LLaMA-Omni 将 Whisper 的嵌入投影到 Llama 模型的特征空间中。

行业趋势

将语音输入输出集成到大语言模型中已成为一种趋势。今年早些时候,InfoQ 报道了 OpenAI 发布的 GPT-4 omni,这是一个能够端到端处理语音数据的 GPT-4 版本。此外,InfoQ 还报道了阿里巴巴开源的 Qwen2-Audio,该模型能够处理语音输入,但仅输出文本。

LLaMA-Omni 的模型文件已在 Huggingface 上公开。

阅读 53
0 条评论