Meta推出Spirit LM:整合语音与文本的多模态模型
Meta最近在论文中提出了一种名为Spirit LM的新模型,该模型能够创建混合语音和文本的管道,从而在同一多模态模型中整合语音和文本。这一新方法基于交替使用文本和语音标记,克服了以往解决方案中语音和文本使用独立管道的固有局限性。
模型架构与训练方法
Spirit LM基于一个预训练的7B文本语言模型(Llama 2),并通过持续训练扩展了语音能力。模型通过将语音和文本序列连接为单一的标记流,并使用自动整理的语音-文本平行语料库进行词级交替训练。这种训练方法使得模型能够同时处理文本和语音单元。
与传统方法的对比
传统方法通常通过自动语音识别(ASR)将语音转录为文本,然后输入到语言模型中,最后将输出转换为语音。然而,Meta的研究人员指出,这种方法在生成表达性语音方面存在局限,因为语言模型无法直接处理语音的表达性。相比之下,Spirit LM通过在训练中混合使用纯文本序列、纯语音序列和交替序列,将语音转换为表示音素单位(HuBERT)以及音调和风格单位的标记,从而实现了更自然的语音生成。
模型性能与局限
Meta的研究发现,Spirit LM能够像文本语言模型一样学习新任务,并且能够保留文本和语音提示的情感。然而,与基础的Llama 2模型相比,Spirit LM在处理纯文本提示时表现稍逊。研究人员希望通过进一步优化训练来解决这一问题,并考虑采用更大的基础模型以提升性能。
安全性与语言支持
Spirit LM作为一个基础模型,并未包含防止滥用的安全措施,如生成虚假新闻、垃圾邮件或模仿特定说话者。此外,该模型目前仅支持英语,且未涵盖多样化的口音和方言。
版本与许可
Spirit LM提供了两个版本:基础版仅使用语音音素单位(HuBERT),而表达版则增加了音调和风格单位。模型及其权重已在GitHub上发布,但仅限于非商业用途。
通过Spirit LM,Meta展示了在语音和文本整合方面的创新进展,尽管仍存在一些局限性,但其潜力不容忽视。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。