Meta 开发下一代翻译系统 Seamless
2023 年,Meta 的 AI 研究人员采访了 34 名生活在美国但不会说英语的西班牙语和普通话母语者,目的是了解那些日常依赖翻译的人对 AI 翻译工具的期望。参与者希望的是一个类似《星际迷航》中的通用翻译器或《银河系漫游指南》中的巴别鱼的工具:能够实时跨多种语言进行语音翻译,并保留他们的声音、语调、举止和情感。为此,Meta 组建了一个超过 50 人的团队,开始开发这样的系统。
Seamless 系统的构建
Seamless 是 Meta 团队开发的下一代翻译系统,其第一个模块已在《自然》杂志上发表,能够支持 36 种语言的语音翻译。
语言数据问题
当前的 AI 翻译系统主要集中于文本翻译,因为数字化和互联网使得大量文本数据可用。然而,这些系统存在两个主要问题:
- 数据库主要由正式文件组成,导致翻译结果缺乏灵活性。
- 缺乏音频数据,尤其是在低资源语言中。
为了解决这些问题,Meta 团队采用了创新的方法,通过多维向量构建了一个通用的语言表示空间 SONAR(Sentence-level Multimodal and Language-Agnostic Representations),将文本和语音数据向量化,并通过数据挖掘生成大量自动对齐的数据。
Seamless 翻译功能
基于自动生成的数据集,Meta 训练了多个 AI 翻译模型,其中最大的模型是 SEAMLESSM4T v2。该模型能够:
- 在 101 种源语言和 36 种目标语言之间进行语音到语音的翻译。
- 在 96 种语言中进行自动语音识别。
- 在 101 种语言到 96 种语言之间进行语音到文本的翻译。
- 在 96 种语言到 36 种语言之间进行文本到语音的翻译。
SEAMLESSM4T v2 在语音到文本和语音到语音翻译中的表现分别比现有的级联系统高出 8% 和 23%。
进一步创新:SeamlessStreaming 和 SeamlessExpressive
在 SEAMLESSM4T 的基础上,Meta 团队还开发了两个新模型:
- SeamlessStreaming:解决翻译延迟问题,实现流式翻译,类似于人类同声传译。
- SeamlessExpressive:保留用户表达方式,如语调、节奏、音量等,但目前仅支持英语、西班牙语、法语和德语。
总结
Meta 的 Seamless 系统通过创新的数据处理和模型训练,显著提升了多语言翻译的准确性和实时性,并朝着实现类似《星际迷航》中通用翻译器的目标迈出了重要一步。尽管仍有一些限制,如 SeamlessExpressive 的语言支持范围有限,但这一技术展示了 AI 翻译的未来潜力。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。