头图

2014-12-25 ,由谷歌DeepMind和韩国科学技术院集成视觉与语言实验室联合创建 LibriSpeech-Long数据集,这个数据集是LibriSpeech数据集的扩展,包含了更长的、连续的语音段落,这对于长篇多媒体生成和音频原生语音助手的开发具有重要意义。

一、研究背景:

随着语音生成技术的发展,对于能够理解和生成长篇音频的语音语言模型的需求日益增长。这些技术在多媒体内容生成、音频书籍、播客以及语音助手等应用中扮演着重要角色。然而,现有的语音语言模型在生成超过数十秒的连贯语音时面临挑战,这限制了它们在实际应用中的效用。

目前遇到困难和挑战:

1、现有模型在处理长篇语音时会失去连贯性,无法维持长时间的对话历史。

2、语音的高时间分辨率导致模型必须在更长的时间范围内保持和聚合语义信息,这对模型的架构和训练提出了挑战。

3、长篇语音生成的评估方法尚未充分研究,缺乏有效的评价指标和基准。

数据集地址:LibriSpeech-Long|长语音生成数据集|语音合成数据集

二、让我们一起看一下LibriSpeech-Long数据集

LibriSpeech-Long是一个扩展自LibriSpeech的数据集,它提供了更长的语音段落,以支持长篇语音生成的研究。

LibriSpeech-Long数据集来源于LibriSpeech的原始音频文件,通过重新处理形成了更长的4分钟语音段落。这些段落不仅提供了更长的提示,还提供了更长的参考真实文本,便于进行基于参考的评估。

数据集构建 :

数据集的构建过程包括将LibriSpeech的原始章节级音频文件重新处理,聚合成长达4分钟的语音段落,并提供了相应的参考文本。

数据集特点:

1、提供长达4分钟的连续语音段落,适合长篇语音生成的研究。

2、包含了更长的参考文本,便于进行基于参考的评估。

3、数据集的构建考虑了语音的语义、副语言特征和说话者一致性。

数据集可以用于训练和评估长篇语音生成模型,通过提供更长的语音段落来测试模型的连贯性和语义保持能力。

基准测试 :

基准测试包括了对模型生成的语音进行自然度、语义一致性和说话者相似度的评估,以及与传统的Transformer模型和其他最新的语音语言模型的性能比较。

图片
各种支持语音的语言模型工作中考虑的最大序列长度。斜体模型在生成时使用文本中间体。请注意,由于我们的模型占用了恒定的内存,因此可以永远生成,但我们在工作中将正式评估限制为 16 分钟。
图片
由 SpeechSSM(我们的)和反复提示的 Spirit LM 生成的前 4 分钟语音延续的转录;为了清晰和强调,部分已用 (more speech...) 缩写。这些世代以我们提出的 LibriSpeech-Long 测试清理基准测试中的 10 秒纯音频提示为条件。重复出现的字符的名称以一致的颜色突出显示,以强调我们的模型生成的长格式口语音频的相对语义一致性。
图片
SpeechSSM 的系统概述。左:因果掩码混合状态空间模型 (Griffin) 在通过重叠固定大小窗口编码的语义标记 (USM-v2) 上使用 LM 目标进行训练。右:非自回归合成器 (SoundStorm) 以扬声器条件的方式将重叠的固定大小的语义标记窗口转换为神经编解码器 (SoundStream) 的声学标记。
图片
用于 (a) 分词和 (b) 解码长格式语音以实现解码长度外推的窗口策略。
图片
我们提议的 LibriSpeech-Long 基准测试的统计数据。
图片
LibriSpeech test-clean 集上的短格式生成比较。世代是从 3 秒提示开始的 7 秒延续。Win% GT 表示模型在 Ground Truth 上的胜率。
图片
长度内的语义连贯性 (SC- L ),通过 10 秒提示与 4 分钟完成中每个 200 字片段之间的语义相似性来衡量(第 A.1 节中的值)。
图片
长度内的语义连贯性 (SC- L ),通过 10 秒提示与 16 分钟完成中每个 200 字片段之间的语义相似性来衡量
图片
在执行无条件生成的单个 TPU v5e 上,每个模型和采样长度的批量解码下的最大吞吐量。

三、让我们一起展望LibriSpeech-Long数据集应用场景

比如,你是一个热爱阅读的旅行者,正在长途飞行中听一本有声书。这本书的情节紧凑,角色鲜明,你完全沉浸在故事中。以前,由于技术限制,有声书的语音合成技术只能生成几十秒的连贯语音,一旦超过这个时间,语音合成的连贯性和自然度就会急剧下降,导致故事情节中断,让你不得不手动调整播放或忍受不自然的语音。

以前的情况:

1、技术限制:语音合成技术无法长时间保持自然和连贯,导致有声书的体验断断续续。

2、用户体验:听众在聆听过程中可能会遇到语音突然变得机械、重复或者失去流畅性的问题,这打断了故事的连贯性,影响了聆听体验。

3、内容创造者的困扰:内容创造者和有声书制作人需要将长文本分割成多个短片段,这增加了制作成本和复杂性。

现在有了LibriSpeech-Long数据集:

1、LibriSpeech-Long数据集提供了长达数分钟的连续语音样本,使得语音合成模型能够学习并生成更连贯、更自然的长篇语音。

2、你现在可以不间断地听完整个章节,无需担心语音质量的突然下降或故事的中断,享受如同真人朗读般的流畅体验。

3、制作人可以直接使用LibriSpeech-Long训练出的模型来生成长篇的有声书内容,无需额外的编辑或分割,大大减少了制作时间和成本。

4、由于模型能够更好地理解和生成长篇连贯的语音,角色的语气、情感和节奏都得到了更好的保留和再现,使得听书体验更加丰富和引人入胜。

总之LibriSpeech-Long数据集的出现,让长篇有声书的制作和聆听体验都得到了显著提升,使得听众可以更加舒适、自然地享受长时间的听书乐趣,而不会被技术限制所打断。

来吧,让我们走进LibriSpeech-Long|长语音生成数据集|语音合成数据集


数据猎手小k
1 声望0 粉丝

为你解读每一个数据集背后的故事。