谷歌开源数据集模型,可从录音混音中分离出不同声音

clipboard.png

技术编辑:徐九丨发自 北京
SegmentFault 思否报道丨公众号:SegmentFault


近期,随着市场对音视频领域的需求和技术发展,包括阿里巴巴和微软在内的科技巨头都投入了大量时间和资源试图解决声音分离问题。近日,谷歌发布了一个新的数据集 —— 自由通用声音分离数据集,简称 FUSS,旨在支持开发能够从录音混音中分离出不同声音的 AI 模型。

根据报告显示,该模型的使用场景非常丰富,如果将其商业化,FUSS 可能会被用于企业用于从电话会议中提取语音。

这是继谷歌和瑞士 Idiap 研究所的一项研究之后,该研究描述了两种机器学习模型 -- 扬声器识别网络和频谱掩码网络 -- 共同 "显著降低了多扬声器信号上的语音识别单词错误率(WER)。


正如 Google Research 的科学家 John Hershey、Scott Wisdom 和 Hakan Erdogan 在一篇文章中解释的那样,大部分的声音分离模型都假设混合物中的声音数量是静态的,它们要么将少数声音类型的混合物(如语音与非语音)或同一声音类型的不同实例(如第一个扬声器与第二个扬声器)分离出来。FUSS 数据集则将焦点转移到更普遍的问题上,即将任意数量的声音从彼此之间分离出来。

为此,FUSS 数据集包括了一组不同的声音,一个逼真的房间模拟器,以及将这些元素混合在一起的代码,以实现多源、多类音频的真实性。

谷歌的研究人员从 FreeSound.org 中提取音频片段,经过过滤,排除了那些在混合在一起时无法被人类分离的声音,他们编译了包括 12377 个混合声音长达 23 个小时的音频,从中产生了 20000 个混合声音,用于训练 AI 模型,另外还有 1000 个混合声音用于验证,1000 个混合声音用于评估。

研究人员表示,他们使用谷歌的 TensorFlow 机器学习框架开发了自己的房间模拟器,该框架可以生成一个具有「频率依赖性」反射属性的箱形房间的脉冲响应,给定一个声源和麦克风位置。FUSS 附带了每个音频样本所使用的预计算房间脉冲响应,以及混音代码。此外,FUSS 还提供了一个预训练的、基于掩码的分离模型,可以高精度地重构多声源混音。

谷歌团队计划开放房间模拟器的代码,并计划扩展该模拟器,以解决计算成本更高的声学特性,以及具有不同反射特性的材料和新颖的房间形状。

"我们希望「FUSS 数据集」能够降低新研究的门槛,特别是能够快速迭代和应用来自其他机器学习领域的新技术来应对声音分离的挑战。"

GitHub 地址:
https://github.com/google-res...

clipboard.png

阅读 1.3k

推荐阅读

第一时间为开发者提供行业相关的实时热点资讯

23799 人关注
2036 篇文章
专栏主页