华盛顿大学AI驱动耳机让用户在人群中只听一人说话

目标语音听觉技术:华盛顿大学开发的新型深度学习算法

华盛顿大学的研究团队开发了一种名为“目标语音听觉”的新型深度学习算法,该算法允许用户“注册”特定说话者,并屏蔽其周围的所有环境噪音。这一技术通过头戴式耳机实现,旨在提升用户在嘈杂环境中听取特定说话者的能力。

技术实现

目前,该系统要求佩戴耳机的人在听某人讲话时,按下按钮或注视对方3到5秒。这一操作会引导深度学习模型学习说话者的语音模式,并将其锁定,以便在用户移动或不再注视该说话者时,仍能播放其语音。

注册接口的创新

传统的注册方法需要干净的语音样本,但在实际应用中获取这样的样本具有挑战性。为此,研究团队提出了一种新的注册接口:佩戴者只需注视目标说话者几秒钟,即可捕获一个短暂且高度嘈杂的双耳语音样本。这一方法的关键在于,佩戴者注视说话者时,声音会在两个双耳麦克风中对齐,而其他干扰声音则不会对齐。

深度学习模型的应用

捕获的样本用于训练神经网络,提取目标说话者的特征并生成对应的嵌入向量。随后,该向量与另一个神经网络结合,从混杂的语音中提取目标说话者的语音。这一方法显著优于现有的降噪耳机,后者只能屏蔽所有声音,而无法基于语音特征选择性地提取特定说话者的声音。

技术挑战与解决方案

为了实现这一技术,研究团队解决了多个问题,包括优化最新的语音分离网络TFGridNet,使其能在嵌入式CPU上实时运行;开发了一种使用合成数据进行训练的方法,以使系统能够泛化到现实世界中未见的说话者等。

与现有AI方法的区别

研究团队强调,该项目与现有的AI方法不同,旨在通过设备上的AI技术改变人们的听觉感知,而不依赖云服务。

当前限制

目前,该系统一次只能注册一个说话者。此外,如果同一方向有其他大声的语音,注册可能会失败。不过,如果用户对初始结果不满意,可以重新进行注册以提高清晰度。

开放源代码与数据集

为了促进未来研究,研究团队已经开源了他们的代码和数据集,供其他研究者使用和改进目标语音听觉技术。

阅读 32
0 条评论