对话谷歌技术专家:SoundStream未来有望用于通用音频编码

近期,谷歌推出了一款基于AI的音频编解码器——SoundStream。根据谷歌介绍,SoundStream是首个可以编码不同声音类型、同时提供高质量音频并能在智能手机CPU上实时运行的神经网络编解码器。今年早些时候,谷歌曾发布了一款名为Lyra的超低比特率音频压缩编解码器。一年之内,谷歌推出了两款基于AI的音频编解码器。这两款编解码器究竟有什么不同?谷歌为什么如此专注于低比特率的音频压缩?SoundStream是否将成为一款通用音频编解码器,还是只专注于特定领域?新版Lyra是否有可能替代Opus?

SoundStream 技术访谈 #004

带着这些疑问,LiveVideoStack采访了负责SoundStream音频编解码器研发工作的高级产品经理Jamieson Brettle资深软件工程师Jan Skoglund

LiveVideoStack: Jamieson、Jan,你们好。恭喜谷歌在SoundStream上取得的成果。SoundStream的推出在音视频技术领域可谓是一则大新闻,中国音频领域的工程师们也在密切关注它的进展。为了让大家更深入地了解这款新型AI音频编解码器,我们准备了一些问题,请你们解答。

------

Q1:现在人们拥有越来越多的带宽,为什么谷歌还要专注于低比特率的音频压缩?

Jamieson&Jan: 虽然基础设施不断完善,但网络完全普及仍然需要时间。除此之外,用户和应用对带宽的需求意味着即使可用带宽不断增加,需求依然大于供给。所以,我们会极尽所能降低带宽消耗,从而提升整体用户体验。

Q2: 新推出的SoundStream和今年早些时候发布的神经网络音频编解码器Lyra最主要的区别是什么?

Jamieson&Jan: 第一版Lyra使用了一个基于WaveRNN的内置合成引擎,而SoundStream使用了一个类似于自动编码器的网络。SoundStream将成为新版本Lyra的核心技术。

Q3:为什么谷歌会开发两个AI编解码器——SoundStream和Lyra?谷歌对此的Roadmap能透露吗?SoundStream将如何整合到Lyra中?

Jamieson&Jan: 使用ML进行音频编码还处在初期阶段,随着该领域的研究不断增加,我们看到了AI编解码的迅速发展。通过正在进行的项目,我们能够快速将研究产品化,将最好的编解码器应用到实际应用中。Lyra 的未来版本将使用 SoundStream 作为底层引擎。这样一来,现在的开发人员依然可以继续使用相同的 Lyra API,但却能收获显著提升的性能。

Q4:从论文看,SoundStream无论是音质(在相同比特率下)还是对各类音频信号(语音、音乐、无噪音及有噪音)的鲁棒性,还是算法时延,还是计算复杂度都已经全面超越Lyra了。Lyra是否会被完全替代?

Jamieson&Jan:我们看到SoundStream在音质、对噪音的鲁棒性及处理各类音频信号方面,有了长足的进步。作为新版本Lyra的核心技术,新的SoundStream引擎将取代第一版Lyra中的自回归引擎。

Q5:从论文实验结果看,12kbps的SoundStream性能似乎趋近于饱和了。Google是否认为AI音频编码只适用于低速率场景?中高速率下(如AAC典型速率)AI音频编码有超越传统编码的机会吗?

Jamieson&Jan: 我们认为AI编解码将使各种带宽和应用受益。我们现在正致力于在更高的比特率下改进基于神经网络的音频编码。

Q6:SoundStream在低速率下是否同时适用于语音、音乐以及混合信号的编解码?

Jamieson&Jan: SoundStream并没有对声音类型进行分类,它能够同时处理不同的声音。

Q7:神经网络编解码器相比传统信号处理编解码器在复杂度上是否有明显优势?

Jamieson&Jan: 到目前为止,在神经网络编解码器中,编码的复杂度较低,解码的复杂度较高,这通常导致它的整体复杂度比 Opus 等编解码器高得多。但随着时间的推移,我们认为:通过完善硬件支持和新的算法改进, 可以有多种途径提升神经网络编码效率。

Q8:SoundStream是否将成为一款通用音频编解码器,还是只专注于特定领域?

Jamieson&Jan: 初期的应用将可能会专注于实时通信,但未来SoundStream有望用于通用编码。

Q9: 既然SoundStream将会被整合进下一代、改进版本的Lyra中,那么这个新Lyra未来是否有可能替代Opus?

Jamieson&Jan: 至少在短期内,Opus和Lyra将会共存。事实上,我们的团队一直在继续研究并不断改进Opus。

Q10:在音频压缩领域,谷歌的下一步计划是什么?

Jamieson&Jan: 我们将继续使用ML和传统编码方法提升音频压缩效率,并在各类应用领域中不断探索。

翻译/编辑 | Alex

感谢王晶、王立众和王喆三位老师提供问题线索,并审校了本篇访谈。


扫描图中二维码了解大会更多信息

图片

248 声望
67 粉丝
0 条评论
推荐阅读
对话沐曦 AI 解决方案总监虞新阳:不断迭代创新方能从市场中胜出
沐曦首款异构GPU产品MXN100已于2022年底实现规模量产,并与多家重点行业客户及服务器厂商联合打造应用落地解决方案,展开深度的生态合作。在过去很长一段时间里,GPU市场一直被国外知名企业所主导,近些年来,随...

LiveVideoStack阅读 107

Linux下编译WebRTC(Linux和Android版本)
随着新冠疫情的影响,这两年音视频的需求呈爆发式增长。在音视频领域中,WebRTC可以说是一个绕不开宝库,包括了音视频采集、编解码、传输、渲染的全过程。本文主要记录下在Linux平台上编译WebRTC Linux和Android...

吴尼玛阅读 3k评论 2

【音视频】YUV
和 RGB 表示图像类似,每个像素点都包含 Y、U、V 分量。但是它的 Y 和 UV 分量是可以分离的,如果没有 UV 分量一样可以显示完整的图像,只不过是黑白的,所以yuv图像可以兼容於黑白影像和彩色影像。

看见了阅读 1.3k

【音视频】MSE
MSE全称是媒体源扩展 API(Media Source Extensions API), 提供了实现无插件且基于 Web 的流媒体的功能。使用 MSE,媒体串流能够通过 JavaScript 创建,并且能通过使用 <audio> 和 <video> 元素进行播...

看见了阅读 1.1k

【音视频】FFmpeg入门
FFmpeg 是一个开源免费跨平台的视频和音频流方案,属于自由软件,采用 LGPL 或 GPL 许可证(依据你选择的组件)。它提供了录制、转换以及流化音视频的完整解决方 案。它包含了非常先进的音频/视频编解码库 libavc...

看见了阅读 1.1k

【音视频】RTSP
rtsp,英文全称 Real Time Streaming Protocol,RFC2326,实时流传输协议,是TCP/IP协议体系中的一个应用层协议!协议主要规定定了一对多应用程序如何有效地通过IP网络传送多媒体数据。RTSP体系结位于RTP和RTCP之...

看见了阅读 841

WebRTC中的ICE
ICE简介ICE是用于UDP媒体传输的NAT穿透协议(适当扩展也可以支持TCP),它需要利用STUN和TURN协议来完成工作。STUN协议提供了获取一个内网地址对应的公网地址映射关系(NAT Binding)的机制,并且提供了它们之间...

吴尼玛阅读 524

248 声望
67 粉丝
宣传栏