对话谷歌技术专家：SoundStream未来有望用于通用音频编码

近期，谷歌推出了一款基于AI的音频编解码器——SoundStream。根据谷歌介绍，SoundStream是首个可以编码不同声音类型、同时提供高质量音频并能在智能手机CPU上实时运行的神经网络编解码器。今年早些时候，谷歌曾发布了一款名为Lyra的超低比特率音频压缩编解码器。一年之内，谷歌推出了两款基于AI的音频编解码器。这两款编解码器究竟有什么不同？谷歌为什么如此专注于低比特率的音频压缩？SoundStream是否将成为一款通用音频编解码器，还是只专注于特定领域？新版Lyra是否有可能替代Opus?

SoundStream 技术访谈 #004

带着这些疑问，LiveVideoStack采访了负责SoundStream音频编解码器研发工作的高级产品经理Jamieson Brettle和资深软件工程师Jan Skoglund。

LiveVideoStack: Jamieson、Jan，你们好。恭喜谷歌在SoundStream上取得的成果。SoundStream的推出在音视频技术领域可谓是一则大新闻，中国音频领域的工程师们也在密切关注它的进展。为了让大家更深入地了解这款新型AI音频编解码器，我们准备了一些问题，请你们解答。

------

Q1：现在人们拥有越来越多的带宽，为什么谷歌还要专注于低比特率的音频压缩？

Jamieson&Jan: 虽然基础设施不断完善，但网络完全普及仍然需要时间。除此之外，用户和应用对带宽的需求意味着即使可用带宽不断增加，需求依然大于供给。所以，我们会极尽所能降低带宽消耗，从而提升整体用户体验。

Q2: 新推出的SoundStream和今年早些时候发布的神经网络音频编解码器Lyra最主要的区别是什么？

Jamieson&Jan: 第一版Lyra使用了一个基于WaveRNN的内置合成引擎，而SoundStream使用了一个类似于自动编码器的网络。SoundStream将成为新版本Lyra的核心技术。

Q3：为什么谷歌会开发两个AI编解码器——SoundStream和Lyra？谷歌对此的Roadmap能透露吗？SoundStream将如何整合到Lyra中？

Jamieson&Jan: 使用ML进行音频编码还处在初期阶段，随着该领域的研究不断增加，我们看到了AI编解码的迅速发展。通过正在进行的项目，我们能够快速将研究产品化，将最好的编解码器应用到实际应用中。Lyra 的未来版本将使用 SoundStream 作为底层引擎。这样一来，现在的开发人员依然可以继续使用相同的 Lyra API，但却能收获显著提升的性能。

Q4：从论文看，SoundStream无论是音质（在相同比特率下）还是对各类音频信号（语音、音乐、无噪音及有噪音）的鲁棒性，还是算法时延，还是计算复杂度都已经全面超越Lyra了。Lyra是否会被完全替代？

Jamieson&Jan:我们看到SoundStream在音质、对噪音的鲁棒性及处理各类音频信号方面，有了长足的进步。作为新版本Lyra的核心技术，新的SoundStream引擎将取代第一版Lyra中的自回归引擎。

Q5：从论文实验结果看，12kbps的SoundStream性能似乎趋近于饱和了。Google是否认为AI音频编码只适用于低速率场景？中高速率下（如AAC典型速率）AI音频编码有超越传统编码的机会吗？

Jamieson&Jan: 我们认为AI编解码将使各种带宽和应用受益。我们现在正致力于在更高的比特率下改进基于神经网络的音频编码。

Q6：SoundStream在低速率下是否同时适用于语音、音乐以及混合信号的编解码？

Jamieson&Jan: SoundStream并没有对声音类型进行分类，它能够同时处理不同的声音。

Q7：神经网络编解码器相比传统信号处理编解码器在复杂度上是否有明显优势？

Jamieson&Jan: 到目前为止，在神经网络编解码器中，编码的复杂度较低，解码的复杂度较高，这通常导致它的整体复杂度比 Opus 等编解码器高得多。但随着时间的推移，我们认为：通过完善硬件支持和新的算法改进，可以有多种途径提升神经网络编码效率。

Q8：SoundStream是否将成为一款通用音频编解码器，还是只专注于特定领域？

Jamieson&Jan: 初期的应用将可能会专注于实时通信，但未来SoundStream有望用于通用编码。

Q9: 既然SoundStream将会被整合进下一代、改进版本的Lyra中，那么这个新Lyra未来是否有可能替代Opus？

Jamieson&Jan: 至少在短期内，Opus和Lyra将会共存。事实上，我们的团队一直在继续研究并不断改进Opus。

Q10：在音频压缩领域，谷歌的下一步计划是什么？

Jamieson&Jan: 我们将继续使用ML和传统编码方法提升音频压缩效率，并在各类应用领域中不断探索。

翻译/编辑 | Alex
感谢王晶、王立众和王喆三位老师提供问题线索，并审校了本篇访谈。

扫描图中二维码了解大会更多信息

对话谷歌技术专家：SoundStream未来有望用于通用音频编码

SoundStream 技术访谈 #004

LiveVideoStack

引用和评论

AIGC时代下阿里云视频云媒体内容生产技术实践

三分钟掌握音视频处理 | 在 Rust 中优雅地集成 FFmpeg

从0到1：Rust 如何用 FFmpeg 和 OpenGL 打造硬核视频特效

Rust 开发者必备：三分钟搞定视频缩略图生成

三分钟掌握视频分辨率修改 | 在 Rust 中优雅地使用 FFmpeg

CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一

从FFmpeg命令行到Rust：多场景实战指南