头图

前言

过去的一年已经表明,在线交流对我们的生活至关重要。无论你身在何处、可用的网络条件如何,清楚地了解彼此之间的联系变得前所未有地重要。因此,我们在2月推出了Lyra:一种革命性的新型音频编解码器,它使用机器学习的优势来产生高质量的语音呼叫。

为了使通用的最佳编解码器普遍可用,我们开放了Lyra的源代码,使其他开发人员可以为其通信应用程序提供支持,并朝着强大的新方向发展Lyra。此版本提供了开发人员使用Lyra进行音频编码和解码所需的工具,Lyra已针对64位ARM安卓平台进行了优化。我们希望与社区一起扩展此代码库并开发对其他平台的改进和支持。

01 Lyra的体系结构

Lyra的体系结构分为编码器和解码器两部分。当有人在电话里讲话时,编码器会从他们的语音中捕获独特的属性。这些语音属性(也称为特征)以40ms的块提取,然后压缩并通过网络发送。解码器的工作是将功能转换回可以在听众的电话扬声器上播放的音频波形,通过生成模型将特征解码回波形。生成模型是一种特殊类型的机器学习模型,非常适合从有限的功能中重新创建完整的音频波形。Lyra架构与传统的音频编解码器非常相似,传统的音频编解码器已经成为互联网通信的骨干力量,已有数十年的历史了。这些传统的编解码器基于数字信号处理(DSP)技术,而Lyra的主要优势来自生成模型重建高质量语音信号的能力。

02 Lyra对未来音频的影响

在过去十年中,尽管移动网络持续稳步发展,但移动设备运算能力的爆炸性增长依然超过了可靠的高速无线基础架构的处理能力。对于存在这种反差的地区,尤其是发展中国家,下一个十亿互联网用户将上网,这种技术将使人们之间的联系更加紧密的希望仍然渺茫。即使在连接高度可靠的区域,异地工作和远程办公的出现也进一步限制了移动数据的限制。虽然Lyra可以将原始音频压缩到3kbps的质量,从而与其他编解码器(例如Opus)相比质量不错,但它的目标不是成为一个完整的替代方案,而是可以在这种情况下节省有意义的带宽。

这些趋势为Lyra提供了动力,也是我们的开放源代码库专注于其实时语音通信潜力的原因。我们认为还有其他应用,Lyra可能特别适合,例如,存档大量语音,通过利用计算便宜的Lyra编码器节省电池,缓解紧急情况下,许多人同时打电话的网络拥塞。我们很高兴看到开源社区以Lyra闻名于世,以提出更独特,更具影响力的应用程序。

03 Lyra的开源版本

Lyra代码使用C++编写,以实现速度,效率和互操作性,并使用带有Abseil的Bazel构建框架和用于全面单元测试的GoogleTest框架。核心API提供了用于在文件和数据包级别进行编码和解码的接口。还提供了完整的信号处理工具链,其中包括各种滤波器和变换。我们的示例应用程序与Android NDK集成在一起,以展示如何将本机Lyra代码集成到基于Java的android应用程序中。我们还提供了运行Lyra所需的权重和矢量量化器。

我们今天将Lyra作为Beta版本发布是因为我们希望使开发人员能够获得尽快的反馈。因此,随着开发的深入,API和比特流很有可能会发生变化。除数学内核外,所有运行Lyra的代码均根据Apache许可开放源代码,为此提供了共享库,直到我们可以在更多平台上实现完全开放的解决方案为止。既然Lyra是开源的,我们期待看到人们对Lyra的处理。在GitHub上查看代码和演示,让我们知道您的想法以及打算如何使用它!

拍乐云一直关注RTC前沿技术的最新动向,致力于探索行业用户在实时互动场景中的痛点解决方案,为用户提供强互动、沉浸式的音视频体验。也欢迎更多对音视频技术感兴趣的朋友能与我们交流,共同敲开未来RTC之门。

文 / Andrew Storus & Michael Chinen - Chrome

原文链接 / https://opensource.googleblog...

译者 / 拍小编


拍乐云Pano
26 声望11 粉丝

我们是专注于RTC实时通信的拍乐云Pano,红杉资本投资,思科WebEx背景。我们通过提供极简、稳定和安全的SDK服务,让你的应用轻松实现音视频通话、互动白板、互动直播等能力。在这里,我们会分享关于拍乐云Pano的最...


引用和评论

0 条评论