Opus 1.5 已发布

主要观点:Opus 发布 1.5 版本,带来质量提升(包括基于 ML 的提升)且与 RFC6716 完全兼容,包含多项重要升级。
关键信息

  • ML 升级:1.5 版本通过机器学习实现新功能,如深层包丢失隐藏(PLC)、深度冗余(DRED)、神经声码器等,优化在多数 CPU 上运行,新 ML 功能默认关闭。

    • PLC:通过 DNN 填充丢失数据包,编译时开启增加约 1MB 二进制大小,运行时设置解码器复杂度为 5 及以上启用,不影响兼容性。
    • DRED:利用 RDO-VAE 高效压缩声学参数,传输冗余音频,一秒冗余约 12 - 32kb/s 开销,启用需配置选项增加约 2MB 大小和 1%运行时成本,未标准化。
    • 神经声码器:创建新的 FARGAN 声码器,复杂度低可在多数设备运行,相关论文被接受。
  • 低比特率语音质量增强:包括线性自适应编码增强器(LACE)和非线性变体(NoLACE),基于经典后滤波思想结合 DNN 魔法,小且低复杂度,可在较老设备运行,启用需配置标志增加约 1.6MB 大小及相应运行时成本,目前仅在 20ms 帧大小和宽带时应用。
  • WebRTC 集成:DRED 需与抖动缓冲器更紧密集成,在 WebRTC 中可利用现有适应机制在丢失与延迟间权衡,可通过 Google WebRTC 仓库的补丁尝试。
  • IETF 和标准化:在新创建的 IETF [mlcodec]工作组内进行,包括扩展格式、DRED 比特流和增强方法的标准化工作。
  • 其他改进:支持 AVX2 及更多 NEON 优化,创建真实损失模拟器用于模拟数据包丢失。
    重要细节
  • 各功能的技术细节在相关论文中阐述,如 Interspeech 2022、ICASSP 2023、2024 等论文。
  • 提供了多个音频样本和测试结果展示各功能的效果。
  • 鼓励尝试新功能并反馈经验。
阅读 12
0 条评论