【融云视角】沉浸式音频与通讯技术未来趋势

回顾互联网发展历程，从 PC 局域网到移动互联网，互联网使用的沉浸感逐步提升，虚拟与现实的距离也逐渐缩小。利用沉浸式音频与通讯技术未来将会很大程度提升用户的体验感，而在虚拟与现实的元宇宙中，对沉浸感、参与度、永续性等方面都有很高的要求，因此将会由许多独立工具、平台、基础设施、协议等来支持其运行。随着 AR、VR、5G、云计算等技术成熟度提升，基于沉浸式音频的通讯技术在元宇宙有望逐步从概念走向现实。

本文将和业内伙伴一同探索元宇宙技术发展对通讯行业带来的影响，未来沉浸式音频的发展趋势以及通讯技术在 VR、AR、AI 行业的应用。

元宇宙概念简述
元宇宙（Metaverse）是指打造一个与现实生活平行的、体验几乎无差异的虚拟世界。人类可以利用虚拟身份在虚拟世界工作、社交互动、娱乐游戏，甚至买卖交易。总结出来就是，在元宇宙中，你可以想什么就有什么，无边无际的想象力给予你无限的自由。

Metaverse 元宇宙所创造的独立于现实世界的虚拟数字第二世界，使用户能以数字身份自由生活。VR、AR、AI 作为 Metaverse 的技术基础将迎来高速增长期。虚拟现实行业 2020 年全球市场规模约为 900 亿元人民币，预计 2020-2024 年均增长率约为 54%。据中国信通院预测，2021 年开始全球虚拟设备出货量将加速，预计 2024 年可达 7500 万台。（数据来源：天风证券《Metaverse研究报告》）随着 VR 产业链的逐步完善，VR 对行业的赋能会展现出强大的飞轮效应。

那么我们怎么样才能从现实世界，逐渐进入到元宇宙世界中去呢？

真实感的维度
如果把元宇宙场景中，用户体验到的真实感划分为两个维度：“沉浸感”和“自由度”。两个轴的起点，则是原生感知现实，例如正在阅读这篇文章的你。沉浸和自由的深度，共同决定了元宇宙中的用户体验是否足够真实。

真实感的等级

Lv1：从原生感知初步向虚拟世界迈进的阶段
Lv2：让大脑感觉部分真实的虚拟世界
Lv3：完全骗过大脑的全真虚拟世界
Max：和原生世界深度相同的虚拟世界

元宇宙现阶段发展趋势
现阶段元宇宙概念的产业链，例如互动体验、人机交互等，大部分能力范围在 Lv1-Lv2 之间，仅有少部分尖端企业向 Lv3 迈进。未来阶段如何实现 Max 的目标，是否能真正实现，目前还无法得知。

Lv1-Lv2 范围的产业链已日渐成熟，目前已经实现 3D 体感电影、开放沙盒游戏、VR、AR、MR 游戏等应用。

如果说 Lv2 阶段的用户体验，是由某几个沉浸或自由因素堆积而成的“半真实”体验，那么升级到 Lv3 阶段的“全真实”体验，可以说是质的飞跃。“沉浸”和"自由"必须做到足够的深度，相辅相成。数字化的视觉和听觉感知体验是否可以完全骗过我们的大脑？3D 引擎是否能提供足够的自由体验？AI 是否能做到永续性、自生长？网络传输是否可实现无延迟？只要任何一个因素存在缺陷，就不可能真正实现“全真实”的用户体验。可见从“半真实”到“全真实”，实现难度会陡增。

到 Lv3 之后，元宇宙下一个阶段，就是实现终极目标，让人们的意识永生在虚拟世界。影响这一目标实现的因素，除硬件、软件、通讯等科技因素之外，还涉及到生物学和医学范畴。是否能真正实现，目前来看仍是未知。

头部厂商的进展

1.Facebook
2020 年 9 月，Facebook Connect 2020 大会上，Facebook 发布了 AR/VR 十五大重要战略规划。会上公布的一系列 AR/VR 信息，涵盖最新硬件产品、软件产品、解决方案、开发者服务、前沿技术研究等。

其中 VR 头显 Oculus Quest 2 依靠平台提供的游戏和软件支持，已经成为目前市场上主流的 VR 头部穿戴设备。

值得关注的是，在会上发布的Project Aria 是Facebook 构建的帮助研究人员理解 AR 眼镜所需软件和硬件的研究设备。它使用传感器能从佩戴者角度捕捉视频和音频，通过GPS 计算位置，捕捉多声道音频。

2.Apple
美国知名科技博客 Scobleizer 预测，苹果在未来一年内公布的产品计划中，将会包含一款全新的 AR/VR 头显。具体来讲，苹果计划在未来十年推出多款产品，包括 AR/VR 眼镜、AR/VR 隐形眼镜(分别在 2022 年到 2025 年之间推出)。这意味着苹果要从 2D 屏幕、界面和体验向 3D 形式升级。

Scobleizer 表示：苹果 AR/VR 头显将同时覆盖使用者的双眼和双耳，戴上之后你不仅看不到周围的环境，也听不到周围的声音。也就是说，苹果 AR/VR 头显的一大特点是视觉和听觉的沉浸感，有趣的是，它并不会将使用者与外界完全隔绝，也许可以通过 AR 透视功能让你看到和听到周围。在苹果 AR/VR 头显开机之后，你才能看到周围环境的虚拟影像，并且听到周围的声音。

值得关注的还有苹果车载环绕音频技术。Scobleizer 表示，该技术可以从汽车内部、家里等各种地方营造环绕式声音效果。利用苹果 AR/VR 头显的 LiDAR 模组，可以实现 3D 音频在空间中的定位。通过亲自体验，他表示该技术可模拟亲临现场的音频效果。

RTC 通讯技术的现状
RTC 的音频传输技术，是通过采样、量化、编码、压缩，实现模拟信号到数字信号的传输。目前常用的是双声道的采样，即左右两个声道的立体声，再经过压缩处理，传输时占用带宽少，符合目前大部分业务场景对传输效率的需要。随着5G 到来，网络带宽不再是问题，在保证传输效率的基础上，人们会进而追求 3D 沉浸式的音频体验。双声道采样将不再符合未来需求。多声道采集（例如 Ambisonics 麦克风用四面体阵列形式采集 4 个声道）传输，或许成为未来通讯技术的主流。

除了上述办法使用户实现沉浸式的音频体验，还有没有其他方法？我们先来看一下，目前成熟的沉浸式的音频技术有哪些。

沉浸式的音频技术
目前，沉浸式音频类型主要分为三大类：基于声道 Channel based audio （CBA）、基于对象 Object based audio （OBA）、基于场景 Scene based Audio （SBA）。Scene-Based Audio 主要是用来描述场景的声场，其核心的底层算法是 HigherOrder Ambisonic（HOA）。

根据业内专家分析的结论，未来 VR 音频专业领域则主要是 Object based audio 和 Ambisonics（HOA）两大趋势。

那么 VR 音频技术，可以应用在哪些 VR 社交场景中呢？

与社交场景的对应
在元宇宙发展的现阶段，社交场景主要存在于 VR 游戏、VR 直播、和 VR 社交软件上。

因为 Object based audio 有大量的数据和运算，除了声道的音频外，还有关于声源的metadata （元数据）：声源（位置、大小、速度、形状等属性）、声源所在的环境（reverb （混响）和 reflection（回声）、attenuate （衰减）、几何形态），所以它更适合用于 VR 主机上的游戏。

Ambisonics 的特点是声源贴在提前渲染好的全景球上，所以玩家不一定能够将声源放在场景中想放的位置，即使有声源也被压缩在了这个球上。它适合移动端和流媒体视频。

如何利用沉浸式音频与通讯技术提升未来体验
通过以上分析，我们怎样利用 RTC 的音频传输技术实现用户沉浸式的音频体验呢？

1.直接传输沉浸格式的音频
使用 Ambisonics 技术，声音的采集和处理都交给 App 或者 VR 声音引擎，RTC 通道仅负责进行传输。

2.预处理后交给接收端还原
对应 Object based audio 技术，声音的采集用 Ambisonics，但是在传输之前，降维到双声道进行编码和传输，这样 Web 端或移动设备能兼容。然后接收端通过双声道数据，再还原回 Ambisonics，根据虚拟场景的变化实时渲染，最后在用户端播放。

3.通过文字与语音的转换技术实现
如果虚拟场景中是二次元的世界，我们不仅要避免人声的直接还原，还要让人物语音符合二次元世界中的设定。
对于这种情况，可以借助融云 IM 技术，以及语音和文字的互转实现（asr 和 tts）。人声采集后先转成文字，再输入到声音建模中，最后转成二次元人物的声音。
这种方法可以让每一个玩家的语音都符合游戏世界中的设定，从而增强沉浸感。

结束语
相关技术的不断升级进步，会使元宇宙概念继续向前发展。VR、AR、5G、AI、专业引擎和平台等产业链的发展，也会继续带动用户对沉浸式体验的追求。沉浸式音频通讯有可能会成为未来通讯的主流。我们对市场保持关注，希望和业内伙伴一同深入探索研究，沉浸式音频与通讯技术或可成为通讯业务未来的突破口。

【融云视角】沉浸式音频与通讯技术未来趋势

融云RongCloud

引用和评论

融云 uni-app IMKit 上线，1 天集成，多端畅行

三分钟掌握音视频处理 | 在 Rust 中优雅地集成 FFmpeg

三分钟掌握视频分辨率修改 | 在 Rust 中优雅地使用 FFmpeg

CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一

三分钟掌握音视频信息查询 | 在 Rust 中优雅地集成 FFmpeg

【harmonyOS NEXT 下的前端开发者】WAV音频编码实现

什么是抖动以及如何使用抖动缓冲区来减少抖动？