近日,第一届网易集团创新奖评选落下帷幕,网易智企“逼近人耳极限-音频通话”项目从众多参赛作品中脱颖而出荣获“0-1创新奖”三等奖。
此次获奖的项目诞生于网易智企旗下网易云信的音频实验室。从2020年初至今,音频实验室团队在稳定的音频通信质量基础之上,不断的进行探索和创新,“从0到1”成功研发和落地了多个创新算法,包括了实时AI音频降噪、Noise Injection、移动端双讲检测、实时语音 3D 音效、实时智能音乐场景检测等。
其中,实时语音 3D 音效在 RTC 行业内属于首创,不仅实现了实时的 3D 空间音效,还加入了距离衰减以及房间建模特性。
很多朋友知道空间音效是因为“吃鸡”等第一人称射击类游戏场景,但是空间音效是如何实现的?目前有哪些主流方案?可以应用于什么场景?对产品甚至行业有什么价值?
今天,我们通过8问8答,一篇文章让你全面了解空间音效。
本篇文章包含以下3个部分:
#01通用篇:小白也能看懂
- Q1 什么是空间音效?
- Q2 如何听到空间音效?
- Q3 空间音效的基本原理是什么?
- Q4 空间音效的效果受哪些因素影响?
#02技术篇:大牛了解一下
- Q5 空间音效的技术难点主要在哪里?
- Q6 空间音效目前有哪些主流方案?
#03场景篇:问价值?看这里就对了!
- Q7 空间音效具备什么样的特点和优势?
- Q8 空间音效可以应用于哪些场景?
通用篇:小白也能看懂
Q1 什么是空间音效?
维基百科是这样介绍的:3D 音效也称空间音效(Spatial Sound),是一套可以操控立体声扬声器、环绕声扬声器、扬声器阵列或者耳机所产生声音的音效。它可以将音源虚拟成从三维空间特定位置发出,包括听者水平面的前后左右,以及垂直方向的上方或下方。
本质上,空间音效就是基于人耳的一些特殊心理声学效应,通过一些声学相关算法计算模拟,仿造出似乎存在但实际是虚构的声音。
例如游戏中,敌人偷偷出现在你左后方时的脚步声,同伴在你右边换弹夹的声音,左边窗户被打碎的声音,和右前方手榴弹的爆炸声。
Q2 如何听到空间音效?
事实上,我们可以通过很多种方式实现听到空间音效的目的,比如使用扬声器或耳机。这里根据使用目的、应用场景的不同,总结了 4 种方式:
- 使用多个扬声器
创建空间音效的一种方法是在一个空间中放置多个扬声器,当通过环绕声系统聆听电影配乐或音乐时,可以将单个元素平移到与聆听者头部相同的平面上的任何位置。对话、音乐和音效似乎来自扬声器或介于两者之间的任何地方。这是电影院以及家庭影院常用的解决方案。
(图源见参考文献)
2. 使用串扰消除技术的条形音箱或立体声扬声器
如果你想拥有一个家庭影院,这可能是性价比更高、更方便的选择。使用串扰消除技术的智能条形音箱目前已经可以提供完整的 3D 体验。串扰消除技术在用扬声器渲染双耳信号方面起着重要作用,它主要是通过预失真滤波器,让扬声器播放的声音在特定声学传输路径上面产生相位抵消。简单说来,就是从右扬声器传到左耳、从左扬声器传到右耳的声音被抵消。串扰消除滤波器应根据头部位置实时更新,因此需要头部跟踪以达到最佳运行效果。
3. 使用静态双耳混音的耳机
在使用耳机的情况下,可以基于上混或者 diffuser 滤波器等技术,产生多声道音源,然后对各个声道数据进行HRTF卷积滤波,从而增加声音的方位感。适当结合混响效果器的使用,可以产生特定 3D 声场效果。该方法的一个主要优势在于可以消除“头中效应”,适用于游戏以及电影场景,可以带来一定的沉浸感。华为手机常见的 histen 音效中的 3D 沉浸以及 3D 宏大模式,主要是基于这类技术实现。
4. 结合使用头部跟踪和头部锁定音频
双耳声音的耳机通常听起来并不真实,部分原因是当你转动头部时它不会改变,因此头部追踪是非常重要的。例如,使用光学相机方法或陀螺仪传感器跟踪你头部的位置和方向。双耳渲染可以整合你的动作,这意味着可以根据你的头部旋转和位置来更新渲染。
(图源见参考文献)
苹果就是通过 AirPods Pro 内置的加速传感器和陀螺仪,对佩戴者的头部进行实时追踪,当头部移动时,可以对数据进行重新计算,以便佩戴者听到的环境音效与最初的效果一致。除了可以对佩戴者的头部实时追踪外,AirPods Pro 的传感器还能够追踪头部和设备之间的运动数据,并且支持数据对比,以确保用户在乘坐地铁或公交遭遇到紧急刹车的状况时,环绕音效不会中断。
Q3 空间音效的基本原理是什么?
现实生活中,我们所听到声音是存在方向和距离的,并且声源本身也是存在一定的宽度。不同的方向、距离、宽度的声音共同组成了我们所听到声音的声源定位。
而空间音效一般利用头部相关传输函数(HRTF)和声波空间卷积,模仿自然声波的传播,使其仿佛来自三维空间中的一个点。
头部相关传输函数(HRTF)可以用来描述你的头部和耳朵对你所感知到的声音的影响。来自不同方向的声音分别到达两只耳朵时,会具有轻微的相位和频率上的差异,这个差异能够让我们本能地定位到声源。
简单来说,HRTF 就是试图模拟我们人耳获取声音的模型,并且通过这个模型虚拟任意声源对人耳所造成的感觉。因此,HRTF 首先就需要测量众多人耳的数据,通过这些数据建立起黑盒子的声学模型,其关键就是如何测得较为准确的 HRTF 数据,以及如何建立起比较适合的相关模型。
Q4 空间音效的效果受哪些因素影响?
第一个难以避免的因素就是方向。
当发声源在我们的右侧时,声波通常是先抵达我们的右耳,然后才到达左耳,而这些小小的时间差异,便足以让大脑判断,声音是来自于我们的右方,这就是 ITD(Interaural time difference,双耳时间差),而右耳因为直接接收到声波,所以音量会略大过左耳,加上左耳所接收到的声音,有部分是从外部的反射及绕射而来的,因此会导致音色发生变化,这就是 ILD(interaural level differences,双耳声强差)。此外,人是最大的变量。我们听声音时,不可能保证我们的头和耳朵是一动不动的。ITD、ILD以及人带来的影响形成 HRTF,而耳朵、头部以及肩膀的影响也是 HRTF 需要个性化的原因。
(图源:网络)
第二个因素是距离,包括主观响度感觉、高频的衰减、头部对声音的影响、反射声等。另外,多普勒效应(波长或频率会因为人与声源的相对运动而产生变化)也会影响空间音效。
第三个因素是环境,例如反射、混响、吸收、障碍、传播、衍射等。
最后,还有一些其他因素,例如听音者往往混淆前方声像和后方声像,而视觉辅助以及移动往往会增强定位效果等等。
技术篇:大牛了解一下
Q5 空间音效的技术难点主要在哪里?
第4道问题中影响空间音效效果的因素,也决定了空间音效的技术难点,这里我们主要分享以下3点:
1 高质量 HRTF 数据库的构建:
为确保音源从空间任意位置传递到人耳的特性均被准确记录,因此需要尽可能多的在不同距离,不同角度上进行测量。最终导致采集到的 HRTF 数据库比较庞大,在特定应用场景会受到限制。
研究表明,声音的方向信息与声音到达人的双耳时间差,双耳强度差相关性比较高,同时也会受到外耳耳廓,内耳耳道以及肩膀宽度的影响。这直接导致无法创建一个完美适用于所有人的单一 HRTF 数据库。
2 距离感的构建:
人耳可以基于响度的大小以及频率成分的差异,分辨出声音的远近。另外,声源从远及近或者由近及远的过程中,人耳感受到的声音频率会发生变化,也就是所谓的多普勒效应。在开发空间音频时,需要开发适当的算法来模拟声音在传播过程中随距离的衰减情况,以及声源在移动过程中的多普勒效应。
3 声学环境的构建:
声音在空间中传播可以类比光的传播。当声音在传播过程中遇到墙壁时,会产生反射,同时墙体材料不同,声音还会被一定程度的吸收。针对一个特定的三维房间,声音从某个点传播到听音者的声音,既有直达声,也有经过房间一次反射吸收之后的声音,也有耳朵甚至是多次反射之后传递过来的声音。如果高效的对于这种声音在特定环境中的传播进行建模,是一个比较复杂和有挑战的问题。
Q6 空间音效目前有哪些主流方案?
首先是基于多声道的 3D 音频方案。
该方案是最早也是应用最广泛的方案。该方案利用布置在空间中的多个扬声器,直接在特定方向播放声音,从而到达声音从空间特定位置发出的效果。基于多声道的 3D 音频,在家庭影院中最常见的方案有 5.1 声道系统和 7.1 声道系统。5.1 声道和 7.1 声道的方案仅仅只能带来水平面的空间效果,在垂直方向上则没有效果。目前,在专业的电影院,已经出现了 11.1 或者 22.1 声道的回放系统,这些方案通过在不同垂直面上面布置扬声器,从而改善了高于水平面或者低于水平面等方向的空间效果。
目前常见的多声道回放解决方案有:杜比 7.1 环绕声 (Dolby Surround 7.1),杜比数字 5.1 (Dolby Digital 5.1),auro 公司推出的 auro9.1 , auro10.1 , auro 13.1 等解决方案。日本 NHK 公司推出了 22.2 的多声道回放系统。
(杜比 7.1)
其次是基于对象的音频。
目前市场上采用了基于的空间音频解决方案有杜比全景声(Dolby Atmos®),DTS:X 的环绕声系统以及 MPEG-H。
杜比全景声(Dolby Atmos)是杜比实验室于 2012 年推出的高级环绕声标准,通过将前置、侧置、后置和天空扬声器加上复杂的音频处理和算法相结合,提供高达最高64声道的环绕声,增加空间沉浸感。杜比全景声技术的核心是空间编码,声音信号被分配到空间中的位置而不是特定的通道或扬声器。
DTS:X 技术是开放式的新一代的编解码标准,同时也是基于对象的多维空间音频技术。与现有的环绕声系统不同,DTS:X 音频不再受到固定位置的扬声器摆位或具体声道信号的束缚,它能根据回放环境的不同进行灵活调试,从而获得在该环境下最佳的音效表现。它还能够在观众周围的精确位置点上营造逼真的声音效果,缔造更为丰富的音景。DTS:X 与 DolbyAtmos 都是采用基于声音对象的录制技术。
第三个方案是 Ambisonics。
该方案在采集端录制和编码 ambisonic 格式的音源,在播放时,再根据回放系统的扬声器布置解码成为对应的格式。目前市面上有多种支持该格式的音频采集设备。
最后一个是基于双耳渲染的方案。
基于该方案目前在音乐 App 以及消费电子设备中有广泛应用。例如:蝰蛇音效中的 5.1 全景式,3D 丽音。网易云音乐的鲸云音效。
场景篇:问价值?看这里就对了!
Q7 空间音效具备什么样的特点和优势?
1 空间音效复制了现实生活中声音的处理方式
我们每天听到的声音是复杂的。空间音频的非凡之处在于它以数字方式再现了我们在现实生活中听到的声音。
声音会根据你离声源的近或远而变化,当你倾斜或转动头部时,声音会根据耳朵的方向而变化,你可以感受到声音的高度。空间音频打开了全方位的声音,提供了 3D 声音景观。
2 空间音效提供身临其境的动态体验
空间音效让数字世界更加真实。当你与 3D 图像进行交互时,声音也应该让您感受到空间感,只有这样才能真真正正的体会身临其境的感觉。例如,在玩游戏时,您可能会在穿过黑暗的走廊时听到头顶上有空调嗡嗡作响。当您靠近时,声音会变得更响亮。鸟儿在树上叽叽喳喳,瀑布在远处轰鸣——所有这一切都将出现在使用空间音频的郁郁葱葱的 3D 环境中。
(图源见参考文献)
在日新月异的时代,我们可以感受到的一个趋势是“沉浸感”,现实和虚拟的深度融合,正在让人类开启一个人机交融的“元宇宙”(Metaverse)。空间音频和类似的沉浸式音频技术,将会从声音体验上,强化“元宇宙”的沉浸感,让“元宇宙”中的我们,从视觉到听觉,彻底沉浸。
3 空间音频提供了更准确、更清晰的音频
空间音频允许我们精确定位声音的位置并将其与多个来源区分开来,这在远程沟通的场景中非常有价值。
以视频会议举例,视频会议的局限性凸显了逼真音频的重要性。使用空间音效让我们更容易理解谁在说话。当两个或更多人同时说话时,也更容易辨认他们在说什么。在一天的过程中,它确实在减少疲劳和享受对话方面发挥了重要作用。
清晰度使实时空间音频大放异彩。
Q8 空间音效可以应用于哪些场景?
1 游戏行业
我们所熟知的,是空间音效在 FPS 游戏(第一人称射击游戏)的应用。通过使玩家依赖对声音线索来源的正确判断,空间音效可以提高玩家在 FPS 游戏中的环境意识。熟练的玩家在游戏过程中仅凭轻微的声响或技能音效,就能精确定位危险所在,和队友连麦时,可以通过求助语音准确辨别队友位置展开救援。
但是不仅限于第一人称射击类游戏,作为增强沉浸式体验的关键因素之一,空间音频可以为绝大部分游戏在一定程度上提升游戏体验。
例如,通过空间音效,让手机游戏等小屏幕游戏营造出大游戏的体验感;以声音(空间音效)为中心的游戏可以帮助视觉受损的人享受游戏;恐怖游戏可以利用黑暗和缺少能见度,使玩家依赖 3D 声音线索,从而创造更有沉浸感的体验。
(图源:网络)
此外,传统的声音为二维平面,这与 VR 提供的视野是脱节的。头戴设备(例如Oculus Rift)与空间音效相结合,可以让玩家通过头部转动来确定声音的来源方向,从而进一步提升 VR 体验。
2 音乐演出
如果你是听众,空间音效可以让你选择同一场馆内不同位置的音效,如果你愿意,你甚至可以体会站在歌手身旁听音乐的感觉,可以拥有坐在舞台中央欣赏交响乐的体验。而这一定程度上解决了现在线上演出缺乏沉浸感的问题。
如果你是创作者,空间音效更是为你带来无限可能,声音在自由度上的增强不仅有助于作曲家们在创作时的情感表达,还能够让配乐为动作和对话腾出更多的空间。未来会有更多的音乐创作基于“空间音效”来创作,从录制阶段就有针对性的录音,音乐市场有可能进入一个沉浸式创作的时代。
3 企业服务
正如第7道问题中提到,空间音效会把空间信息带入音频中,使用空间音效一定程度上让我们更容易知道多人在场的音频通话场景中,现在是谁在说话。当多人同时说话时,也更容易辨认他们在说什么。提升效率的同时,也减少了沟通的疲劳感。
数字展会和商业展厅也是可能的方向,VR 与空间音效结合,公司员工可以与客户像面对面一样介绍展位、沟通交流。真实的VR体验,除了触感、视觉等感官体验,空间音效更是必不可少的。
4 医疗保健
空间音效还可以用于医疗保健,例如,用于运动康复系统 、电子旅行辅助设备和其他辅助设备视障人士的技术,以视障人士为例,空间音效可以作为他们方向感的主要线索,为他们的日常生活提供了较大的便利。
技术的发展瞬息万变,从单声道,立体声,到现在的空间音频,斑斓的世界也随之被带到了我们耳边。当声音进入空间环境,它已不仅仅是音频技术的变革,而是娱乐等众多生态的基础构件。为了更好的服务于各行各业的企业客户,网易云信将于近期正式对外发布实时语音 3D 音效,敬请期待。
参考文献
- https://www.thepaper.cn/newsDetail_forward_13162631
- https://www.jiqizhixin.com/articles/2017-10-25-5
- https://zhuanlan.zhihu.com/p/92991993
- https://abbeyroadinstitute.nl/blog/spatial-audio-continuing-evolution/
- http://www.yidianzixun.com/article/0Pj54HVb
- https://www.highfidelity.com/blog/3-major-benefits-of-spatial-audio
- https://www.yundongfang.com/Yun12951.html
更多技术干货,欢迎关注【网易智企技术+】微信公众号
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。