头图

沉浸式视频技术应用与挑战

LiveVideoStack
随着5G时代的到来,低延时、超高清视频将成为未来几年内视频发展的主流趋势之一,沉浸式视频或将迎来其爆发期。金山云 CDN及视频云产品中心高级技术总监 蔡媛在线上分享中详细介绍了沉浸式视频发展的技术壁垒、挑战及具体应用场景实践。

文 / 蔡媛

整理 / LiveVideoStack

直播回放:

https://mudu.tv/live/watch/ge...

大家好,我是金山云CDN及视频云产品中心的蔡媛,本次我将给大家分享的主题是沉浸式视频传输。

1.全球视频云流量市场预测

image

上图是2019全球视频云流量市场的预估数据。从2017年到2022年,整个视频流量以及CDN市场增长非常乐观。到2022年整个视频CDN的流量可能已经达到252EB的数量级。在此之中视频占比逐年上升到2021年预计整个视频的占比超过80%。随着5G的催生,超高清视频、低延迟视频的发展,沉浸式视频业务将会迎来较大爆发期,成为视频发展的主力军。

2.疫情期间音视频通话流量

图片

通过疫情催生,可以看出在整个视频流量上,音视频通话的流量猛增200%以上。与此同时,移动视频的流量增长超过60%。上图是在今年疫情期间音视频会议应用的下载,下载量暴增超过十几倍以上。黄色部分是ZOOM下载的增长,可以看出它的增长超过了29倍左右。浅蓝色部分是谷歌Hangouts Meet,超过了百分之二十几的增长。由此看出,在疫情期间音视频流量增长实际上远远超过预期。

3.移动通信下的视频趋势

image

在电子时代,当时网络状况只有100KB左右网络带宽。当时我们更多的是在电视上观看视频。到了互联网1.0的时代,我们开始在PC上观看视频包括点播,当时比较流行的应用场景有优酷、土豆、酷6。在当时互联网1.0时代就是3G时代的标志性视频应用和网站。到了移动互联网时代,在4G网络的催生下爆发出一些类似于抖音快手的短视频应用以及现在非常流行的直播包括泛娱乐的场景、秀场,其中具有代表性的APP如映客、花椒、陌陌、火山,除此以外包括视频的通信如微信、ZOOM,音视频的通信也爆发起来。另外我们在疫情期间在线教育蓬勃发展属于在互联网2.0时代催生产物。互联网2.0时代的带宽大概是在百兆的网络状况。预测在下一个阶段产业互联网的阶段,随着5G带来的催生作用,5G带宽有极大的增长,网络从百兆提升到1GB。在此情况下,我们可以预估未来在医疗场景、监控、远程教育、在线课堂以及VR、AR云游戏场景下,会有爆发性的增长。

4.场景形态

4.1 实景式在线教育

图片

上图是实时场景下的在线教育,可以看出增强现实可以让学习更加具备真实感和代入感,上图中恐龙的场景,对于学生来说,它的代入感非常强,体验非常真实。而混合现实的操作可以让技术工人的操作更加有真实感。

4.2 高互动在线娱乐

image

VR游戏互动性与代入感非常强,它的肢体识别、动作识别都可以使整个游戏的趣味性极大增加。我们可以通过VR直播、VR眼镜去观看一场NBA的球赛或世界杯的足球赛。这种虚拟现实使人具有身临其境的感觉。

4.3 沉浸式在线办公

图片

虚拟沉浸式在线办公中现如今比较普及的是ZOOM、腾讯会议、钉钉在线进一步优化沉浸式办公应用。通过超高清、沉浸式、低延迟提高远程办公的协作效率。

image

根据IDC的市场评估,沉浸式视频云市场发展的趋势处于飞速发展的阶段。从2019年到2023年五年期间,整个年复合增长率超过66%,由此看出这是个非常强劲的增长。到2023年,整个VR、AR设备的保有率将会超过6000万以上,这就是未来VR、AR的设备将有爆炸式增长。在硬件加持的基础上,开发者可以有更大的想象空间,未来VR、AR的应用和它创意性的应用会有很大增长。

5.沉浸式视频面临的挑战

5.1 挑战是什么?

image

人眼对沉浸式视频的要求会更加的苛刻,人眼对视频机制的追求需要达到50K、120fps、20bit的分辨率和码率以及色域的要求,才能达到真正人眼沉浸式的需求。当前我们所看到的网上视频远远达不到这样的要求,更多的是720p、30fps、8bit。要达到人眼对沉浸式视频的要求,对视频的编解码以及传输会有非常巨大的挑战。

5.2 应对挑战的方法

image

金山云的产品布局主要集中在三个方面:互动性,去提高视频的互动能力;超高清;VR技术。这三块技术构建在整个金山云的IaaS平台的基础上。IaaS拥有大规模的云计算平台、CDN的流量分发,以及RTC加边缘计算等底层IaaS技术。通过IaaS技术,构建对开发者提供完善的PaaS的平台,包括边缘计算平台,以及边缘计算加RTC音视频传输的能力,这是我们在互动低延迟上能力输出。第二部分是超高清,超高效除了开放编解码技术、8K、10bit编码能力,还提供了包括画质评测以及魔镜平台,这些专门针对超高清的产品去提供给开发者和客户去使用,在VR上我们会专注于低延迟的VR编解码、VR传输、在AI加持下的手势肢体识别去提供整个VR的解决方案。以上是金山云在产品上的布局。

6.金山云视频云关注技术点

图片

金山云视频云关注技术点主要集中在上图三个大方向。第一部分是低延迟,通过RTC和边缘计算的软件加平台的支持,可以保证编解码在传输过程中的延迟在毫秒级以内。第二部分是编解码技术,是我们的核心,在编解码的加持下,会提供一个超高清的能力专注于8K、10bit,尽可能多去给客户带来码率节省。第三部分是沉浸式技术,通过AR、VR的技术以及AI技术的加持下,去整合视频的能力、超低延迟的编码、传输方案以及相应的AI技术能力。所有的金山云的核心技术能力将会通过PaaS平台去对外提供产品。三大块的技术点将会通过金山云沉浸式的平台、通过PaaS的方式提供给客户,去支持创新性的开发与应用底层能力的支撑。

6.1 RTC+边缘计算技术带来低延迟

图片

如何通过RTC+边缘计算技术带来低延迟的音视频传输的能力。金山云的边缘计算在全球超过1000个点的数据中心的规模,所以可以提供低于15毫秒的低延迟接入、良好的跨网络的路由调度能力以及高效的音视频传输的数据流。金山云的边缘计算有非常强大的算力支持和布点的分布。通过RTC软件的能力,金山云还提供了百人同时在线的音视频通话的能力、丰富SDK终端支持。通过强大的音视频处理和FEC弱网技术的支撑,可以提供丰富音视频场景的能力支撑。目前金山云更多集中在泛娱乐的场景,比如说泛娱乐的连麦,以及在线音视频的教育,未来RTC和边缘计算能力的结合,可以很好地应用在我们的沉浸式的低延迟的场景上。

6.2 智能超高清编码方案

image

第一部分金山云在编解码技术上超过了5年的技术的积累,编解码技术可以为客户节省带宽超过60%甚至80 %以上的压缩率。这个压缩率数据在行业中处于非常领先的能力水平。第二部分是通过我们的算法包括图像算法、编码算法,将画面进行分层的处理、重点去进行画质的增强。第三部分是AI技术,通过场景预测分析,画质的分析,我们可以为视频客户相应不同场景的视频,提供编码的最优解,达到场景化最优编码方案提供给使用者。

6.3 金山云深耕编码技术

图片

在编码标准上,金山云同时支持了264编码、265编码、国产的AVS2的编码以及最新的第四代编码标准AV1,都在平台上实现了商业化。同时我们也是AOM开放编码组织的核心成员之一。

编码都拥有独立的知识产权。在2019年金山云提供专利超过50篇以上。

在性能上压缩率大大高于开源编码压缩率,达到行业非常领先的位置。编码优化的效率在性价比上在云厂商处于非常靠前的位置。

我们还支持全链路。全链路是指同时支持云上的云转码,同时也支持移动端的编解码、web端的编解码解码的能力。所以金山云在云上、移动端上、PC端上、web端上支持整个全链路的播放、端的云上编码能力。

6.4 AV1编解码进展

image

当前AV1编码已经支持了4K、8K超高清编码以及100fps10bit编码,10bit在iPhone12和小米10上已经支持10bit的视频拍摄与应用。在这些APP中会有更多的应用。金山云在AV1上提前布局,已经支持了10bit的编解码云上支持。

image

上图是AV1编解码的视频展示,原片是6.37M,在265编码下可以压缩到1.59M,节省码率带宽大概是75%。在AV1下可以进一步压缩到800多kb,码率节省达到85%,视频的传输上有非常大的支持,可以将码率降低到80%以上,她的传输质量还有她的传输延迟,都会有很好的体验上升。

6.5 超清画质解决方案

image

上图是在AI能力的加持下,AI加超高清编解码的解决方案。通过AI我们可以实现以上四个大的提升。第一个是场景识别,可以对视频场景进行识别,对体育、秀场、游戏等不同的场景进行匹配,对不同的场景运用不同的编码模板达到最优的编码应用。第二个是内容分割,通过ROI的分割,利用AI技术可以识别视频中的人眼关注的区域如嘴唇,更多会对这些重点区域进行视频增强,使主观的效果更加优秀,让主体更加突出,让背景看起来更纯净。第三个是质量分析,通过神经学习,金山云支持多重的评价质量类型包括KPA(图像视频感知评价体系)的质量分析和VMAF分析,这些分析可以对不同的视频进行质量的判定,比如对于高清的视频可以应用更激进的编码参数,对于低清的视频,可能会进行一个更好的修复,让整体效果更加优秀,视频质量进一步提升。第四个是感知编码,我们可以检测出人眼最关注的区域比如人眼对边缘的区域非常关注,会在边缘地方分配更多的码率进行编码。这四大块是通过AI加编解码的能力达到融合,使编码更加高效,分配码率更加合理,提高整个画质,降低传输码率。

6.6 VR分块编码

image

这一部分主要分享的是在VR上做的一些核心技术投入。首先是264编码和265编码和AV1编码的差别。264编码只支持Slice的切分,也就是横向的切分。对于AV1和265编码而言,它支持Tile的划分,也就是它支持横向和纵向的划分,就是天然可以支持进行分块的编码,这在VR中非常重要。通过我们的分块,可以将VR进行切分,通过切分后分块进行渲染,如果没有分块的渲染,只是整个视频在VR硬件上进行渲染对计算能力要求非常高,有可能设备解码的温度可能达到60摄氏度,戴在头上是没办法接受的,只能在电视上进行观看。但是有了Tile编码之后,只需要去解码视场角范围内的视频块,会大大减轻头显对于解码的计算能力的要求,使高清成为可能。Tile的话另外一个优势是,它的体积会更加小,码率节省可以超过75%,大大减少整个传输的成本。Tile方案同时也带来了挑战,首先是转头延迟,因为通过Tile的编码,它只传输一部分的视频,在转头的时候,要求延迟需要控制在人眼可以接受的范围,对边缘计算的要求,对处理的要求以及网络传输的要求都会有一个更苛刻的诉求。其次是对AI和图像处理而言也会带来更大挑战,传统图像处理是针对整个画面去做处理的,经过Tile的传输和分块之后,它进行了切割和切分的处理,通过分块编码以及分块编码后的视频处理的能力加上边缘计算的能力,金山云能够比较好地处理Tile编码带来的挑战。通过“云、边、端”链条可以将转头延时降低到人眼可接受范围,同时在Tile编码上对图像处理很好进行图像增强。

6.7 沉浸式FOV视场角

图片

Tile编码是为了更好的实现FOV视场角的诉求。FOV视场角是在人眼上看到有一个范围,大概人眼能够观测的范围是90度的范围。沉浸式视频是360度的视角,但人眼最关注的区域在90度到120度之间。在人眼FOV视场角范围内,我们可以传输和展现高清的视频,当我们转头时,我们会把视场角由低分辨率切换到高分辨率,而视场角范围外就会从高分辨率切换到低分辨率,这个切换实际上是要求在视频的切换上需要保持在30毫秒到60毫秒以内。要达到这个,一方面需要Tile编码的支持,另一方面也需要边缘计算、网络传输、编码上的支持,让视频传输码率更小,它的传输延迟就会极大降低,才能够控制在60毫秒以内。除了传输之外还需要在头显上集成和适配。所以全链路需要“云、边、端”三端进行融合,才能实现低延迟的转头延迟。金山云在FOV上有一定的时间沉淀,在这方面会通过平台的方式以及解决方案的方式提供给客户、开放给开发者去进一步使用。以上就是关于技术上的一些分享。

7.愿景

图片

金山云是在上图三个大的方向上进行投入。第一方面是互动互联,通过我们的互动视频,可以使金山云更加智能、提供更低的延迟、更高清的语音和视频的效果。第二方面是超高清能力,提供更高的画质体验、更大的压缩率和更好的编码效率、提供更好的性价比编码服务和视频媒体处理服务。第三方面试沉浸式技术,通过分块编码、低延迟视角、FOV的低延迟的能力以及通过AI去加持交互识别可以提供整个沉浸式技术给到开放平台上进行开放,我们愿景是通过整个沉浸式视频的平台助推5G时代高清应用的发展。

阅读 101
112 声望
16 粉丝
0 条评论
你知道吗?

112 声望
16 粉丝
宣传栏