头图
2020是中国的5G元年,疫情的黑天鹅事件迫使人们的生活和工作由线下转移到线上,这两个因素叠加使得音视频能力成为了这个时代互联网行业最重要的新基建之一。但另一方面,在技术上我们依然还面临着非常多的挑战。本文是根据快手音视频技术负责人于冰老师在LiveVideoStackCon 2020北京站的演讲中整理而来。他从2020音视频行业大事记、快手音视频技术进展以及行业的共同挑战三个方面跟大家分享了自己的理解。

文 / 于冰

整理 / LiveVideoStack

2020年确实是非常黑天鹅的一年,经历疫情,音视频行业来自五湖四海各个公司的同学终于可以线下相聚,这需要感谢LiveVideoStack对音视频技术社区持续专注的运营,你们的开放、专业和坚持非常难得。另外不少朋友跟我说,这一年过得就像感觉像是过了好多年,因为行业发展和变化得太快,有太多大事件发生,也有很多意外和惊喜。本次分享内容会分为三个部分,首先是跟大家一起回顾一下2020年的行业大事,之后介绍快手音视频技术的新进展,最后讨论下我们正在共同面对的行业挑战。

1 疫情和5G加速音视频GDP持续增长

众所周知,GDP是衡量国家经济状况的最佳指标,那么我们也抽象出一个新概念,那就是音视频行业的GDP:可以通过各个细分行业的渗透率和总用户时长规模信息,来衡量音视频行业的发展情况。先看下CNNIC的统计数据,截至2020年6月,受疫情影响,网络视听行业用户渗透率高达95.8%,这意味着网络用户中仅有百分之四点几是没有涉及音视频的。这些渗透到用户侧的内容通过直播、短视频、在线视频、音频播客等方式和用户链接。同时,他们统计出视听产业总规模达到了四千多亿。但可能一些新兴的细分行业没有被覆盖,这个数据显得相对保守,因为据我所知,今年最火的直播电商这一个细分行业,GMV就可以达到大几千亿人民币。

再从一些典型的细分行业看,短视频行业截止至2020年6月,渗透率达到87%,而直播的渗透率将近60%,还有比较大的发展空间,这里面,电商直播是今年特别大的一个亮点。

GDP是用户的数量,而用月活跃用户数量乘以用户的使用时长,便可以得到用户在音视频APP或者应用中的月使用时长,可以看出,疫情之下的二月,短视频渗透率和用户总使用时长都达到了一个非常恐怖的高点。

优酷、爱奇艺、腾讯视频等在线视频行业APP,用户月使用时长在今年年初也产生了一个明显高峰。

教育行业数据峰值达到800亿分钟/月,是非常高的一个数字。

疫情期间大家普遍在使用一些办公软件上课、开会,这也使得效率办公APP行业的GDP有进一步的增长;同时,直播电商的市场规模达到了近万亿,在如此巨大的体量下,直播电商市场规模还能达到100%以上的增长,说明音视频已经成为互联网行业非常重要的一项基础设施。

传统行业、电商、社交也都在借助音视频技术去寻求突破和创新。微信过去只支持图文消息,而现在已经开始支持直播,视频号也是一个非常好的开始;效率协同办公APP的体验,如在线学习、会议等,都是基于音视频的能力实现的。

2020年是5G时代元年,伴随着5G的发展,专家预测到2022年,全球CDN的流量会持续上涨至252个EB,我国的CDN的步伐也是基本一致的。消费侧的持续消耗,也带来了供给侧的持续增长。从快手内部监测到的数据可以看出,近一年在网的5G设备数量上涨了15倍,5G网络下短视频的消费占比涨了约10倍。同时,从各省份消费占比和设备量占比上来看,东部地区一线城市5G普及更好一些。总之,5G时代开启,并且正在逐渐走进人们的生活。

依旧从快手的数据上看,在视频消费质量上,5G相比4G,整体卡顿率、开播失败率、首屏等核心指标优化约20%~30%;上传成功率,在一个原本就比较高的基础上又实现了0.78pp的涨幅,上传速度加快一倍,直播通信的延时大幅下降。其中,RTT通过直播的连麦和推流进行计算,通过使用快手私有协议,延时下降30%,但这个值相比5G宣称的10ms延时还不足够显著,主要原因是目前5G还是非独立组网(NSA)状态,如果在独立组网(SA)状态,可以实现更低的延时。

乔布斯曾说过手机屏幕不用特别大,不好操作,但是今天用户需求已经改变了。从数据上可以看到,用户的手机屏幕在持续变大,全面屏设备占比过去一年增长了23.7pp;此外,在屏幕分辨率上,我们发现大于1080P的手机设备占比已经达到74%左右,还有3%的设备屏幕分辨率大于4K。因此快手团队基于网络速度的变化,以及用户对大屏的强烈诉求,最终决策要将短视频清晰度升级到1080P。

以上,我们得到关于行业的一个重要结论:5G时代下,视频会像空气和水一样无处不在,成为一项非常重要的基础设施。并且,由于疫情的影响,这个时代正在加速到来。

2 快手音视频发展

下面的内容,将重点介绍快手音视频在2020年做的一些工作和取得的进展。

快手音视频业务架构

历时4年时间,快手已经建立了一套覆盖短视频、直播等多种场景,从内容生产到处理分发再到消费的完整系统。快手数百名优秀的工程师持续地追求极致,对其进行优化,从端侧到服务端,从算法到工程,结合基于大数据的体验优化平台、AB测试体系、完善的质量分析与评价团队,形成了日趋完善的体系。而这个体系在今年也发挥了重大的作用。

快手领先实现了端到端1080P视频的支持。虽然传统视频网站支持1080P视频已不足为奇,但对于短视频行业来说,不止是要支持消费侧用户观看的视频质量,而是要从视频拍摄、编辑到上传、转码再到分发和播放,端到端全链路地支持1080P。快手音视频团队在其中投入了上百人,历经1年多的时间,所有A/B实验必须正向,只有用户拍摄1080P要比原来720P更多,才会上线。上百个实验做下来全部优化为正向,实现起来是非常有挑战的。

直播方面,快手在今年举办了很多次大型活动,从去年的阅兵到今年的春晚,在线数据一直在实现突破。快手春晚转播,最高在线人数创纪录,达到了2000多万人;董明珠在快手直播卖货,一天卖了3.1个亿;周杰伦疫情期间从台湾连线,跨海峡两岸进行直播首秀,为快手用户提供了一个全新的云端演唱会的体验,直播观看人数约6800万。

就在会议前一晚,刚刚结束的快手一千零一夜,黄渤和周杰伦连麦一起完成两岸隔空对唱,实现了一场堪称完美的演出。周杰伦现场是一个摄像机,黄渤现场是一个手机,两人之间的连麦延时要求做到最低,实现起来是非常困难的。这次大胆的创新和尝试的背后,是我们的工程师们在现场与电视台工作人员不分昼夜的设备联调,跟艺人多次彩排磨合,才最终保证了播出时音画都完美的几分钟连麦。

直播 — LAS

LAS是快手开放的低延时多码率直播标准协议,是基于Push方式的协议,这样的直播协议在国内是一个独特的创举,在国际上也是比较领先的。LAS方案在快手内部落地后,带来的高清、流畅体验令业务负责人都感到非常惊讶。19年LVS大会上,我们发布了web端开源代码和服务端参考实现。2020年中,快手与B站联合发布LAS的移动端实现方案,将其实现到了IJK player中,且合并到了IJK player的主干代码。目前业界一线CDN厂商,如阿里云、腾讯云等都已经支持了该协议。

上图是关于LAS各项技术指标的测试结论,欢迎大家扫码详细了解,也可查看移动端代码,更希望未来有越来越多的公司在自身业务上尝试使用LAS标准,对齐快手的直播体验。

创作者生态

快手音视频在2020的一个新的发展方向就是开放平台。快手创立了直播开放平台,接入了很多一线设备厂商,用户可以通过Insta360,DJI等设备,在快手平台一键开播,解决了用户创作场景受限的痛点,滑雪、钓鱼、玩滑板、VR等各种更有趣的直播内容都可以被看到。另外,Onvideo团队在2020年初加入快手后,进行了全面的改版和升级,现在注册了快手的音视频创作者,都可以通过我们的创作者中心体验Onvideo的各种新功能。同时Onvideo和直播开放平台互通,推出了直播快剪,针对快手上的直播进行实时录制,录制过程中即可完成剪辑工作,大大提升了内容发布的时效性和质量。

参与国际视频标准制定

2020年快手在国际视频标准的制定上,也做了很多贡献。在VVC上提交了过百件技术提案,其中几十件被纳入了标准,采纳数量在参与公司中名列前茅;AVS3标准虽然3月份刚刚参与进来,但也已经提交了近20余件的技术提案,采纳数也是比较多的。

3 共同的行业挑战

行业挑战 — LiveVideoStack

最后讲一下音视频行业所面临的共同挑战,首先大家从社区角度来看下,这是从包主编那里得到的一个数据:6月份的首届LiveVideoStack线上音视频技术峰会,事实上只卖出了不足1000张票,票价最贵才199元,很明显这场活动赚不到什么钱。这也是为什么他们还会考虑做线下的培训业务,要从媒体社区拓展到教育,还是因为有比较大的生存压力。在整个行业高速发展的情况下,LiveVideoStack如何也能够有更好的发展,我认为这是咱们这个行业很重要的一个挑战。

行业挑战 — 标准碎片化

第二点,行业标准的碎片化,也是大家公认的一个行业挑战。目前咱们有各种各样Codec、传输协议、封装格式、图片格式,但难以实现统一。Codec层面,浏览器目前只能用AVC和AV1,移动端则有很多协议,最广泛适配的只有AVC,但AVC是一个十多年前的标准,在压缩率上已经难以满足需求。传输方面,目前也是百花齐放的状态,很难实现统一,有RTMP、SRT、QUIC等,快手也贡献了LAS、KTP等协议。图片格式上,也是多种多样,目前还有大量场景在用GIF,但GIF是一个很老旧、压缩率很差的标准,在快手大家已经禁止用GIF。未来,随着标准做得越来越好,希望大家能够一起拥抱统一的标准。

技术挑战 — 设备条件

第三点是体验瓶颈,用户使用时长,大多是用手机看视频产生的,而手机的屏幕是相对较小的,分辨率也有限。但是在技术上,是能够做到4K、8K甚至16K的,没有更大分辨率的屏幕去适配这些技术,那么行业发展和用户体验也会受到限制。目前手机上最大的屏幕也就2K,4K屏的手机成本也会比较高,必要性也不是很强,那么带有折叠屏或者柔性屏设备的出现或普及就显得更为重要,在一定程度上也会推动技术上做到更高的分辨率。

除了折叠屏、柔性屏以外,我们也期待有更好的VR、AR设备。有一家跟快手合作的公司,Nreal的AR眼镜可以做到非常高清的水平,体验过他们的新设备,基本可以代替投影仪,坐在沙发上看,相当于投射出一个大概200寸的屏幕,清晰度非常好,画面很细腻。这让我们对未来有更大的信心,希望这个方向可以发展更快一些,设备价格可以更低,让更多的用户使用到和感受到。

技术挑战 — 编解码

编解码算法方面的挑战,快手音视频算法工程化团队的负责人闻兴也会在本次会议中做详细讲解,这也是快手首次将编解码的算法对外公开分享。详见《快手智能视频图像编码处理服务架构》

这里面很重要的一点也是最有挑战的一点,便是建立离线环境与在线用户体验之间的关联。编解码在离线开发阶段,会注重在BD-rate,BD-PSNR上的优化,使码率和信号保真度达到最优的Trade-off;进入测试阶段,主观质量就会显得更重要,快手有很多评价方法和内部工具来保障评测结果的公平性。再向前走一步,我们会综合分析多种影响因素,包括格式、版本、档位、覆盖率等,去关注线上的用户行为和带宽的实际节省。真正的在线上阶段,都是通过大量A/B实验,通过用户的时长变化等表现,才可以确定编解码算法的优化是否真正有效。而这个过程,QoS和QoE间的关联关系是一个黑盒,非常复杂,难点在于:其一,质量如何评价?其二,QoS与QoE之间的关系,只有通过实际的A/B测试才能取得。因此,应该如何破解,是一个比较有趣且非常有价值的课题。

技术挑战 — 视频分析和处理算法

在视频图像的分析和处理领域,有些算法复杂度低,有些算法复杂度很高,比如图像分割,是复杂度相对比较低的算法;但像超分(Super- Resolution)、去模糊(Deblur)这些,需要逐个像素做处理,是复杂度很高的算法。随着画面越来越大,高复杂度算法的计算效率和处理速度也是越来越慢的,服务端上如此,移动端上的实现就难上加难。而手机像素越来越高,移动端硬件的发展跟不上算法算力需求的发展,这是我们面临的一个重大挑战。目前有很多神经网络处理器,但能支持的算子还是比较有限,难以达到要求。随着移动端的处理算力,AI的处理算力进一步的增强,在未来的几年也许能看到更多希望和可能。

技术挑战 — 音频分析算法

疫情期间多人会议的场景,大家一定都很熟悉,这种场景下的音频处理是非常有挑战的。首先,由于设备间的影响和作用,如果有设备没有选择闭麦,就会产生非常强的啸叫;其次,在小的封闭空间中,回声消除是非常困难的;另外,如果使用者距离麦克风较远,收音效果就不好。因此,我们现在无法评价哪一家的视频会议做得更好,只能比较哪家做的更差一些,因为大家都面临着这些难解的问题。在音频处理算法中,希望更多的创新可以诞生,也许通过软硬件结合的方式可以一定程度缓解这些问题。

技术挑战 — 视频传输算法

音视频算法除了编解码、图像处理、音频处理,还有一项就是传输算法。拥塞算法是传输领域的一大难题。我们对比了各种经典的算法,包括我们自研的KTP(直播模式),如左下图所示:可以看出,不同的算法,在吞吐量和延时两个维度很难同时达到最优。此外,Inflight对传输性能的影响非常大,它代表了在网络传输过程中,已经发送但未收到ACK确认的数据包,然而真正直接影响传输的是已经发送但未收到的数据包,二者之间存在一定的差异,但在缺乏反馈信号的前提下,预测后者是非常困难的。快手的周超博士通过机器学习的方式,对真实Inflight进行的预测,其准确度如左上CDF图所示,显著高于直接采用ACK进行评估的方式。最后,在传输算法的落地上,QoS与QoE之间同样有着复杂而密切的联系,一味追求高带宽利用率后低延迟,对业务不一定友好。例如,用户观看的视频更清晰,那么他的观看时长会不会增长;视频卡顿增加,用户观看时长会不会一定减少。QoS对QoE的影响并非线性关系,不同用户的感知程度也不一样,这些目前还只能靠A/B实验获取结论,很难做到在算法上线前就准确预测结果是否为正向,这也是值得大家持续深入研究的。

行动呼吁

接下来希望发起一些行业呼吁,需要我们音视频领域的技术人一起携手,未来向几个方向持续迈进。第一,低延时,随着5G时代的到来,以及QUIC协议、WebRTC等持续的优化工作,直播、实时音视频通信的延时将持续下降,给用户越来越好的体验;第二,高画质,快手会陆续推出端到端的1080P和HDR,更高的帧率、更宽的色域、更高的分辨率,是未来确定的方向;第三,全球化,希望能够将中国的音视频技术和最好的视频体验带给全球。

最后,希望大家多多参与开源,在开源社区里经常看到印度人提交很多Patch,而中国人可能因为工作以外的时间很少,在社区不是很活跃。这需要行业内一些领军的公司,率先投入资源,来推动统一标准;另外,希望诞生专业的、客观中立的质量评价体系,以更好地评估产品和技术的优劣;同时,也呼吁大家共同扶持LVS繁荣发展,推动和促进行业知识分享,提升音视频技术人才的密度。


LiveVideoStack
260 声望86 粉丝