客观指标VS主观质量:拨开遮挡高清视频技术的迷雾

金山云将在LiveVideoStackCon 2020北京站发布金山云图像视频感知评价指标Kingsoft Cloud Perceptual Assessment(KPA),这也是金山云与香港城市大学王诗淇老师团队共同研发的成果,希望以此帮助行业距离实现“让视频更加高清”的目标更进一步。

受访讲师

樊鸿飞,金山云高级研发总监,北京大学计算机科学与技术专业博士,负责视频云的VR、视频编码、AI等技术线研发,近年来主要从事沉浸式视频、视频编码、图像处理、计算机视觉方向上的研究与技术落地,主要研究与应用成果发表于国际顶级期刊IEEE TIP、IEEE TCSVT、IEEE TMM等。

以下内容由LiveVideoStack与樊鸿飞的采访整理而成。

Q

金山云为何会推出KPA,与其他指标相比有何优势?

樊鸿飞:目前能够达到商用级的评价指标非常少,学术界的评价指标主要都是针对有非常明确边界条件约束的场景。商用级的评价指标目前除了PSNRSSIM之外,就是Netflix提出的VMAF了。

KPAVMAF的区别在于,一方面VMAF是全参考的IQA/VQA指标,而KPA是一组无参考的IQA/VQA指标,因此KPA也可以应用在全参考来计算DMOS,同时KPA除了通用的整体质量评价外,还包括子维度质量、局部质量等细分评价指标,应用范围更广泛;另一方面,VMAF针对高清PGC视频有比较强的能力,而KPA主要针对UGC视频。

Q

在优化_(衡量画质的)_评价指标的精确度方面,金山云有哪些针对性措施,成效如何_(具体数据)_?

樊鸿飞:针对现有评价指标算法_(尤其是无参考评价算法)_精度较低的问题,金山云KPA主要从两个方向进行了重点研究和优化:一个是数据筛选,另一个是模型攻防。

在数据层面,通过收集各种场景下UGCPGC视频,并保证至少50以上的专业评测人员对每个视频进行主观评测,从源头上避免数据主观评测波动和精度问题。

同时,对收集到的数据,从内容、场景、质量等多个维度进行平衡筛选,在确保数据规模远超业界开源数据的基础上,提升数据的多样性。

在模型层面,通过攻防设计、协同学习、困难样本挖掘等方法,提升模型的鲁棒性和精度,在开源数据上均取得10个点以上的增益,并在UGC场景中SROCCgMAD分数均超越业界最好的有参考算法VMAF

Q

金山云的KPA计算服务是如何避免或减少画质折损的,以及KPA属于主观评测指标吗?

樊鸿飞:KPA的全称是Kingsoft Cloud Perceptual Assessment,主要是希望用客观指标来衡量人眼的主观感受。金山云KPA可以有效应用于编码及AI方向,避免或减少画质损失,提升视频或图像主观质量.

在编码方向,通过KPA对视频进行场景级、帧级等全局质量预测分析,块级局部质量预测分析,结合JND模型作为其最小可察觉主观失真衡量,并由此自动决策出编码所需要的CRF、QP等参数,能更好地匹配人类视觉主观系统,消除视觉感知冗余,在保证主观质量相同的情况下降低码率或者在相同码率下提升主观质量;

在AI增强方向,通过将KPA的全局/局部/子维度评价作为不同侧重点的loss或者判别器加入到模型训练中,指导模型朝更好的画质方向进行优化,进一步提升主观画质。

Q

金山云给出的画质评测方案的主要应用场景是什么,亮点有哪些?

樊鸿飞:金山云通过魔镜平台来提供高效易用的图像/视频评测服务,不仅提升评测效率,也保证评测的准确性和科学性。整个方案包括数据筛选、评测维度制定、评测质量保证以及评测结果分析。

与此同时,金山云魔镜平台目前还提供了多个开源的客观指标评测。金山云魔镜平台主要可以用于三种应用场景:内部算法迭代、用户实际观看体验评估和竞品分析对比。

Q

金山云KPA对于画质评测行业而言有何价值?

樊鸿飞:在画质评测行业,用客观指标来衡量主观质量一直以来都是一个世界难题。比如一个视频在不同的设备上,不同的观测距离中,都有不同的观看感受。此外,除了整体分数以外,还有各个子维度的分数,比如色彩、亮度、清晰度、畸变等等。另外还涉及到网络卡顿问题、VR视频等等,问题非常复杂。

金山云KPA并不是用一个算法来解决所有的事情,目前发布的KPA主要针对于UGC视频,对于播放场景的映射也是针对于常用场景,同时我们也在探索包括子维度评价、局部评价、评价映射等等主观评价的各细分业务场景指标。

一方面,我们希望KPA能够抛砖引玉,吸引更多学术界的学者来关注企业应用中真正的诉求;另一方面,希望KPA能够帮助视频行业进一步提升视频质量,推进视频高清应用的发展。

Q

有哪些关键技术或研究趋势正在/将会被应用在画质评测相关的解决方案当中,AI在这当中扮演什么样的角色?

樊鸿飞:在近几年对AI的研究中发现,这项技术在众多领域广泛应用,且大幅度提升了各领域的原有性能,是算法的基本盘。在画质评测相关的任务中,AI也帮助我们大幅度提升了SROCCPLCC等指标。不过,我们仍然会遇到欠缺可解释性的难题,这也是我们未来需要进一步关注的重点。

Q

图像视频评价指标的体系近几年呈现出什么样的趋势,您如何看待其未来几年的发展方向?

樊鸿飞:在此前的问题回答中也提到了,图像视频评价指标是一个非常大的研究课题,需要大量学者参与攻坚。目前学术界大部分研究都是基于较为少量的数据级,研究如何提升泛化性,对子维度、不同播放设备的研究较少,而这些却都是实际应用中的刚需。

我们目前已经和香港城市大学评价指标研究领域的国际知名专家王诗淇老师及其团队进行了紧密的合作。通过此次合作,我们将企业应用中真实的数据、需求反馈给了学术界,也得到了非常棒的学术研究成果。希望通过这次发布KPA,吸引更多学术界的学者们来研究这些课题。

Q

现阶段正在解决的问题以及下一个阶段的研发目标?

樊鸿飞:作为云服务商,我们致力于为用户提供稳定的一站式视频云服务。一方面,我们持续对视频服务的核心指标进行提升,包括画质、卡顿率、延迟、码率等;另一方面,我们对未来视频形式进行了探索,例如今年发布的4K/8K VR直播解决方案,以及服务于超高清开发者的金山云魔镜平台;下一阶段,我们希望能推动整个行业在超高清视频应用方面的落地,这一目标的实现需要整个链路上的持续优化。

本次LiveVideoStackCon 2020 北京站上发布的金山云图像视频感知评价指标Kingsoft Cloud Perceptual Assessment_(KPA)_,是金山云与香港城市大学王诗淇老师团队共同研发的成果,我们也希望能帮助行业来实现“让视频更加高清”的目标。

248 声望
67 粉丝
0 条评论
推荐阅读
在线视频协同:探究画面帧的准确性
编者按:视频协作平台会涉及网络、编解码等众多技术栈,并且要支持各类终端。其中一个关键能力是实现毫秒级的同步,这对于视频协作平台十分重要。本文来自分秒帧 web多媒体开发工程师耿学岩的投稿,详解了实现毫...

LiveVideoStack阅读 64

SegmentFault 思否宣布将接入百度「文心一言」,提升开发者获取知识的效率
作为中国领先的新一代开发者社区,我们以「凝聚集体智慧,推动技术进步」为使命,长期关注前沿技术发展及产业应用。2023 年 2 月 11 日,ChatGPT for SegmentFault 浏览器插件上线,SegmentFault 成为了国内首个...

SegmentFault思否11阅读 3.1k评论 1

对 ChatGPT 做一次技术面试(ChatGPT 没能通过)
问:对一个系统的描述如下:系统中有大量注册用户,用户可以关注其他用户。用户可以发布消息,消息包含发布者、发布时间和可见性。消息的可见性可以是公开、不公开或仅对关注自己的用户可见。请设计这个系统的数...

捏造的信仰7阅读 1.6k评论 1

封面图
超详细的ChatGPT注册教程来了
最近一周,大家都在讨论ChatGPT,一些主流的技术社区更是将ChatGPT吹的神乎其技,那ChatGPT是什么呢?又能给我们带来哪些变化呢?。带着这些问题,我打算先注册并使用 ChatGPT,供想要体验 ChatGPT 的小伙伴们参考。

xiangzhihong3阅读 2.8k评论 3

使用 🧨 Diffusers 实现 ControlNet 高速推理
自从 Stable Diffusion 风靡全球以来,人们一直在寻求如何更好地控制生成过程的方法。ControlNet 提供了一个简单的迁移学习方法,能够允许用户在很大程度上自定义生成过程。通过 ControlNet,用户可以轻松地使用...

HuggingFace3阅读 1.2k

封面图
Light·技术公益创造营,开营了!
第三届腾讯Light·技术公益创造营(简称“腾讯Light”),围绕数字时代下“未成年人心理健康”、“老年人用网安全”、“生物多样性保护”三大议题,号召社会各界人士打造技术公益多元解决方案,以共同解决更多的社会公共议...

SegmentFault思否3阅读 11.3k

搭个ChatGPT算法模型,从哪开始?
最近 ChatGPT 很火,火到了各行各业。记得去年更多的还是码农最新体验后拿它搜代码,现在各行各业都进来体验,问它咋理财、怎么写报告和给小孩起名。😂 也因此让小傅哥在头条的一篇关于 ChatGPT 的文章都有了26万...

小傅哥6阅读 1.2k

封面图
248 声望
67 粉丝
宣传栏