七牛云音画质量分析系统的行业前瞻

编者按： 音画质量分析在短视频爆发式增长的当下凸显得尤为重要，七牛云推出的音画质量分析系统 QoE结合前沿的音视频处理技术和深度学习模型，在音画质量分析行业成为了佼佼者并带来一定影响力。LiveVideoStackCon 2022 音视频技术大会上海站请到了七牛云智能视频服务AI技术负责人宋宏亮，为我们分享音画质量分析系统的行业前瞻。

文/宋宏亮

整理/LiveVideoStack

大家好，今天非常荣幸能和大家分享七牛云在音画质量分析方面的工作。

本次分享的内容将主要围绕着四个方面来阐述，首先是音画质量分析QoE产品的背景介绍；第二部分是产品在商业化落地的场景；第三部分是产品在遇到挑战时凸显出与其他竞品差异化的能力；最后是产品的未来规划。

01、产品背景

1.1云计算行业趋势

回顾云计算行业的趋势发展，大致经历了三个时期。从最开始的云计算成型期，大多厂商都围绕着共享经济和平台虚拟化，由此来打造一个基础的平台。接着到了高速发展期，这个期间主要以资本进行驱动，开始大规模烧钱圈地的阶段。随着不断的发展，到了成熟期之后，产品的品质作为了核心驱动力，更加强调服务。

1.2需求痛点

近年来短视频呈现了爆发式的增长，中国在视频云市场也迎来了急剧的增长。目前视频业务的竞争非常激烈，其中尤其强调内容为王，尤其是优质的内容，如果所有厂商和平台输出的内容都已经比较吸引人的情况下，我们和竞品本质的区别就在于能够带来极致的用户体验，因为消费者对音视频产品要求越来越高，对卡顿、低分辨率等现象容忍度越来越低。

1.3价值意义

在这样的背景之下，七牛云开始着手打造音画质量分析QoE产品。从客户角度来看，希望能够满足客户对音画质量评估的强烈需求，在助力客户业务提升的同时提高用户的体验。从七牛公司角度来看，希望能够在音视频的质量评估标准形成一定的影响力，并与多个内部产品如编解码、RTC等形成合力，构成丰富的产品矩阵，同时也能更好地服务客户。

1.4产品Roadmap

QoE产品的Roadmap已经持续了一年多。在2021年3月，七牛云内部开始统一视频云质量体系并孵化商业化版本质量评分系统；2021年8月，七牛云发布了音画质量分析系统的内测版本，有数十家内测客户接入进行测试；2021年10月，在LiveVideoStackCon2021音视频技术大会北京站首发全网第一个商业化的公测产品，当时的产品已经能够支持图片和视频的质量评估分析，包含了对基础质量、美学质量、明细评分的能力；2021年12月的七牛云十周年大会上，正式对外发布了音画质量分析系统产品。

2022年也有一系列研发的动作，例如1月针对某些行业特定的要求和属性进行相应的功能研发，例如支持电商行业特定属性的评分因子和判断因子，是否存在九宫格、马赛克、白底图等影响用户体验的因素。同期，也有越来越多的伙伴和竞品跟进相应方案，并对外宣传发声。2月，上线了音频质量评分模块，能够支持音频维度评分，同期也发布支持社交互娱行业特定属性评分因子和判定因子。3月，发布了QoE海外服务，尤其是东南亚地区，同时第一家海外客户也正式上线。

02、商业化场景

2.1场景：优质素材筛选

第一个商业化场景体现在优质素材的筛选。目前短视频信息流是比较火热的互联网产品，但由于有非常多UGC内容，其质量会参差不齐，因此如何批量化准确识别质量对后续客户业务使用是非常重要的。首页推荐信息流对平台来说是一个很大的流量入口，基于我们的质量分加入到推荐系统里，影响其召回、排序的模型，就能够把一些质量好的优质视频内容呈现给C端客户，从而影响到点击率、留存等数据。第二部分在于基于QoE能够对视频关键帧进行筛选，针对视频封面的选择判定，找到其中比较优质的帧作为封面图，一定程度上能够提升视频展示的效果和用户的体验。第三部分在于电商能够基于多维度的素材进行选优，可以帮助判断图像是否是九宫格、马赛克，通过这样一个过程帮助客户过滤掉不是特别好的服装素材和电商素材。相似场景还有直播列表排序因子和头像点击率影响因子等等。

2.2场景：业务质量监测工具

第二个场景在于QoE可以作为业务质量的监测工具。电商客户为了节约成本，会对直播画质进行压缩。传统来说很难判断采用什么样的压缩比率和参数，来相对保证画质和成本的节约。但QoE可以采用质量评分对视频画质进行实时监控，避免过度压缩带来画质下降引起的体验下降。相似场景还有企业或者开发者选择RTC服务商时的评价工具。传统可能通过选择一些测试样例进行人工评比，但QoE能够更加系统性地去评判，结论也更有说服力，帮助企业更好地做出选择。

2.3场景：助力产品体验提升

第三个场景在于助力产品体验提升。音视频质量的评判不是产品的最终目标，而是改善音画视频产品体验。在原先的基础上，QoE能够有针对性地做出优化，不同质量的素材采取不同的质量提升方案，如分辨率较低的可利用超分算法提升画质，对于噪声较多的素材采用去噪算法减轻噪点。相似场景有在拍照APP中提醒用户当前场景存在过曝或者逆光，帮助用户调整灯光和角度等。

总结来说，QoE作为基础的评判工具，再结合针对性的优化策略，能够提升整体产品的画质和用户体验。

03、差异化能力

3.1挑战

第三部分是QoE的差异化能力。在落地的过程中遇到了大大小小的挑战，例如算力成本、素材多样性、业务场景多样性、Bad Case处理等等。首先算力成本是一个很大的压力，目前评判的产品或者工具都是基于深度学习做相应的模型。不管在深度学习的训练还是预测的过程，都非常依赖GPU的资源，尤其是针对于视频、音频、直播流的数据密集的场景。因此GPU的消耗是一个非常大的成本压力。

第二是素材多样性。其中UGC是一个比较棘手的问题，因为相对来说PGC是专业生产的，其普遍画质比较好，而UGC会出现各种各样的问题，因此对产品是一个很大的挑战。第三是业务场景多样性，不同的客户业务场景关注不同的业务核心指标，如何在产品中响应客户需求、满足客户在业务指标的提升也是面临的问题。最后产品在落地的实际业务过程中会出现各种Bad Case需要处理。

3.2产品能力

基于以上面临的挑战，产品功能和设计也做出了相应的思考和措施，形成了三维一体式的产品体系。在基础指标之上，质量指标、美学指标、行业特定指标是QoE覆盖的部分。这里的质量指标更偏客观维度进行评估，比如画面本身是否过曝、对比度和明亮度等等。目前行业内有三种方法进行：全参考质量评估、部分参考质量评估、无参考质量评估。它们区别在于全参考需要有原始素材和处理后的素材，在这个基础上能输出差异性和分值。全参考质量评估因为输入的数据源更多，所以评判难度相对低。但其也存在问题，在实际运用的过程中，其适用性比较差，很难获取原始的视频素材。部分参考质量评估不基于原始素材，而是基于原始素材的某些维度和特征进行评估，但也存在同样的问题，很难获取原始视频和特征。无参考质量评估使用时相对更简单，任意视频直接输出质量分值，因此对于业务束缚更低，无参考质量评估也是日后的重心。

第二个美学指标偏向于美观度和摄影角度，其中的维度包括景深、三分、颜色丰富度等。有了这样的评判标准后，能够评价和指导用户对视频的视觉感受。

最后一个层次是行业特定指标。除了以上两个指标，客户在实际业务过程中会关注和行业相关的特殊属性，比如电商行业的商品完整度和美观度、娱乐直播的主播颜值等等，因此基于行业属性的质量评判能力也是关注的对象。

以上大多是针对视频，对于音频也有相应的产品。在输出MOS总分的同时会给出四个细维度的评分，包括噪声量、音染度、连贯性和响度。

有了产品体系的设计，在实际研发中也努力进行实现和优化，大致体现在模型设计、inference优化、多数据集融合、多任务学习、业务数据finetune等方面。首先模型设计，如何让模型适用产品的需要。设计时关注的重点在effective and efficient，模型必须是有效且高效。第二部分是多数据集融合，通过不同来源的数据融合业务积累数据，进行Mixed Datasets Training。第三部分是inference优化，比如模型量化、基于TensorRT和ONNX的开放工具优化运算效能。第四部分是多任务学习，包含音视频整体评分和细维度评分的Multi-Task-Learning。第五部分是业务数据finetune，在落地的过程中，测试评估客户的实际业务数据，如果有必要的话也可以根据数据进行调优。

3.3模型设计

这张图展现了视频质量评估的模型网络架构图。同时借鉴了行业内和学术界的进展，首先要理清一个问题：质量的影响是哪些方面带来的？从失真类型来说，主要有两种，一种是空间的失真，指的是失真发生在某帧图像内的，如图像中存在一些噪声、压缩造成的模糊、对比度等问题。另一种失真是运动的失真，主要发生在帧与帧之间，例如运动的模糊、摄像头拍摄时的抖动等。

另外也需要借鉴人的视觉感知系统。temporal-memory effect时间迟滞效应，指的是人们对于质量差的视频容忍度更低，比如一个视频前面的内容画质都比较差，即使后面的内容变好了，人们先入为主的感官还是会认为视频质量比较差。

因此，在模型设计的过程中结合了以上三个部分做的设计。对于一个输入视频，首先对它按一定的时间段进行切分，由此切成了很多不同的部分。每个部分有两个不同的分支，一个分支是选择一个有代表性的关键帧，利用这一帧结合CNN模型提取内容的特征。基于ImageNet训练的CNN模型学习过非常多类别的数据，因此有一定的内容感知的能力，利用这样的模型学习内容的感知特征是很有效的。另外针对切片的时序，利用3D-CNN行为识别模型学习类似运动的特征。

有了以上两个特征之后，就可以进行特征的concat。这个concat的特征就是最终用于感知失真的表达特征，在后面的过程中也结合了GRU进行时序的学习。在网络的输出过程中，有一个相对的质量分，再利用两个pooling层进行质量权重的学习，最后经过Global Average Pooling，输出quality质量的分值。

这张图展示的是音频质量评估上的实践，也借鉴了学术界上的做法。有了音频的信号之后，获取梅尔语谱图，随后进行segment，这是一个有overlap的segment，等同于拥有了图像的输入，之后再在framewise层级上学习其特征。语谱图像没有那么多丰富的信息，因此在网络结构上不必涉及得很复杂，只需6个卷积和3个pooling层。

此外，语音也是一段时序的信息，也需要模型来学习其前后的信息，这里运用了双向的LSTM学习其时序的特征，最终通过1个pooling层能获取音频的MOS打分。

另外，多数据集融合训练的方式也很常用。深度学习模型以数据来驱动，尤其是图像分割、质量评估等任务，想要获取人工打标数据是相对比较困难的。在这个情况下，如果能够最大程度化利用已有数据，对模型学习是很有帮助的。首先在数据上，我们运用了一些业务上人工打标的数据再加上学术公开的数据来进行模型的混合数据的训练。这样的好处是可以从多个数据集中学习不同的content and motion distortion。

但多数据集融合存在inconformity问题，实际上数据集标签的range是不一致的，比如有些按照1-5打分、有些按照0-100打分。如果统一进行训练的话，是无法进行反向训练的。在这个情况下，我们借鉴了多数据集融合训练的方式，较关键的是借鉴了以下三个概念：relative quality、perceptual quality、subjective quality。relative quality指的是有两个视频的情况下，能够判别哪个好哪个坏。perceptual quality指的是人的视觉感知系统对画质主观的判断能力。subjective quality指的是在某一个具体的数据集上画质判断的能力。

右侧图的网络结构有三个部分，第一部分是有了多个数据集之后，基于之前视频画质基础网络，输出relative quality。再经过非线性映射，映射至perceptual quality。perceptual quality可以接alignment的层，再映射到subjective quality，由此和我们具体的数据集相关。也可以利用具体数据集的标签进行反向训练。有了这样的策略之后，再融合多数据集展开后续的训练。

另一块模型设计在于多任务学习。多任务学习的使用频率很高，例如人脸识别模型，融合了人脸检测、关键点、人脸特征等多任务学习。在我们的产品设计里面，多任务学习是非常有必要的，有多个方向维度评估，例如：质量及细维度评估、美观度及细维度评估、语音及细维度评估、行业属性多维度评估。因此，基于多任务学习，能够尽量简化模型。

此外，多任务学习自身任务与任务之间也可以相互促进学习和辅助训练，进一步提高了模型效果，也能进一步提升模型泛化的能力。下面两张图也展现了语音和美观度的多任务。

在先前基础之上，我们也做了相应的测试。这张图展现了ICME比赛不同队伍的指标，利用我们的模型对数据进行测试，得出了SROCC和KROCC指标超过第一名，PLCC和RMSE指标超过第二名的结论。从这个角度也能验证此模型的优化策略是有效的。

3.4产品商业化必备能力

总结来看，我们的模型具备了产品商业化的必备能力：算法领先、场景化功能全面、一站式整合、弹性服务。在算法方面，利用大规模的学术数据和自有专家标注样本训练深度网络，具有业内领先的质量评估算法模型。在场景化功能方面，能支持图片和视频的画质、美观度等质量评估，音频的质量评分，同时可精准输出多维度的客观质量指标，指导定位具体质量问题。

第三点可以做到一站式整合，无缝衔接七牛音视频产品，包括转码、超分等服务，覆盖从拉流端到播放端全链路。最后一点是弹性服务，基于docker+QApp的分布式AI部署平台，提供弹性服务，扩展性好。

04、未来规划

4.1商业化

最后阐述下产品的未来规划。商业化是一个持续的过程，需要从不同维度进行规划。首先功能配置化，需要与客户业务场景适配，让客户能根据自己的实际场景选择评估维度。第二点是客户业务指标，通过接入我们的产品，能提升客户的点击、转化、留存，获得正向反馈。第三点是行业伙伴落地，目前在社交互娱、内容平台、电商平台等行业已经有了应用案例，后续也会接入更多客户。最后一点是交付形式，目前支持公有云API调用和私有化软件部署需求。

4.2未来规划

在未来，视频质量评估的重要性会越来越显著，会有更多公司投入力量打造类似产品。同时未来会有更多场景例如元宇宙、AR、VR会对音画质量评估有潜在的需求。

具体规划主要有三个方面：保持技术的领先型、持续打磨产品、推动更广泛的商业化落地。首先保持技术的领先型，尤其是探索音频+视频融合的多模态评估技术，能够更直接地对客户提供综合结果。第二部分是持续打磨产品，保持产品的易用性，方便客户进一步接入的同时丰富并完善产品能力。最后是促进产品的商业化落地，与不同行业伙伴积极合作并且结合客户的场景进行调整并赋能。

以上就是本次的分享，谢谢！

▼识别二维码或猛戳下图订阅课程▼

扫描图中二维码了解大会更多信息

七牛云音画质量分析系统的行业前瞻

01、产品背景

02、商业化场景

03、差异化能力

04、未来规划

LiveVideoStack

引用和评论

AIGC时代下阿里云视频云媒体内容生产技术实践

探索ChatGPT背后的前端黑科技

三分钟掌握视频剪辑 | 在 Rust 中优雅地集成 FFmpeg

2025版 RTC、直播、点播技术对比｜腾讯云/即构/声网如何选型

三分钟掌握音视频处理 | 在 Rust 中优雅地集成 FFmpeg

三分钟掌握视频分辨率修改 | 在 Rust 中优雅地使用 FFmpeg

三分钟掌握音视频信息查询 | 在 Rust 中优雅地集成 FFmpeg