近年来,视频行业持续高速成长,带动数字经济新发展。在视频用户规模持续扩大的同时,产业对于海量多样视频内容的智能化生产及应用的需求也愈发明显。如何对海量视频数据内容进行分析?如何迅速给视频作品打上标签以便于智能推荐?如何筛选最优片段作为视频封面提升内容吸引力?……传统的处理方式需要耗费巨大的人力,智能视频内容分析和生产越来越受到业界的重视。

如何实现视频内容智能化分析及生产,目前还存在一些技术挑战:

1、信息多维理解:视频的标题、字幕、画面、语音等信息中蕴含了丰富的视频信息,如何利用多维信息,提升模型高层次语义理解能力仍有很大难度。

2、计算资源消耗:视频模型的训练需要消耗大量的计算资源。在实际业务中,如何降低成百上千万的untrimed视频,视频分类模型训练所需的机器成本和时间成本是关键。

3、智能筛选生成:如何利用视频帧的质量、精彩程度、内容相关度提取最优帧和最优化面。

接下来,将为大家介绍PaddleVideo开源的知识增强视频多模态&大规模分类打标签方案和视频智能封面生产方案。

 视频分类打标签方案(多模态&大规模)

多模态视频分类标签模型MultimodalVideoTag

MultimodalVideoTag基于真实短视频业务数据,融合视频文本、图像、音频三种模态进行视频多模标签分类。模型提供一级标签25个,二级标签200+个,标签准确率超过85%。相比仅使用视频图像特征,可显著提升高层语义标签提取准确率。MultimodalVideoTag原理示意如下图1.1所示。

图1.1多模态视频分类标签框架

模型使用三个分支抽取各个模态特征,再进行多模态特征融合,最后进行多标签分类。

  • 文本分支:使用基于融入实体信息的强大预训练ERNIE,提升文本表征能力,固定住ERNIE 的参数,后置TextCNN 网络学习领域内知识,加速模型训练;
  • 图像分支:使用预训练的 ResNext 对图像抽取高层语义特征,同时使用Bi-LSTM 得到序列信息;
  • 音频分支:使用预训练的VGGish网络抽取音频特征,通过Bi-LSTM 获得时序信息;
  • 多模融合:结合文本与图像的cross attention、文本与音频的cross attention、多模态late fusion处理,提升不同模态的交互能力。使用高语义的文本信息影响图像、音频时间序列的注意力选择,对视频内容杂乱的情况下有较好抵御噪声能力,效果显著优于多模态特征直接拼接的效果。详细结果见表1.2,融入文本特征显著提升模型效果,加入textcnn 后置网络提升领域迁移能力,使用cross attention 进一步提升模型效果。

表1.2多模态融合实验结果

多模态视频分类标签模型MultimodalVideoTag的功能是给视频打多个描述视频内容的标签,可用于内容圈选、招稿以及投放等多个推荐系统场景。效果展示如图1.3。

图1.3多模态视频分类标签 MultimodalVideoTag效果展示

大规模视频分类模型VideoTag

VideoTag基于百度短视频业务千万级数据,支持3000个源于产业实践的实用标签,具有良好的泛化能力,非常适用于国内大规模(千万/亿/十亿级别)短视频分类场景的应用,标签准确率达到89%。

VideoTag采用两阶段建模方式,即图像建模和序列学习。第一阶段,使用少量视频样本(十万级别)训练大规模视频特征提取模型(Extractor);第二阶段,使用千万级数据训练预测器(Predictor),最终实现在超大规模(千万/亿/十亿级别)短视频上产业应用,其原理示意如图1.4所示,VideoTag效果展示如图1.5。

图1.4VideoTag原理图

图1.5 VideoTag效果展示

VideoTag视频处理流程如下:

  1. 数据处理:视频是按特定顺序排列的一组图像的集合,这些图像也称为帧。视频分类任务需要先对短视频进行解码,然后再将输出的图像帧序列灌入到VideoTag中进行训练和预测。
  2. 图像建模:先从训练数据中,对每个类别均匀采样少量样本数据,构成十万量级的训练视频。然后使用TSN网络进行训练,提取所有视频帧的TSN模型分类层前一层的特征数据。在这个过程中,每一帧都被转化成相应的特征向量,一段视频被转化成一个特征序列。
  3. 序列学习:采用Attention clusters、LSTM和Nextvlad对特征序列进行建模,学习各个特征之间的组合方式,进一步提高模型准确率。由于序列学习相比于图像建模耗时更短,因此可以融合多个具有互补性的序列模型。示例代码仅使用Attention_LSTM网络进行序列特征预测。
  4. 预测结果:融合多个模型结果实现视频分类,进一步提高分类准确率。

 视频智能封面生成方案 

视频智能封面是通过对视频内容的理解,智能分析视频帧的质量、精彩程度、内容相关度,提取最优帧或最优片段作为视频封面,提升内容吸引力。

飞桨开源了视频智能封面AI算法。视频智能封面应用处理流程如图2.1所示,通过基于PP-TSM的视频质量分析模型,对视频镜头打分。通过人脸美观度、图像实体标签,获取视频内容信息。综合上述视频质量和内容信息进行加权打分后处理,并引入聚类操作滤除重复样本,获取最终视频图像或片段粒度的视频智能封面。

图2.1 视频封面图处理流程

针对视频质量分析环节,我们开源了基于PP-TSM的视频质量分析模型。

该模型的效果与性能明显优于基于均值和方差的GSTVQA模型,如表2.2所示。

表2.2基于PP-TSM的视频质量分析模型与GSTVQA对比

心动不如行动,大家可以直接前往GitHub地址获得完整开源项目代码,记得Star收藏支持一下哦!https://github.com/PaddlePadd...

相关商业解决方案地址如下,欢迎试用:https://cloud.baidu.com/solut...

 精彩课程预告 

1月17日~21日每晚20:15~21:30,飞桨联合百度智能云、百度研究院数十位高级工程师为大家带来直播分享,剖析行业痛点问题,深入解读产业级智能视频技术方案及体育、互联网、医疗、媒体等行业应用案例,并带来手把手项目实战。扫码或点击"阅读原文"进行报名,我们直播间不见不散~ 

扫码报名直播课,加入技术交流群

更多相关内容,请参阅以下内容:

官网地址:https://www.paddlepaddle.org.cn\
项目地址:
GitHub: https://github.com/PaddlePadd...


飞桨PaddlePaddle
30 声望34 粉丝

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体,是中国首个自主研发、功能丰富、开源开放的产业级深度...