全面认识视频分割：一篇文章就够了（上）

视频分割是依据特定特征（如对象边缘、运动、色彩、纹理等视觉特征）将视频内容划分为多个区域的过程。

其核心目标是识别视频中的不同对象，并将它们与背景及其他时间事件区分开来，进而提供更为详细、结构化的视觉内容。

现阶段，这项技术在计算机视觉领域扮演着重要角色——它能够识别和描述视频中的各个对象和事件，并对视频内容进行组织和分类。

本文中将介绍视频分割的各种方法和技术，探讨这项任务的应用和挑战，具体来说，包括：

什么是视频分割？
VOS 和 VSS 方法和模型
视频分割的挑战和局限性
视频分割应用

什么是视频分割？

视频分割是分析和理解视频内容的基础步骤，它能够从视频中提取出有意义的信息和特征。

视频分割可以将视频划分为单独的片段或镜头，这些片段通常由场景变化、摄像机角度变化或其他视觉特征变化来定义。

随后，可以根据这些片段的内容、持续时间和其他属性进行分析和描述，为视频的进一步分析和理解奠定基础。

视频分割可以在不同的粒度级别上执行，从单个对象或事件在镜头内的分割到整个镜头或场景的分割。

它还可以在视频处理流程的不同阶段执行，从原始视频数据到提取特征或标注的阶段都可完成。

具体而言，为视频分割而开发的各种方法和技术大致可分为两类：

*1. 视频对象分割（VOS）*

2. 视频语义分割（VSS）**

视频对象分割和视频语义分割是计算机视觉中的两个重要任务，旨在深入理解视频内容。

VOS 和 VSS 方法和模型

· 视频对象分割专注于跟踪视频中的特定对象，并在监控、自动驾驶汽车等应用中发挥重要作用。

· 视频语义分割则侧重于理解整个场景及其内容，在增强现实、视频摘要等应用中具有广泛用途。

这些任务采用不同的方法和评估指标，并应用于不同的场景，接下来我们将进行详细探讨。

1、视频对象分割（VOS）

视频对象分割是分割和跟踪视频中特定对象的任务。这通常通过对象初始化（在视频的第一帧中识别对象）来完成，然后在视频的其余部分跟踪其运动。

目标是将对象从背景中分离出来，并跟踪其运动的变化。此任务在视频监控、机器人和自动驾驶汽车等应用中非常有用。

对象初始化有多种方法，包括：

· 手动标注——最准确，但也最耗时

· 自动标注——准确度最低但速度最快

· 半自动标注——在准确性和速度之间取得平衡

一旦对象被初始化，就必须在视频的其余部分对其进行跟踪。

对象跟踪有多种方法，包括传统的对象跟踪算法，例如卡尔曼滤波器和粒子滤波器，以及较新的基于深度学习的方法。

这些基于深度学习的方法通常会结合卷积神经网络（CNN）和循环神经网络（RNN）来分割和跟踪对象。

视频对象分割方法的评估通常使用诸如交并比（IoU）和多对象跟踪准确度（MOTA）等指标来完成。

IoU测量预测对象掩码和地面真实掩码之间的重叠，而MOTA测量对象跟踪算法的整体准确性。

1）无监督VOS

无监督视频对象分割（VOS），顾名思义，旨在不依赖任何标记数据来分割视频中的对象。无监督VOS要求模型学会识别视频中对象的外观和运动，并将它们与背景区分开来。

当前较流行的无监督VOS方法是基于光流技术，这是一种估算视频连续帧之间像素运动的技术。光流可以用来跟踪视频中物体的运动，并将其与背景区分开来。

这种方法的一个例子是聚焦前景网络（F2Net）。它利用中心点信息来聚焦前景物体。与常见的基于外观匹配的方法不同，F2Net还建立了一个“中心预测分支”来估计主要物体的中心位置。

然后，将预测的中心点编码到高斯图中作为空间引导，然后在我们的中心引导外观扩散模块中增强帧内和帧间特征匹配，从而使模型聚焦于前景物体。

经过外观匹配过程后，F2Net会获得三种信息流：帧间特征、帧内特征和当前帧的原始语义特征。

F2Net不会像以前的方法那样通过简单的连接来融合这三种特征，而是使用基于注意力机制的动态信息融合模块来自动选择最具判别力的特征，从而获得更好的分割性能。

2）半监督VOS

半监督VOS方法使用少量标注数据来指导分割过程，并使用无监督方法来细化分割结果。

这种方法利用了监督方法和无监督方法的优势，以实现更高的效率和准确性。半监督视频对象分割的一个主要优势是它所需的标注数据比监督方法少。

这在获取标注数据困难或成本高昂的情况下尤其有用。此外，半监督视频对象分割中使用的无监督方法可以帮助提高分割结果的稳健性和泛化能力，因为它们可以考虑标记数据中可能不存在的其他上下文和信息。

例如，2021年提出的“稀疏时空变换器（SST）”模型使用半监督学习来完成VOS任务。SST在一个高效的基于注意力机制的网络的单次前馈过程中处理视频。在这个网络的每一层，每个时空特征向量都会同时与视频中的所有其他特征向量进行交互。

此外，SST可以避免了循环方法固有的复合误差问题。SST使用稀疏注意算子变体来解决计算复杂性问题，从而可以将自注意力应用于高分辨率视频。

3）交互式VOS

交互式视频对象分割（VOS）是一种技术，它允许用户在实时分割和跟踪视频中的对象时提供交互输入。这种交互性意味着用户可以在视频的第一帧中指定对象的初始位置，或者在对象周围绘制一个边界框。随后，这些用户输入将指导算法在视频的后续帧中继续分割和跟踪指定的对象。

交互式VOS的一个主要优势在于，它能够显著提升对象分割与跟踪的精确度和可靠性，特别是在对象部分被遮挡或者与视频中其他对象外观相似的情况下。此外，这项技术还能够通过提供额外的标注数据来训练更精准的对象检测模型。

如果用户在推荐的帧上进行涂鸦，即在这些帧上进行标记，那么所使用的框架会借助现有的交互式视频对象分割（VOS）算法来优化和细化分割蒙版。

在没有真实标注信息的情况下，学习到的代理模型能够推荐哪些帧需要进行注释。作者在两个不同的数据集上得到的定性结果如下所示。

4）语言引导VOS

语言引导的视频对象分割（VOS）通过自然语言输入来指导视频中对象的分割与跟踪。

这项技术通常结合了机器学习算法（例如卷积神经网络CNN和循环神经网络RNN）以及自然语言处理（NLP）技术，以理解用户的输入。

使用自然语言输入的一个主要优势是它提供了一种更灵活、更直观的与算法交互的方式。例如，用户不必手动指定视频中物体的初始位置，而只需提供物体的口头描述，如“红色汽车”或“穿蓝色衬衫的人”。这种方法在物体难以定位或与其他物体外观相似时特别有用。

为了实现这一功能，算法首先使用NLP技术处理用户的输入，并提取出需要分割和跟踪的对象的相关信息。然后，这些信息被用来指导分割和跟踪过程，比如利用对象的颜色或形状作为线索。

其中一个例子是多模态跟踪变换器（MTTR）模型，它的目标是在视频帧中分割出文本中提及的对象实例。

为此，MTTR模型使用基于Transformer的标准文本编码器从文本查询中提取语言特征，并使用时空编码器从视频帧中提取视觉特征。接着，这些特征被送入多模态变换器，该变换器输出多个对象预测序列。

最后，为了确定哪个预测序列最符合所指对象，MTTR会为每个序列计算一个文本参考分数，并开发了一个时间片段投票方案。这使得模型在做出决策时能够更加专注于视频中的相关部分。

2、视频语义分割 (VSS) 方法和模型

视频语义分割（VSS）不仅能够将视频中的对象分割开来，还可以理解这些对象的含义和上下文。

例如，一个视频语义分割模型能够识别出视频中的人物在人行道上行走、车辆在路上行驶，以及识别出某栋建筑为摩天大楼。

视频语义分割的目标是全面理解场景及其内容，而不仅仅是追踪特定的对象。视频语义分割在场景理解、增强现实和视频摘要等多个应用领域都非常重要。

视频语义分割的过程通常始于利用卷积神经网络（CNN）从视频帧中提取特征。CNN能够学习图像数据的层次化表示，使它们能够在多个抽象层次上理解图像内容。

特征提取完成后，这些特征会被用于对视频中的每个像素进行分类。这一步骤通常通过全卷积网络（FCN）来实现，FCN是专为密集预测任务设计的CNN类型。

FCN能够接收输入图像并产生密集的输出，其中输出中的每个像素都对应于一个类别标签，比如“行人”或“背景”。

视频语义分割方法的性能评估通常采用平均交并比（mIoU）和像素准确度（PA）等指标。

mIoU衡量的是预测对象蒙版与真实蒙版之间的平均重叠程度，而PA则衡量对象分割算法的整体准确度。

通过这些指标，研究人员可以评估和比较不同视频语义分割方法的效果。

1）（实例无关）视频语义分割

实例无关的视频语义分割（VSS）是指在视频内容的分割过程中，不区分同一类别中不同对象的具体实例，只对对象的类别进行识别和分割。

这种方法关注的是识别和分类视频中的各个对象，而不是追踪和区分每个对象的个体实例。换句话说，实例无关的VSS更注重于“什么”（即对象的类别），而不是“哪个”（即对象的具体实例）。

这与实例感知的语义分割不同，后者会追踪并分割视频中每个对象的独立实例，这样做可以减少计算量。

时间分布式网络（TDNet）是一个受组卷积启发的视频实例分割架构的例子，它展示了通过使用分离的过滤器组来提取特征，不仅可以实现模型的并行处理，还有助于学习更优的特征表示。

对于一个深度图像分割网络，TDNet将深度模型提取的特征分为N组（例如，N可以是2或4），并利用N个不同的浅层子网络来近似每组特征通道。

通过要求每个子网络独立覆盖特定的特征子空间，然后将这些子网络的输出重新组合，以产生强大的特征表示。为了实现平衡且高效的计算，N个子网络共享相同的浅层架构，这个架构的大小被设置为原始深度模型的1/N，以保持相似的总模型容量。

该架构结合了分组知识蒸馏损失，以加速视频语义分割模型的训练。

2）视频实例分割

视频实例分割技术能够识别并分割视频中对象的独立个体。这与实例无关的语义分割方法不同，后者只识别和分割视频中的对象，而不区分具体的个体实例。

视频实例分割Transformer（VisTR）是一个专为实例分割而设计的框架，它将实例分割任务视作一个并行序列解码/预测问题。给定一段由多个图像帧组成的视频片段作为输入，VisTR能够直接输出视频中每个实例的掩码序列。

具体来说，首先，一个标准的CNN模块会提取单个图像帧的特征。然后，这些多个图像特征会按照帧的顺序连接起来，形成一个片段级的特征序列。接着，Transformer接收这个片段级特征序列作为输入，并按顺序输出一系列对象预测。

这些预测的顺序遵循输入图像的顺序，每个图像的预测也遵循相同的实例顺序。因此，在同一个实例分割框架中，实例跟踪能够自然而无缝地实现。

3）视频全景分割

视频全景分割(VPS) 只需一步即可识别和分割视频序列中的对象及其部分，它能够在单一步骤中识别并分割视频序列中的对象及其各个部分。这种方法融合了实例无关的语义分割和视频实例分割的优点。

VPS能够区分视频中的物体、物体的各个部分以及背景，从而提供对场景更深入的理解。此外，VPS还能够区分和分割视频中同一物体的多个实例，即便这些实例发生了重叠。不过，这一技术需要较高的计算资源。它在视频监控、自动驾驶汽车和无人机等领域具有重要的应用价值。

ViP-DeepLab模型是这种框架的一个实例，它执行深度感知视频全景分割（DVPS），作为解决逆投影问题——即从视网膜图像到视网膜刺激源的模糊映射——的一个步骤。

研究人员发现，视频全景分割可以被建模为串联图像全景分割的问题。基于这一发现，他们扩展了Panoptic-DeepLab模型，仅对第一帧中出现的对象中心在连续两帧中执行中心回归。在推理过程中，这种偏移预测使得ViP-DeepLab能够将两帧中的所有像素归组到第一帧中出现的同一对象。如果新实例没有与之前检测到的实例归为一组，则被视为新实例。

视频分割的挑战与局限性

视频分割虽然拥有许多优势和广泛的应用场景，但也面临着一些挑战和局限性。以下是视频分割面临的主要挑战和局限性：

1）视频内容和质量的变化：视频分割需要应对光照、分辨率、帧速率等可能影响视频外观和特性的因素的变化。为了处理这些变化，已经开发出多种方法，包括多尺度特征提取、基于深度学习的方法和领域自适应技术。对于光照和视点变化的处理，可以采用颜色直方图或纹理特征。

2）缺乏时间一致性：视频由一系列帧组成，场景内容在每一帧之间可能发生显著变化，这使得保持跨帧分割的一致性变得困难。为了处理时间一致性问题，可以采用循环神经网络（RNN）、光流或运动特征。

3）遮挡问题：当一个物体遮挡另一个物体时，会导致跟踪困难。处理遮挡的方法包括使用多个摄像头或传感器、深度传感器和物体重新检测。

4）视觉场景的复杂性：视频中的视觉场景可能非常复杂，包括多个物体和事件的存在，以及遮挡、反射和其他视觉干扰，这些都增加了识别和分割视频内容的难度。

5）缺乏训练数据：视频分割的监督学习方法需要有标记的训练数据，这对于许多视频数据集来说可能难以获得，限制了这些方法的有效性和通用性。

6）计算复杂性：视频分割可能需要大量的计算资源，尤其是对于大型或高分辨率视频数据集，这对实时或在线视频分割以及将分割过程扩展到大量视频集合提出了挑战。

7）评估和基准测试：由于缺乏标准化的基准测试和评估指标，评估视频分割方法的性能可能很困难，这使得比较和评估不同的方法或确定给定视频数据集的最佳方法变得具有挑战性。

视频分割的应用

视频分割的应用非常广泛，涉及多个行业：

1）视频编辑：视频分割技术可以自动识别视频中的特定场景或动作，帮助视频编辑人员快速剪辑和合成视频，提高工作效率。在电影制作中，可以用来替换背景或进行特效制作。

2）监控：视频分割可以用于视频监控系统中，自动识别和跟踪视频中的人物或车辆，用于安全监控和异常行为检测。在交通监控中，可以用来分析交通流量、检测事故或违规行为。

3）体育分析：在体育赛事中，视频分割技术可以用于追踪运动员和球类，分析运动员的表现和比赛策略。通过分析运动员的动作，教练可以制定训练计划，提高运动员的表现。

4）VR：视频分割可以将现实世界中的场景与虚拟元素结合，为用户创造沉浸式的增强现实体验。在VR中，视频分割可以帮助创建更加真实的虚拟环境。

5）社交媒体：视频分割技术可以用于社交媒体平台，让用户在视频中添加特效、更换背景或进行其他创意编辑。在直播中，可以用来实时替换主播背景，增加节目的趣味性。

6）自动驾驶汽车：在自动驾驶技术中，视频分割用于识别和分割道路、车辆、行人等，帮助车辆理解周围环境，做出驾驶决策。

7）医疗影像分析：视频分割技术可以用于分析医疗影像，如MRI或CT扫描，以识别和分割病变区域，辅助医生进行诊断。

8）无人机应用：无人机搭载的视频分割技术可以用于地形测绘、农业监测和搜索救援任务，通过分析视频内容来识别特定目标或地形特征。

9）教育和培训：在教育领域，视频分割可以用来创建互动式学习材料，如模拟实验或虚拟场景，增强学习体验。

10）内容审核：在内容审核中，视频分割技术可以帮助自动识别和过滤不适宜的内容，如暴力、色情等，保护用户免受不当内容的影响。

未完待续......

全面认识视频分割：一篇文章就够了（上）

什么是视频分割？

VOS 和 VSS 方法和模型

视频分割的挑战与局限性

视频分割的应用

曼孚科技

引用和评论

百度推出新搜索文小言引领搜、创、聊场景变革

Light·技术公益创造营，开营了！

1079支队伍齐聚、聚焦三大社会议题，第四届Light技术公益创造营圆满收官

数据集汇总｜18个电影/音乐数据集汇总，覆盖影片/歌曲推荐、电影评价、歌词识别、音乐流派······

详解Diffusion扩散模型：理论、架构与实现

Looktech 发布 AI 智能眼镜：旋钮交互引领创新，智能体小程序开启无限可能

RAG+Agent人工智能平台：RAGflow实现GraphRA知识库问答，打造极致多模态问答与AI编排流体验

全面认识视频分割：一篇文章就够了（上）

什么是视频分割？

VOS 和 VSS 方法和模型

视频分割的挑战与局限性

视频分割的应用

曼孚科技

引用和评论

百度推出新搜索文小言 引领搜、创、聊场景变革

Light·技术公益创造营，开营了！

1079支队伍齐聚、聚焦三大社会议题，第四届Light技术公益创造营圆满收官

数据集汇总｜18个电影/音乐数据集汇总，覆盖影片/歌曲推荐、电影评价、歌词识别、音乐流派······

详解Diffusion扩散模型：理论、架构与实现

Looktech 发布 AI 智能眼镜：旋钮交互引领创新，智能体小程序开启无限可能

RAG+Agent人工智能平台：RAGflow实现GraphRA知识库问答，打造极致多模态问答与AI编排流体验

百度推出新搜索文小言引领搜、创、聊场景变革