1

摘要

本文处理了半监督视频物体分割的问题,如给出第一帧的掩码,在视频中将这个物体从背景中分开。我们展示了OSVOS,一个基于全卷积神经网络的结构。这个结构在ImageNet进行预学习,对前景进行语义分割,最终利用一张标注的图片来实现整个视频序列中该物体的分割。所有帧都是独立处理的,但是结果显示连贯稳定。我们在两个有标注的视频分割数据集中进行实验,结果显示OSVOS是fast and improves the state of the art。

1. 简介

深度网络需要大量的训练数据,这也是一个数据集方面的短板。本文研究对整个视频进行分割,而且只需要一个已标注的训练实例,如第一帧。
本文的贡献:

  • 使CNN适应于给出特定物体的一个标注图片的场景。我们采用了一个在图像识别上进行预训练的CNN来进行视频物体分割。然后在一系列视频数据集上训练。最后在测试阶段进行微调。下图是该方法的overview。
    clipboard.png

  • OSVOS独立处理每一帧。也就是将视频分割转换成图像分割。动作以讹传讹的效果也很好,但是涉及到光流等研究领域,会产生更难的问题。对于时间稳定性的问题,本文中的深度学习方法提供了足够准确的模型可以产生稳定的结果,即使独立的处理每张图片。这样做有一些优点,可以不按顺序来处理视频序列。在实际使用中,可以用来检测监控场景,镜头可以发生突变。

  • OSVOS在速度和准确率上做了权衡。在实验中,每帧处理181ms得到71.5%的准确率,而每帧处理7.85s时可以达到79.5%的准确率。其次,如果当前分割效果不够好,用户可以标注更多的帧来feed OSVOS以取得更好的效果。实验显示如果序列中有两帧标注图片,准确率可达到84.6%,四张86.9%。
    本文采用FCN。在两个数据集上进行了测试(DAVIS和Youtube-Objects)。处理DAVIS(480X854像素)一帧需要102ms。准确率上面已经提到了。

2. 相关工作

3. One-Shot Deep Learning

如果要在一张图片中检测一个具体的物体,对于人来说,少量的信息也是足够的,即使在外形、形状、场景发生改变,也不难分辨。因为我们有很强的先验,首先,这是一个物体,然后这是一个特定的物体。本文的方法就是基于这个思想。
本文训练FCN来进行前景和背景的分割。首先在大量数据进行训练,区别出一个前景物体和其它,在测试阶段,用少量数据迭代调整网络来分割出我们要检测出的物体。

3.1 端到端可训练前景网路FCN

基于VGG网络,在准确定位分割预测上做了修改。在微调部分将用于分类的全连接层移除,使用了image-to-image inference。VGG的网络结构中5个stages 包含了一组ReLU层。在stage之间,池操作缩小了feature maps的规模。
基于二分类的cross-entropy loss定义如下:
clipboard.png
其中clipboard.png,Y_是negative labeled像素,Y+是positive labeled像素。这样调整是为了解决两个分类的不均衡性。

3.2 训练细节

离线训练:本文结果的基础CNN是在ImageNet上预训练的。如果不进一步训练,这个网络是不能直接用来做分割的。我们把这个网络称为“base network”。我们进一步在DAVIS上训练,学习如何将物体从背景中分割出来,包括他们常用的形态。然后用随机梯度下降设置momentum 0.9做了50000次迭代。通过反射和放大来处理数据。学习率设置为10^-8,逐渐减小。在离线训练后,网络学习如何分割前景和背景。我们将这个网络称为“parent network”。
在线训练/测试:下面给定第一帧的分割,在视频中分割出该特定物体。我们通过进一步训练特定物体的image/ground truth对来训练parent network。然后使用新的权重对图像序列测试。时间上主要两个,一个是fine-tuning时间,一个是分割所有帧的时间。之前我们在质量和时间上有做trade-off,学习图像对的次数越多,得到的结果越好。

3.3 获取轮廓

对于分类来说,一张图片中只要出现该物体,不管物体的位置,结果都是一样的。但是本文需要精准定位,于是需要获取物体的轮廓。本文提出的方法是学习轮廓,提出了一个CNN用于训练检测物体轮廓。下图中,(1)是主要的前景提取网络,(2)用来检测图像中的所有轮廓。我们在两个分支中使用相同的结构,但是训练时的loss不同。由于提取轮廓需要很高的recall,因此在Pascal-context数据集上训练。最后,用UCM(Ultra metric Contour map)计算超像素的轮廓,设置较低的阈值。然后得到前景的掩码,之后通过大多数投票(与前景掩码的重合度超过50%)来确定最后前景的分割。
clipboard.png

4. 实验验证

clipboard.png
数据集是DAVIS。J是区域重合判断标准,F是轮廓重合判断标准,T是时间稳定性。-BS是没有获取边界,-PN是没有在父网络上预训练,-OS是没有学习第一帧。


wenny
11 声望3 粉丝

keep calm and carry on


引用和评论

0 条评论