One-Shot Video Object Segmentation论文笔记

摘要

本文处理了半监督视频物体分割的问题，如给出第一帧的掩码，在视频中将这个物体从背景中分开。我们展示了OSVOS，一个基于全卷积神经网络的结构。这个结构在ImageNet进行预学习，对前景进行语义分割，最终利用一张标注的图片来实现整个视频序列中该物体的分割。所有帧都是独立处理的，但是结果显示连贯稳定。我们在两个有标注的视频分割数据集中进行实验，结果显示OSVOS是fast and improves the state of the art。

1. 简介

深度网络需要大量的训练数据，这也是一个数据集方面的短板。本文研究对整个视频进行分割，而且只需要一个已标注的训练实例，如第一帧。
本文的贡献：

使CNN适应于给出特定物体的一个标注图片的场景。我们采用了一个在图像识别上进行预训练的CNN来进行视频物体分割。然后在一系列视频数据集上训练。最后在测试阶段进行微调。下图是该方法的overview。
OSVOS独立处理每一帧。也就是将视频分割转换成图像分割。动作以讹传讹的效果也很好，但是涉及到光流等研究领域，会产生更难的问题。对于时间稳定性的问题，本文中的深度学习方法提供了足够准确的模型可以产生稳定的结果，即使独立的处理每张图片。这样做有一些优点，可以不按顺序来处理视频序列。在实际使用中，可以用来检测监控场景，镜头可以发生突变。
OSVOS在速度和准确率上做了权衡。在实验中，每帧处理181ms得到71.5%的准确率，而每帧处理7.85s时可以达到79.5%的准确率。其次，如果当前分割效果不够好，用户可以标注更多的帧来feed OSVOS以取得更好的效果。实验显示如果序列中有两帧标注图片，准确率可达到84.6%，四张86.9%。
本文采用FCN。在两个数据集上进行了测试（DAVIS和Youtube-Objects）。处理DAVIS（480X854像素）一帧需要102ms。准确率上面已经提到了。

2. 相关工作

3. One-Shot Deep Learning

如果要在一张图片中检测一个具体的物体，对于人来说，少量的信息也是足够的，即使在外形、形状、场景发生改变，也不难分辨。因为我们有很强的先验，首先，这是一个物体，然后这是一个特定的物体。本文的方法就是基于这个思想。
本文训练FCN来进行前景和背景的分割。首先在大量数据进行训练，区别出一个前景物体和其它，在测试阶段，用少量数据迭代调整网络来分割出我们要检测出的物体。

3.1 端到端可训练前景网路FCN

基于VGG网络，在准确定位分割预测上做了修改。在微调部分将用于分类的全连接层移除，使用了image-to-image inference。VGG的网络结构中5个stages 包含了一组ReLU层。在stage之间，池操作缩小了feature maps的规模。
基于二分类的cross-entropy loss定义如下：

其中，Y_是negative labeled像素，Y+是positive labeled像素。这样调整是为了解决两个分类的不均衡性。

3.2 训练细节

离线训练：本文结果的基础CNN是在ImageNet上预训练的。如果不进一步训练，这个网络是不能直接用来做分割的。我们把这个网络称为“base network”。我们进一步在DAVIS上训练，学习如何将物体从背景中分割出来，包括他们常用的形态。然后用随机梯度下降设置momentum 0.9做了50000次迭代。通过反射和放大来处理数据。学习率设置为10^-8，逐渐减小。在离线训练后，网络学习如何分割前景和背景。我们将这个网络称为“parent network”。
在线训练/测试：下面给定第一帧的分割，在视频中分割出该特定物体。我们通过进一步训练特定物体的image/ground truth对来训练parent network。然后使用新的权重对图像序列测试。时间上主要两个，一个是fine-tuning时间，一个是分割所有帧的时间。之前我们在质量和时间上有做trade-off，学习图像对的次数越多，得到的结果越好。

3.3 获取轮廓

对于分类来说，一张图片中只要出现该物体，不管物体的位置，结果都是一样的。但是本文需要精准定位，于是需要获取物体的轮廓。本文提出的方法是学习轮廓，提出了一个CNN用于训练检测物体轮廓。下图中，（1）是主要的前景提取网络，（2）用来检测图像中的所有轮廓。我们在两个分支中使用相同的结构，但是训练时的loss不同。由于提取轮廓需要很高的recall，因此在Pascal-context数据集上训练。最后，用UCM（Ultra metric Contour map）计算超像素的轮廓，设置较低的阈值。然后得到前景的掩码，之后通过大多数投票（与前景掩码的重合度超过50%）来确定最后前景的分割。

4. 实验验证

数据集是DAVIS。J是区域重合判断标准，F是轮廓重合判断标准，T是时间稳定性。-BS是没有获取边界，-PN是没有在父网络上预训练，-OS是没有学习第一帧。