RNN

clipboard.png

前向传播与后向传播与神经网络类似。Loss = -yt*log(yt’)。其中yt表示时刻t正确的结果,yt’是预测的结果。
RNN的弊端:当时间间隔变大时,早些时间的信息难以被学习。直观原因:RNN的激活函数tanh可以映射到-1到1之间,利用梯度下降调优时用链式法则,很多个小于1的数值相乘会很快逼近0。

LSTM

LSTM是对S节点做了新的处理。不限制输入和输出的大小。

clipboard.png

第一步是忘记门,输入是ht-1和xt,将上一时刻的输出h(t-1)和这一时刻的输入进x(t)行拼接(concat),然后判断以多大的程度来保留这部分信息(得到概率值)。Sigmoid函数。
第二步是更新准备。Sigmoid层决定什么层需要更新,i(t)等式表达的是我们以多大概率来更新信息。Tanh层创建了新的候选值向量Ct,表示现在全部的信息。
第三步是更新状态。 首先把旧状态与f(t)相乘,就丢弃掉我们确定需要丢弃的信息,然后加号的右部,以确定要更新的信息,通过相加操作得到新的细胞状态Ct。
第四步是输出。首先sigmoid函数确定哪个部分输出,然后用tanh处理细胞状态(一个-1到1之间的值),然后与Ot相乘,输出我们确定输出的部分。
解决问题的直观理解:
S(t)= tanh(x(t)U + WS(t-1))是RNN在t时刻的状态值。之后已说过问题。
clipboard.png是LSTM的状态值,相加,不容易出现接近0的情况。

STFCN(论文)

摘要

本文提出了一种同时包含时间和空间特征的对街道场景进行语义分割的方法。目前的CNN对语义分割任务中的空间特征提供了良好的支持。如何将时间特征也能发挥好的效应?我们提出了一个基于LSTM结构的模型来说明视频图像的时间特征。系统输入是视频的帧,输出相应大小的图像。对于分割任务,本文的模型包括三个部分,首先用CNN提取局部空间特征,然后用LSTM提取时间特征,最后卷积时间空间特征得到基于像素的预期。亮点是建立空间-时间CNN,可以端到端的对视频进行分割。实验数据集是Camvid和NYUDv2,取得了state-of-the-art的分割结果。

简介

在很多处理视频流的应用中,语义分割只是作为预处理的任务。所以,语义分割的结果直接影响到后续的处理结果。
语义分割方法使用图像数据中被选位置和语义环境。一系列像素通常被预测为一类或者是一个分割。如果只使用空间特征,相当于视频中的每张图片都是相互独立的,这样不能充分利用图像中的所有信息。如果加上时间特征,就可以分辨出不同种类的两个物体,拥有相同空间特征的,但不同的时间特征维度。我们提出嵌入在空间特征上面的组件。这个组件也可以看作是一系列的记忆单元,这些单元存储了之前的帧分配的区域。这就说明之前的regions可以用来判断当前的特征。我们用时间-空间输出特征来处理当前的视频流。
与其它分割方法一样,我们使用了一些全卷积层来进行区域的语义分割。这些全卷积层用于时间-空间分类。最后用反卷积层将得到的预测扩大到原始的栅格大小来完成像素预测。
基于CNN的方法通常包括两部分,一个事描述视频流中不同区域的类作为特征,一个是对标注的特征采用上采样用上采样得到给定视频流的大小。本文模型的优点是可以调整并嵌入第一部分的最后,也就是在推测之前。FCN-8,dilated convolution已经用了。

clipboard.png

Contributions:
(1) 可以嵌入到当前最先进水平的方法中
(2) 提出了基于时间和空间特征的端到端的语义分割网络。
(3) 提出了一个将传统的全卷积网络转成时间-空间CNN的模型。
(4) 在两个数据集上达到了start-of-the-art。

模型

模型主要有4步:输入是It,也就是帧。FCN下采样输入图片,定义It用一个大小为WH的图像栅格,m个不同的Maps中有特征集St^1..m。FCN的输出是大小为W’H’的St^1..m。其中,W‘<<W,H’<<H。图片It用特征集来表示,每个点(i,j)都有1=<i<=W’,1=<j<=H’。
St^1..m是It中m个接受域的描述。
我们把时间-空间模型放在最后一个卷积层的上面。所以特征集{St^1..m}被表示为时间-空间特征集{St^1..m}^(i,j)。对这些特征用FCN分类层做分类,可得到视频中这些区域的语义类别。最后上采样这些预测结果到It帧的大小。

时间-空间模型

关于It中的每个W’H’区域,被一个Ω栅格描述,LSTM嵌入。因此一共有W’H’个LSTMs。元素{St^1..m}^(i,j)定义了It中的一个区域的空间特征。这些特征用LSTM^(i,j)来处理,推测出在It之前帧的相等区域的时间特征联系。这样,时间空间特征都能考虑到。我们把LSTM嵌入到每个区域。时间和空间特征公式如下:

clipboard.png

其中Ω‘的大小和Ω相等。M值指定分配时间空间特征给每个点的map,用来描述It中一个相等的区域或分割。现在Ω‘中每个点的标签被预测,之后上采样到原始图片大小。总更新公式如下:

clipboard.png

得到的结果,ct-1是上一帧的特征?

实验结果

用的Caffe。将LSTM合并到Caffe中。在nvidia titan和nvidia titan-x gpus上测试代码。
首先介绍如何把时间-空间模型嵌入到FCNs和dilation CNN中。
对于FCN,把时间-空间模块放到FCN-8和FCN-32的fc7上面。Fc7是最深的全卷积层,有最大的感知野,与前面较浅的卷积层相比有更过的语义信息。图1是对FCN-Alexnet的修改。嵌入之后叫做STFCN-8和STFCN-32。我们的时间-空间模型包括有30个隐藏节点的LSTMs,在CamVid数据集上3 time-steps(一次feed 3帧到时间-空间网络)。选择3和CamVid数据集有关。一个视频一共有90帧,每30帧有一张标注的图像。我们微调了STFCN在pascal voc上预训练的权值,momentum设为0.9,学习率10e-5。
对于Dilation8,输入是9001100,fc7的输出是6691,对时间-空间模型来说计算维度过高,先下采样到2130,再输出到时间-空间模型上。得到的时间-空间特征输出到一个卷积层来减小特征map到最后一层的大小,做上采样,大小为6691。将两个结果混合到context模型中,对所有特征做一个基于元素的加操作。这里是在CamVid上预训练。Momentum设为0.9,学习率是10e-5。

clipboard.png

clipboard.png

本文的方法与FSO不同,不需要预处理或特征优化来强化结果。而FSO用CRF模型来处理光流。计算效率和速度对在线视频处理来说是个劣势。在另一个数据集上的测试结果。

clipboard.png

在这个数据集上,基于该数据集的特性,feed 不同长度的图像序列。具体的数据结果如下:

clipboard.png

讨论

只用了限定的视频帧作为一个序列,依据提供标注的帧数。应该在更多数据上测试发现序列的长度对系统性能的影响。


wenny
11 声望3 粉丝

keep calm and carry on