CNT_PPT

zhang1996bo
1 ℃
2020-03-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

RobustTrackingviaConvolutionalNetworkswithoutLearningKaihuaZhang,QingshanLiu,YiWu,andMing-HsuanYang（submittedtoTCSVT）学习汇报罗衡2015.4.1BackgroundIntroductionDeepnetworks可以直接从原始图片中学习其隐含的特征，常被用于图像分类、目标识别，当将其应用于目标跟踪时通常需要离线训练大量图片，学习目标的特征信息，然而离线训练通常是非常耗时的，而且学习到的普遍特征对于特定目标的识别能力不够。当前许多高性能的跟踪算法普遍利用了人为选择的一些目标鲁棒性特征，比如Haar-like、HOG、LBP等，但这些特征并不普遍适用于所有目标。Fan等人在2010年提出一种基于CNNs的人体跟踪算法，王乃岩等人在2013年提出一种深度学习跟踪算法DLT，但两者都需要海量的图片来训练特征抽取器，它们都没有利用目标在视频序列之间的相似的局部结构性和内在的几何布局信息，而这些信息可以便捷有效地将目标从背景中识别出来。InspirationofRelatedWorkRiesenhuberandPoggio于2007年提出了一种仿人脑、基于特征组合的特征提取分层模型(HMAX模型)，作者利用滤波器卷积来抽取目标的高维特征，通过结合目标的局部特征生成其全局表示，并且没有破坏目标的结构化信息。最近，心理物理学实验表明，人脑视觉处理系统的高效性极有可能是由于其使用了简单的前馈处理方式(feed-forwardprocessing)，作者提出的CNT也采用了相似的思想简化了卷积网络的结构。许多跟踪算法强调设计有效的目标表达方法，也有不少判别式算法致力于进一步提高分类器的性能，而不是着重于提取复杂的目标特征，但是目标的局部结构性信息较少被充分利用，作者提出的算法较好地利用了这一信息。OverviewoftheproposedCNT作者利用卷积网络设计了一个分层的目标表示结构。在第1帧中，将目标框归一化到32x32大小，从中随机选取一部分重叠的小box组成一系列Filters，用于同第t帧候选目标框中所有抽取的小box进行卷积，得到一系列局部特征的映射(featuremaps)，从而可用于表示此候选目标的鲁棒性全局特征。Preprocessing将输入图片转换成灰度图，并resize成n*n大小，记作，再用w*w大小的box滑动遍历整个图，得到一系列图像块，记作，其中l=(n-w+1)*(n–w+1)，每一个Y均减去本身亮度的均值。……resizeslidingnormalizeSimpleLayer在预处理之后，在y中随机选取d个图像块，记作，这些块可能会有部分重叠，其对输入图像I的响应为。由于这d个滤波器只在第一帧初始化时随机得到，此后保持不变，故其与目标框的相对位置总是固定不变的，从而可以作为一个特征提取的模板被反复使用。它对每一个候选目标都抽取了相同位置的局部特征。从第1帧初始化得到的某个滤波器与随后各帧卷积的结果来看，虽然目标的表观剧烈变化，但是简单的小区域特征映射结果（simplecellfeaturemap）不仅保持了局部结构性（虚线椭圆区域），而且在一定程度上也保持了全局几何结构的不变性。从而说明了所选取的filters能够有效地抽取目标的有用信息，如边缘和角，虽然目标的整体表观剧烈变化，但是这些特征信息是保持相对不变的。SimpleCellFeatures为了加强对目标的特征描述，作者将d个SimpleLayer依次堆叠，构成ComplexLayer，即一个三阶张量，表示complexcellfeaturemap。CNNs和HMAX模型着重于学习目标的平移不变特性，这个特性对于图像分类和目标识别是有用的，但对跟踪并不有效。相反地，ComplexLayer平移变化特性上图黑框中的三个简单的目标特征映射来自于不同的尺度，由于有归一化过程它们之间非常相似的结构化特征；蓝色虚框对应的是发了漂移了的目标框，由于包含了大量背景像素点，其特征映射明显与其他三者不同。ComplexLayer……lldCNT利用了粒子滤波框架，设第t帧时总的的观测序列为，则跟踪的目的就是求出后验概率的最大值，利用贝叶斯理论，可知其中，其中Xt，Yt为目标的位置，St为尺度参数。为运动模型，用于根据第t-1帧的位置预测第t帧的位置，假设目标状态参数是相互独立的，可以用三个Gaussian分布来描述，从而运动模型即为布朗运动，于是，为对角协方差矩阵。为观测模型，用于评估观测结果Ot与目标的相似性。于是，整个跟踪过程可以认为是求：观测模型可以通过测量样本通目标之间的相似度来计算：ProposedTrackingAlgorithmEfficientComputationFiltersbank只在第1帧中初始化得到，此后作为模板保持不变，故每一次卷积时不需要再滑框得到；由于Filtersbank是随机选取得到的，相互独立，故它与输入图像进行卷积运算时，可以同时进行；卷积计算可以利用FFT加速运算，减少耗时目标模板的更新：Ct表示目标在第t帧中用于跟踪的的模板，表示在第t-1帧中已经跟踪到的目标构成的模板，lambda表示更新速率，预设为0.95Experiments&Performance在Inteli73770CPU(3.4GHz)的PC上，MATLAB版代码运行速度达到5fps通过在吴毅的Benchmark数据集上测试，作者认为CNT的总体性能在当前先进的跟踪算法中排名第三(0.612)，仅次于Struck(0.656)，SCM(0.649)，优于DLT算法2.5%CNT在光照变化、平面内/外旋转、尺度变化、遮挡、目标畸变、背景噪声等挑战性测试序列中表现良好，均排名前五CNT在快速运动、目标出界、低分辨率、运动模糊等测试序列中表现不佳，排名未进前十ExtentionofCNT设计更加有效的Filters抽取目标的鲁棒性特征充分利用连续帧之间背景的结构化信息，有助于解决目标的漂移问题将CNT中的两层卷积网络作为特征抽取器，用于判别式跟踪算法