提出一种图像中角结构(corner)的检测子Harris

learydna
1 ℃
2020-01-01

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

检测子[1]提出一种图像中角结构(corner)的检测子HarrisDetector。它是通过计算图像中（x,y）点的cornerresponse:其中指x方向一阶导数。在计算M之前，图像首先用一个高斯窗平滑过。Cornerness值大于一定阈值的点被认为是corner。[5]提出一个称为”MaximallyStableExtremalRegionDetector”,即最大稳定性极值区域检测子。这个检测子检测到的区域是不规则的，并且该区域满足：区域内的像素点的值都大于（或小于）一个阈值K区域内边缘的点都大于（或小于）和它们相邻的并且在区域外的点当阈值K变换时，该区域的大小不变或只有很小的变化，呈现稳定性用该方法检测到的区域在图像中主要是位于场景中同一平面的区域，而且这种方法保留了该区域本来的结构，能够检测到不同尺度的图像特征，具有仿射不变性和尺度不变性。[12]提出了一种基于信息熵的检测子。这种方法首先检测出那些在尺度空间中同时在空间维和尺度维上信息熵取得最大值的区域，然后检测这些区域的信息熵在尺度维上的变换剧烈程度，保留那些该变化比较剧烈的区域。这种基于信息熵的检测子检测出的区域在空间维和尺度维上具有很好的独特性。使用如[6]中提出的椭圆采样窗口可以实现该检测子的仿射不变性。[16]提出了两种检测子基于HarrisDetector的检测子。该方法首先用HarrisDetector检测出角点，然后以该点为一个顶点，取从该点延伸出的两个边上的两个点做另外两个顶点做一个平行四边形，然后在该平行四边形区域内的像素值上计算以下三个函数With这三个函数中任意一个在该区域中取得极值的话，就把该区域作为兴趣区域。可以证明这三个函数和图像的仿射变换和线性光照变换是共变的，因此取得的区域具有仿射不变性和线性光照变换不变性。基于灰度的检测子。该方法（参考下图）首先检测出图像中的像素值极值点，然后沿从该点向四周发出射线计算以下函数的值：其中t是到中心点的欧氏距离，I(t)是在该点的像素值，是中心点的像素值。该函数的最大值点位于图像中像素值突然增大或者减小的地方，比如一个同质区域的边缘。把所有这些最大值点连接起来并拟合为一个椭圆，然后把该椭圆面积增大一倍，就构成该检测子所检测到的区域。由于该检测方法是去监测同质的区域，紧紧依赖图像本身的结构，所以具有和图像仿射变换和线性光照变换共变的特性，因此具有仿射不变性和线性光照不变性。[6]基于HarrisDetector提出了一种尺度和仿射变换无关的检测子。其尺度不变性是通过一个迭代的方法实现：第一步，在尺度空间中用HarrisDetector寻找极值点第二步，在上一步所求极值点的空间位置上，寻找极值点所在尺度领域内（如）LoG空间的极值点。第三步，在第二步所求的极值点尺度上，用HarrisDetector寻找极值点所在空间领域内的极值点。如果第三步极值点的位置发生了变换，则返回到第二步，如此反复，直到最后求得的极值点在空间上的HarrisDetecor和尺度领域内的LoG空间同时取得极值。通过上述步骤检测出的区域是具有尺度不变性的角点区域。其仿射无关的算法我还没有完全看明白，目前仍然在继续研究。描述子[17]在检测子检测到的区域选取41*41大小的一块，然后在该块内计算每一点的水平梯度和垂直梯度，得到一个2*39*39=3042的区域特征向量。在一个具有各种图像的较大的图像库上，提取该图像库中所有图像的所有特征向量，然后对所有这些向量采用PCA技术得到一个降维的投影矩阵。然后该矩阵可以用于图像库以外的其他任何图像中提取出的特征向量的降维。最终得到的局部特征描述向量维数比SIFT描述子还要低（[17]中使用20维）。[4]提出一种称为ARPIH（AngularRadialPartitioningIntensityHistogram）的描述子。该描述子（可参看下图）提取一个圆形兴趣区域，然后按照径向和角度划分为12个子区域，每一个子区域计算灰度直方图，然后把所有的这些子区域的灰度直方图拼接起来并进行归一化得到最终的描述子。[8]在SIFT描述子的基础之上提出了一种称为GLOH(gradientlocationandorientationhistogram)的描述子。该描述子（可参看下图）将检测到的兴趣区域按照径向和角度划分为17个子区域，然后每一个区域按照SIFT描述子的方法计算灰度梯度直方图，其中梯度角度划分为16个bin，然后各子区域的梯度直方图拼接成一个向量并用PCA降维，得到一个128维的最终的描述子。[8]对9种的描述子的效果做了一个评测，包括SIFT，GLOH，ShapeContext，PCA-SIFT，Spinimage，Steerablefilters，differentialinvariants，Complexfilters，Momentinvariants以及Crosscorrelation。从该工作可以看到，在纹理占主要成分的图像（texturedimage）中，SIFT效果最好，在结构占主要成分的图像(structuredimage)中，GLOH最好。当不能接受SIFT或GLOH描述子的维数时，可以选择gradientmoments或者steerablefilters。其他延伸阅读[11]结合局部特征点提取方法实现了一种视频搜索技术。该方法首先提取关键帧，然后在关键帧中提取局部特征点描述子，然后采用文档索引的方法，以描述子为索引键，以该描述子所在的所有关键帧为索引对象。这样每一个关键帧转换为一个向量，如果一个特征描述子在该关键帧出现了，该描述子对应的那一维为1（或者为一个权重值，该权重值可按照tf-idf的方式分配），否则为0。在提取和描述特帧时可以使用多种检测子和描述子，如结合检测角点的harris-laplace检测子或者是检测圆形区域的基于DoG的检测子。[10]采用了局部特征点提取和匹配的方法，把一组照片聚类，同时对同一聚类内的照片，然后计算照片间的视角变化，按照其视角的变换顺序将类内的照片排序。[18]是一个imageregistration领域内的综述。Imageregistration是一个将不同视角下，不同时间甚至是不同类型的拍摄设备拍摄的同一场景的照片进行配准的过程，其和图像匹配的任务十分相似。Imageregistration分为四个步骤：1.检测并描述特征点。2.特征匹配。3.设计映射函数。4.图像变形和重采样。我认为图像匹配和图像配准的最大区别就在于第3和第4步，图像匹配并不需要将一副图像真正变形和重采样后与另一幅图像做配准，而只是需要找到图像间的对应关系，如外极约束等。但是图像匹配和配准任务还是有很多重和的地方，如配准的前两个步骤，可以作为同一个问题进行研究。[14]提出了尺度空间理论。虽然我对其具体的数学推导看的还不是很明白，但是有两点还是很有启发。首先，任何图像特征都是在一定尺度下考虑才有意义，例如一片树叶，假如我们在原子分子尺度或者是光年尺度上去讨论它所成的图像特征都是没有意义的。物体的特征依赖于一定的空间尺度(characteristiclength)，而该尺度与具体成像的过程无关，所以如果我们充分分析成像物体本身的特征尺度，而将图像间的尺度比例因素去除掉，就可以得到与图像本身尺度无关而只和空间物体本身尺度相关的所谓“尺度无关”的局部特征描述，而这就需要我们在多个尺度下去分析图像，高斯金子塔，尺度空间以及小波分析都是多尺度分析的工具。其次，高斯核是唯一的具有半群结构同时随着尺度增加不会增加图像中新的极值点的平滑核，因此是唯一能够产生尺度空间的卷积核。文献[1]Harris,C.andStephens,M.1988.Acombinedcornerandedgedetector.InAlveyVisionConference,pp.147–151.[2]Kadir,T.andBrady,M.2001.Saliency,ScaleandImageDescription.Int.J.Comput.Vision45,2(Nov.2001),83-105.[3]Kolomenkin,M.;Shimshoni,I.,ImageMatchingUsingPhotometricInformation,ComputerVisionandPatternRecognition,2006IEEEComputerSocietyConferenceon,vol.2,no.,pp.2506-2514,2006[4]LeiQin;WenGao,Imagematchingbasedonalocalinvariantdescriptor,ImageProcessing,2005.ICIP2005.IEEEInternationalConferenceon,vol.3,no.,pp.III-377-80,11-14Sept.2005[5]Matas,J.,Chum,O.,Urban,M.,andPajdla,T.2004.Robustwide-baselinestereofrommaximallystableextremalregions.ImageandVisionComputing22(10):761–767[6]Mikolajczyk,K.andSchmid,C.2004.Scale&AffineInvariantInterestPointDetectors.Int.J.Comput.Vision60,1(Oct.2004),63-86.[7]Mikolajczyk,K.,Tuytelaars,T.,Schmid,C.,Zisserman,A.,Matas,J.,Schaffalitzky,F.,Kadir,T.,andGool,L.V.2005.AComparisonofAffineRegionDetectors.Int.J.Comput.Vision65,1-2(Nov.2005),43-72.[8]Mikolajczyk,K.;Schmid,C.,Aperformanceevaluationoflocaldescriptors,PatternAnalysisandMachineIntelligence,IEEETransactionson,vol.27,no.10,pp.1615-1630,Oct.2005[9]Olson,C.F.,Maximum-likelihoodimagematching,PatternAnalysisandMachineIntelligence,IEEETransactionson,vol.24,no.6,pp.853-857,Jun2002[10]Schaffalitzky,F.,andZisserman,A.2002.Multi-viewmatchingforunorderedimagesets,or“HowdoIorganizemyholidaysnaps?”.InProceedingsofthe7thEuropeanConferenceonComputerVision,Copenhagen,Denmark,pp.414–431.[11]Sivic,J.;Zisserman,A.,VideoGoogle:atextretrievalapproachtoobjectmatchinginvideos,ComputerVision,2003.Proceedings.NinthIEEEInternationalConferenceon,vol.,no.,pp.1470-1477vol.2,13-16Oct.2003[12]T.Kadir,A.Zisserman,andM.Brady.Anaffineinvariantsalientregiondetector.InProc.ECCV,2004.[13]T.Lindeberg,“FeatureDetectionwithAutomaticScal