SIFT-chris

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

要完成的工作和主要实现步骤SIFT+BoW+SVM(主要是SIFT)缺陷、现有改进和一些想法图像分类:识别图像中物体,从而将图像归类模式识别:样本→训练/分类图像分类:图像→特征集→固定维数的样本→训练/分类›①提取特征:关键点(SIFT,SURF,PCA-SIFT)/纹理/轮廊等›②编码:BoW,SPM,ScSPM等›③训练/分类:SVM,NaïveBayes等SIFT:特征提取›从原图中找到多个关键点,统计关键点领域图像信息,对每个区域生成128维的特征描述子BoW(词袋模型):编码›将从多幅图中提取的特征集聚类,得到具有代表性的特征描述子作为“视觉单词”›每幅图片可由其中出现各个视觉单词的“频率”得到一张直方图,从而可表示为一个固定维数的“样本”,样本维数就等于视觉词典的单词数。SVM:模式识别(训练/分类)›“图片→样本”之后就可以用于模式识别中的训练和分类。在“BagsofKeypoints”论文中比较了SVM和NaïveBayes的方法后发现SVM效果更好,因而它采用SVM方法进行分类简介:检测出图像中的局部特征点,并生成描述子的一种算法优点:尺度、旋转不变性,一定程度的光照、仿射、模糊不变性改进:PCA-SIFT,SURF,GLOH等①由原图产生高斯差(DoG)图像金字塔②找到极值点,精确定位和进一步筛选极值点(特征点)③统计特征点周围像素信息,生成描述子SIFT本质是要检测什么样的特征点?›斑点检测SIFT本质是要检测什么样的特征点?›高斯拉普拉斯(LoG)——卷积核高斯拉普拉斯(LoG)›拉普拉斯算子:›3x3卷积核:›缺点:对噪声很敏感›为了降低噪声影响,先用参数(宽度)为σ的高斯函数对原图平滑,然后再进行拉普拉斯边缘检测尺度空间L(x,y,σ)›L(x,y,σ)对x,y,σ三个变量的极值点高斯差金字塔DoG近似LoG›用高斯差作为核与原图卷积,等价于先求两幅高斯平滑的图像,再作差。得到离散的D(x,y,i)高斯差金字塔DoG在DoG中求极值点›类比于在L(x,y,σ)中求对x,y,σ的极值点,从而找到斑点位置细节一:DoG各层图像怎么求?细节二:为什么是S+3层?什么是检测到极值点的尺度连续性?流程:›粗略寻找极值点›精确插值定位极值点›去掉低对比度和边缘响应的极值点,筛选得到最终的极值点(特征点)集合粗略寻找极值点›与周围26个点比较,找出极值点计算插值,精确定位极值点›𝐷𝑥=𝐷+𝜕𝐷𝑇𝜕𝑥𝑥+12𝑥𝑇𝜕2𝐷𝜕2𝑥2𝑥›令D’(x)=0,得到𝑥=−𝜕2𝐷𝜕2𝑥2−1𝜕𝐷𝑇𝜕𝑥去除低对比度的点›𝐷𝑥=𝐷+12𝜕𝐷𝑇𝜕𝑥𝑥›𝐷𝑥0.03,认为对比度太低,去除去除边缘上的点›图像中的点:平坦处的点,边缘上的点,角点›平坦点与角点的两个主曲率差别较小,而边缘点差别较大去除边缘上的点›Hessian矩阵:𝐻=𝐷𝑥𝑥𝐷𝑥𝑦𝐷𝑦𝑥𝐷𝑦𝑦›Hessian矩阵的两个特征值,与该点处两个主曲率大小成正比。于是可以用Hessian矩阵特征值的比值(𝜆𝑚𝑎𝑥𝜆𝑚𝑖𝑛)来表示两个主曲率的比值,超过某阈值就认为是边缘上的点,去除完整流程:以上就完成了从寻找极值点,到精确定位,再到进一步筛选的全过程。得到了最终的极值点(x,y,σ)集合下一步就是在这些极值点(特征点)附近的区域统计像素点特征,生成描述子要求一:保证旋转不变性›方法:首先统计特征点领域图像的主梯度方向,然后将描述子“计算窗口”旋转到这个主梯度方向,在这个旋转后的框里去划分区域并计算描述子要求二:保证光照不变性›方法:将描述子归一化›描述子统计的是领域图像的梯度信息。不同光照条件下,梯度的值可能不同,但相同物体的各个部分梯度的比例是大致相同的,那么归一化描述子后,光照影响就能被大大减小寻找主梯度方向›在极值点附近宽度为d的框内统计各个像素点梯度的方向和模值›d=k*σ_octv,其中σ_octv表示组内尺度›用直方图统计角度在0°~360°的梯度模值加权(高斯权)和,每10°一个柱,总共36个柱›直方图中的峰值就是主方向,其它达到最大值的80%(且高于左右两边的值)的方向,作为辅助方向再生成一个特征寻找主梯度方向›细节一:在寻找主方向时先对直方图进行高斯平滑(滤波核:[0.25,0.5,0.25]),以弥补因没有仿射不变性而产生的特征点不稳定的问题›细节二:对直方图插值,以精确定位主梯度方向bin=interp_hist_peak(hist[l],hist[i],hist[r])#defineinterp_hist_peak(l,c,r)(0.5*((l)-(r))/((l)-2.0*(c)+(r))计算4x4x8的梯度直方图›将坐标轴旋转为关键点的主梯度方向,以确保旋转不变性›确定半径为radius的计算窗口,将窗口划分为4x4块。其中radius与该点所在层的组内尺度成正比›360度每45度一个范围,在每个区域,统计各个像素的梯度落在每个角度范围的模值的高斯加权和计算4x4x8的梯度直方图归一化描述子›在求出4*4*8的128维特征向量后,此时SIFT特征向量已经去除了尺度变化、旋转等几何变形因素的影响›而图像的对比度变化相当于给每个像素点乘上一个因子,光照变化则是给每个像素点加上一个值,但这些对图像归一化的梯度没有影响。因此将特征向量的长度归一化,则可以进一步去除光照变化的影响归一化描述子›对于一些非线性的光照变化,SIFT并不具备不变性,但由于这类变化影响的主要是梯度的幅值变化,对梯度的方向影响较小,因此作者通过限制梯度幅值的值来减少这类变化造成的影响归一化描述子›细节:归一化之后,将所有值大于0.2的值规定为0.2,然后再进行一次归一化›目的:通过限制梯度幅值,来减少非线性的光照变化带来的影响到此为止,就完成了“图像→特征集(描述子集合)”的全过程›①生成高斯和高斯差图像金字塔›②找到极值点,精确定位,去除边缘响应›③确定极值点主方向,旋转坐标轴后统计领域梯度,生成描述子下一步是编码:“特征集→等维度样本”用于图像分类的基本流程:›将所有图像(不分类别)的全部特征集采用k-means聚类,得到k个聚类中心(k是单词个数,人为指定)›认为这k个聚类中心代表各类图像中最常出现且最有可分性的视觉单词›每幅图像根据其特征集落在各个视觉单词的情况,得到一张视觉单词直方图,亦即“词袋”›这个k维的“词袋”就作为代表图像的样本,可用来训练分类器或者分类将BoW得到的每个样本(词袋)标记为图像的类别,然后训练SVM分类器,进而可对新样本进行分类针对SIFT速度:PCA-SIFT,SURF等针对特征类型:纹理、区域(Recognitionofregion等)针对编码方式:SPM,ScSPM等(介于BoW没有考虑空间信息)BoW在k-means聚类的时候将“所有图像的全部特征”拿去聚类›这样会有很多的噪声信息,影响分类性能›应该只选择与类别相关的特征›这些特征是在这类图像中频繁出现的,那么问题关键在于,只选择该类图像特征集中,最稠密的那些特征拿去聚类›想法①:mean-shift均值漂移思想›想法②:多高斯模型,截取宽度在kσ以内的特征点。或者直接拿多高斯均值和方差作为样本去聚类

1 / 39
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功