基于词袋模型的图像描述

ccbazzy
1 ℃
2020-02-19

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1.1时代飞速前进，特别是在互联网上，需要处理识别的图像越来越多，为此图像分类搜索引擎所需的分类能力要求越来越高，在图像处理领域内也成为越来越热点的课题。而在图像分类中，最为首要的就是进行图像的描述。1.1.1图像描述是属于图像处理范畴所需要解决的问题之一，图像处理的目的就是要使用计算机及相关设备代替人工处理大量的复杂的图像信息，在尽力逼近人工能力的同时解决人类生理能力之外的图像处理问题，以求最终达到机器智能化以代替人力劳动进行更迅速更准确更优质的图像处理。人类识别图像的过程总是先对图像的外形颜色等物理特征进行提取，经过对比，分析，判断，然后分门别类，最终识别它们。为了在使用智能计算机时能够更好的代替人类的工作，在研制的智能识别机的过程中要逼近人类的思维方式，采用与人类同样的图像处理方法。但是图像的灰度和色彩是随不同光强和波长的光线变化而变化的，待描述的实物的图像往往要受到方向，表面质地，光线条件的影响。在比较恶劣的工作环境中往往图像与实物存在很大的差别，这就要求进行图像的预处理，分割，特征提取，分析，分类等一系列过程。而这其中特征提取和分析的过程在这其中占着关键的地位，而这两步也正是图像描述的主要内容和核心工作。现在这些技术已经比较成熟，完全可以通过智能计算机进行模拟，图像信息的处理描述以达到图像的识别。对于人的市局系统而言，物体的形状是一个赖以粪便和识别的重要因素。而对于计算机而言，由于物体的形状较之前提到的物体颜色等会随环境变化的的特征更为具有可描述性及确定性和唯一性。用计算机对待描述实物图像通过图像处理和分析系统进行形状特征提取的过程就称作形状和结构分析。形状和结构分析分为两种：一种是包括几何性质，拓扑性质和统计性质的数字特征，另一种是由直接的图像或字符串描构成的句法语句。这种句法语言可用来描述一种图像的特征以及他与其他类别的图像间的关系，同时也可描述一幅图像不同部分的区别，作为图像处理后的输出，或者作为进一步图像分析的数据。1.1.2由于多媒体技术和网络互连技术的迅猛发展，图像已经成为重要的信息资源之一，图像所包含的信息量远远超过文字和语音所包含的信息量，为了能够很好地利用这些信息资源，关于图像的描述已成为目前研究的热点之一。一方面，研究者对特征提取的理论作了较多的探索，力求得出一些针对待定木变得高就能够读﹑高效率的特征提取算法与方法。这其中包含PCA方法﹑Fisher鉴别分析方法，以及一和方法为代表的非线性特征提取方法等。而且，在实际应用中算法的效率也是非常重要的。如在人脸识别中传统的方法是2DFLD方法而核方法是新近发展起来的一种非线性特征提取方法他的理论基础来自于统计学理论。另一方面，在特征提取之后，特征聚类也是重要的环节，它将提取的图像特征统一化、规模化，以便后期的降维处理，在这方面的研究，国内外主要方法有Harris算子法，以及K-means算子法等等。在各种图像描述的方法中，本文所设计的基于词袋模型的图像描述，具有检测速度快，分析较为准确，它根据图像库所提供的特征向量依据一定的概率法则，将所要分析分类的图像进行处理，通过降维聚类的方式，将所能代表一类图像的兴趣点提取出来，与所分析图像进行对比统计，以便后期保证对图像的分类的准确性。大部分现有的图像算法都是基于图像的底层特征，无法解决图像分类中的语义鸿沟问题。通常人们在判别图像的主体或者类别并非建立在图像底层市局特征的基础上。这种理解是日积月累得到的一种能力，而基于词袋模型的图像描述，能够相对较好的抽象出其内容或主题，以解决语义鸿沟的问题。另外，大多数图像分类算法总是忽略图像中部分与部分之间的空间关系，这个缺陷已有研究人员指出，没有能够充分利用图像暗示给我们的小图块状的patch之间包含的空间相关性。1.2图像描述的发展对解决“语义鸿沟”的要求越来越迫切，要求通过图像的描述，能够更深层次的表达图像的内涵，即深层语义，为此也提出了基于词袋模型的图像描述这一方法。如今大多数图像描述的方法，虽然可以正确的表达图像的内容，但一旦涉及到深层语义就变得无能为力了，和人类对图像的分析能力、对图像的内在含义的理解力相比，还显得非常虚弱。因此，在保证图像的描述具有鲁棒性等特性以外，还要求其对环境的辨别能力，及深层语义具有更强的理解能力。1．3根据提供的一定图像资源，提供兴趣点，提取重要的图像特征（能够表征一类图像的特征），通过聚类，建立词袋模型，以便对其后所要分析、分类的图像进行描述，根据图像所对应的最大概率的词袋内的特征，区别图像的类别，初步解决“语义鸿沟”问题。其中要求满足以下特性。唯一性：每个目标必须有唯一的表示，否则无法区分。完整性：明确的、没有歧义的。几何变换不变性：评议、旋转、尺度、镜像不变性。敏感性：描述相似目标时能够加以区别的能力。抽象性：从细节中抽取形状的本质特征，不容易因噪声等原因而发生变化。所谓词袋，就是包含一组数据的打包或封装。在一个词袋中往往包含了若干幅图的的基本特征元素。在一个完整的词袋中，一般有若干幅图的局部特征，包括形状、结构、颜色等具有鲁棒性，不变性的特征。由于词袋具有一类或多类图像的全部特征，故而当我们提取出词袋中的元素时，就可以对相近类图像进行描述，同时也可以用作不同类别图像的分类，本设计主要研究词袋模型在图像描述中的应用。使用词袋描述图像的优点是在资源库中图像数目类别足够多的前提下快速准确，而且原理简单，易于操作和编程，同时由于词袋具有形象的数据图像，是词袋在描述图像的过程中更加具体直观。但是使用词袋进行图像描述最大的缺点就是所需要的资源库中的数据必须足够多，根据理想状态，资源库中的图像数目及类别应该是是无穷大的，显然这一结果是不可能实现的，而且词袋中的图像局部特征越多对运算速度的影响就越大，造成词袋运算缓慢的结果。在一般情况下，我们需要对要描述的图像的类别有一个范围性的了解再进行若干类图像特征的打包。或者设定大概100~10000副图进行词袋的打包。词袋模型的原理非常简单，词袋模型是文本的简化描述模型。在此模型中，文本被表达成无序的单词组合，不去考虑语法与词序。以文本为例，如果一个文本X表示一连串有顺序的词的排列，那么机器对于X的识别其实就是计算出X在所有文本词语中出现的可能，也就是概率多个词语概率的相乘如)|()...|()()(1121xxxxxnnpppXp其中)(1xp表示第一个词出现的概率，)|(12xxp表示在第一个词出现的前提下第二个次出现的概率，而词袋模型就是这种文本模型的特例，即出现的概率与前面的x无关，故有)()...()()(21xxxnpppXp成立。1.4本次设计，主要利用词袋模型的特点，根据已知的图像对未知的（机器未能识别的）图像进行描述，以达到对待描述图像的一个机器性认知，主要步骤分为三步：特征提取、特征码本的聚xxxxn.......,321,xk类、数据分析及统计，条形图显示。论文内容安排如下：第一章绪论部分，主要介绍图像描述这一课题在当今的发展趋势，主要方法，原理及其优缺点。第二章主要介绍在特征提取方面该领域内的主要方法以及其简单的分析和原理，介绍特征提取中线性非线性两大类。第三章主要介绍本次设计主要采取的特征提取方法SIFT算子法的原理，及其使用，并附有matlab编译后的特征向量的图像结果。第四章介绍特征点聚类以得到码本，主要使用了k-means聚类函数，介绍了其原理和对于现有的k-means的方法的不足与改进的设想。第五章介绍了词袋封装完毕后，对待描述图像的数据统计与分析，章末最终附有基于词袋模型的图像描述的统计条形图。以及完整的主程序。2.1科技的不停的发展，人们以及很多高科技设备所需要的信息已经不是文字、符号文本等简单信息所能满足的了。由于新生事物的增多，图像信息变得数量越来越多，并且对于一种实物的描述地位显得也越来越重要，包含的信息量越来越大。人获取信息大部分来自于视觉，因此图像的信息就成为了一个重要的领域。但是图像所包含的信息大多数变为数据后都是高维的，大量的，为此虽然图像所表达的内容丰富，但是其数据巨大就导致了运算存储的困难，特别是对于一些实时要求较高的设备，其丰富的内容反而成为了最大的致命点，大量的信息相对于需求变为了冗余，同时一幅图像对一个实物的描述中只有一部分信息是该物的本身固有特征，其他大量信息内容都是随机变化的，即外部条件变化，图像多数内容就变得无意义了。因此，对于一幅图像只有少部分是表现一个事物本质特征的，是区别该事物与其他类别的，而特征提取的工作就是为了找出这些本质特征，使一幅图像提取的特征不随位移、角度、光照等等不影响物体性质的变化而改变。另一方面，特征提取的过程也是降低图像数据信息量及数据维数的过程，以便后期的数据处理和存储运算。综上所述，特征提取是已是描述分类等后期图像处理的关键前提。良好的、不缺失信息的、最大限度减少信息冗余的特征提取是一切图像处理工作的首要工作。特征提取的方法众多，基于兴趣点的特征提取较为常见，其中最有名的兴趣点特征提取算法有Forstner算法、Harris算法、Moravec算法。另外特征提取主分为两大类，线性特征提取和非线性特征提取。2.1.1特征是用来描述一类图像的基本元素，它涵盖了一幅图像的所有信息，一般这样的特征称为原始特征，但是由于其数量巨大，故而不能用于直接处理和运算。原始特征需要进一步处理，或者在特征提取之初就按照一定准则提取部分特征，以求精准的、冗余小的、能代表图像本质属性的特征。比如，一幅图像的外围轮廓及其纹理就能够确定该幅图像的类别，又比如，人脸的识别中，耳朵，鼻子，嘴，眼睛等特征就能够完美定义一副人脸图像的基本性质。一幅图像的特征可以是计算得出，也可以是通过相关设备测量得出。这样产生的特征是一个处在高位空间且数量巨大的数据。有时人们会认为如果可以解决计算速度和存储问题，那么特征的数量越大越好，特征越多描述一幅图像就越确切。其实不然，对于一个事物的图像，如果我们取得过多其周围与其相关度较低的特征，那么信息的冗余量就越大，这样一来，当用这些特征描述一幅图像时，大量的冗余特征就会淹没能表述图像本质的特征，导致任意两个模式相似。显然图像的特征提取要满足一些条件，以避免上述问题，同时满足准确描述一幅图像的要求：（1）区别性：在同一类别的图像中提取的特征相似度要极高，而与不同类图像中的特征需要相差甚远，以便特征能够独立的代表唯一一类图像而不发生混淆。（2）稳定性：即特征要具有鲁棒性，对噪声和其他干扰不敏感，同时特征要能表示一类图像任意时刻角度的特点，即不随图像的简单形变、光线的变化而失去特征意义。（3）简单性：一类图像的特征要在保证能够代表一幅图像的前提下尽量控制数量，少量的特征不仅能节省预算存储，同时也能减少不同类别图像的重叠点，以避免混淆。2.1.2特征的分类多种多样。【1】在论文中提到文献【2】将用于目标图像识别的特征归纳为如下四种：图像的视觉特征：例如，图像的边缘、轮廓、形状、纹理和区域等。它们的物理意义明确，提取比较容易。图像的统计特征隅：例如，灰度直方图特征、矩特征，其中矩特征包括均值、方差、峰度及熵特征等，目前，熵特征作为图像的特征得到了广泛的应用。变换系数特征：对图像进行各种数学变换，如傅立叶变换、离散余弦变换、小波变换等，可以将变换后的系数作为图像的一种特征。代数特征：代数特征反映的是图像的某种属性。由于图像可以表示为矩阵形式，因此可以对其进行各种代数变换，或者作各种矩阵分解。众所周知的K-L变换，实际上就是以协方差矩阵的本征矢量为空间基底的一种代数特征抽取。研究表明，矩阵的奇异值分解也是一种代数特征。因此也可以作为图像特征。同时也可以按特征的本质分为点线面的特征，纹理形状的特征，，颜色特征，统计特征。点特征是较为简单的并且常用的特征，所谓的点，就是交叉点、转角点以及图像边界点等等。线特征常常是图像一段边缘的线段，表示一幅图像的轮廓。面特征是取图像中有鲜明特点的一部分区域作为特征，一般是一个闭合的区域，它是代表一幅图中的最大特征点，如某个建筑的阴影，这样的特征往往抗噪声能力极强。纹理特征是