图像检索技术综述本文主要内容图像检索技术的发展历史当前主流的图像检索技术介绍一个图像搜索引擎的系统模型20世纪70年代:TBIR(Text-basedImageRetrieval)基于文本的图像检索技术沿用了传统文本检索技术,利用文本描述的方式表示图像的特征。早期的TBIR:手工对图像进行注释,工作量相当大,不可避免地会带来主观性和不精确性Internet环境下的TBIR:网页信息的自动采集和标引技术索引方式:全文索引和关键词索引Google,Yahoo和百度等搜索引擎所提供的图像检索服务,它们采用的都是TBIR技术.TBIR的优点:使用成熟的文本检索和搜索引擎技术,符合人们的检索习惯,实现简单TBIR的缺点:标注的准确性差,也不能满足用户对图像原始特征信息的检索MPEG-7国际标准化组织ISO/IEC制定的MPEG-7国际标准,该标准的正式名称为“多媒体内容描述接口”(MultimediaContentDescriptionInterface),为各类多媒体信息提供一种标准化的描述,并将该描述与所描述的内容相关联,极大地促进了对各种多媒体信息的快速查询和访问。该标准于1998年10月提出,于2001年最终完成并公布。MPEG-7标准化的范围包括:一系列的描述子(描述子是特征的表示法,一个描述子就是定义特征的语法和语义学);一系列的描述结构(详细说明成员之间的结构和语义);一种详细说明描述结构的语言、描述定义语言(DDL);一种或多种编码描述方法。90年代以来:CBIR(Content-basedImageRetrieval)基于内容的图像检索对图像的视觉内容,如图像的颜色、纹理、形状等进行分析和检索图像。其特点是图像本身包含的客观视觉特性,不需要人为干预和解释,能够通过计算机自动实现对图像特征的提取和存储。CBIR进行检索时利用的是第2层的特征。特征提取是CBIR系统最基础的部分,在很大程度上决定了CBIR系统的成败.[1]特征提取第3层:语义特征层人们对图像内容概念级的反映第2层:物理特征层图像的颜色、纹理、形状和轮廓等低层物理特征第1层:原始数据层图像的原始像素点图1图像内容的层次模型1基于颜色特征的检索实践表明,基于颜色的CBIR系统具有较好的性能,而且实现相对容易.最常用的表达颜色特征的方法是颜色直方图。其他常用的颜色特征表示方法还有颜色矩和颜色相关图。[2]2基于纹理特征的检索纹理是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征,对图像灰度变化的特征进行量化,与对象的位置、走向、大小、形状有关,与平均灰度级无关。图像检索中用到的纹理特征表示方法主要有:Tamura法、小波变换和自回归纹理模型。[3]3基于形状特征的检索形状特征常与目标联系在一起,需提取目标的轮廓或描述目标轮廓所包围的区域的性质。因此形状比颜色和纹理的语义性更强。基于边界的表示:代表方法是傅里叶描述子。其基本思想是用对图像进行傅里叶变换得到的边界作为形状描述.其中一个优点就是把二维问题简化为一维问题。基于区域的表示:代表方法是不变矩法。CBIR系统向用户提供的查询方式示例查询就是由用户提交一个或几个例子图像,然后由系统检索出特征与之相似的图像.这里的“相似”,指的是上述的颜色、纹理和形状等几个视觉特征上的相似。草图查询:用户可以简单地画一幅草图,由系统检索出视觉特征上与之相似的图像。目前基于内容图像检索技术已经取得了不少的成就,一些著名的图像检索系统相继被推出,有IBM的QBIC系统,哥伦比亚大学开发的Visual-SEEK,MIT多媒体实验室开发的Photo-Book,UCBerkeley开发的Chabot系统等。CBIR利用图像本身固有的物理信息,能够对图像的颜色、纹理和形状等特征进行比较,在指纹识别、商标检索和医学图像检索等特定领域得到了广泛应用,因为这些领域的图像在某些特征上容易识别,比如同一个手指的指纹其纹理是一样的。然而,Internet上的图像来自不同的领域,根本无法捕获其共同点,用基于内容的方法对这些图像进行检索,其效果远不能令人满意.基于语义的图像检索基于语义的图像检索的目的,就是要使计算机检索图像的能力达到人的理解水平。在图1所示的图像内容层次模型中,语义位于最高层:第3层。第2层和第3层之间的差别被许多学者称为“语义鸿沟”(semanticgap)。缩小语义鸿沟的办法有2种:由高层语义导出低层特征和由低层特征向高层语义的转换。在原有检索系统中加入高级语义到低层特征的转化,可以在不改变现有的图像特征库和匹配方式的情况下,实现基于语义的图像检索,其基本框图见图2.图像语义的提前过程是由低层特征向高层语义转化的过程。在获取语义和有效地表达语义的基础上,可以建立语义索引,提取图像语义的模型见图3。高层语义导出低层特征反馈信息检索结果图像数据库管理特征比较图像特征库特征提取图2基于语义的图像检索系统框图结果输出图像数据库管理语义查询相似性比较对象空间关系分析对象识别图像分割局部视觉特征提取全局抽象语义处理全局视觉特征提取图像标注用户交互外部信息原始图像图像语义描述图3图像语义提取模型利用系统知识的语义提取基于系统交互的语义生成基于外部信息的语义提取基于反馈的图像检索相关反馈方法的基本思想是在检索过程中,允许用户对检索结果进行评价和标记,指出结果中哪些是用户希望得到的查询图像,哪些是不相关的,然后将用户标记的相关信息作为训练样本反馈给系统进行学习,指导下一轮检索,从而使得检索结果更符合用户的需要。基于知识的图像检索将人工智能领域的基于知识的处理方法引入到图像处理领域,通过对图像理解、知识表达、机器学习,并结合专家和用户的先验知识,建立图像知识库实现对图像数据库的智能检索。主要涉及到自然语言理解、专家系统、知识表达和机器学习等人工智能的主要研究领域。一个图像搜索引擎的系统模型SeekImg系统是华中科技大学图像识别与人工智能研究所开发的,一个上的图像搜索引擎的原型系统。[4]该系统采用Internet搜索技术、图像自动识别技术和基于内容的图像检索技术,基于C1ient/Server架构和MicrosoftSQLServer/NT平台研制开发。SeekImg由四部分组成:爬虫部分、图像处理、图像数据库和查询服务器。爬虫图像处理查询界面用户图像处理数据库数据库维护图4SeekImg的系统结构图示例图像文字信息结果示例图像索引向量文字信息图像索引向量文字信息爬虫又称为“图片自动搜寻和下载模块”,主要完成从网站上寻找图片并下载到系统的服务器上;图像处理部分是SeekImg的核心模块,主要完成下载的图像的自动分析和特征信息的自动提取;数据库部分在服务器端完成SeekImg的图像信息组织,在客户端接受用户的例子图像,通过基于内容的图像检索算法,完成对服务器端图像信息的检索,并将结果输出给用户。[5]用户可采用的三种查询方式:①当用户采用传统的关键字检索方式时,利用图像数据库中的关键字字段进行检索。②当用户提供了示例图像时,先对示例图像产生索引向量,采用某种距离度量算法,算出示例图像和图像数据库中图片的索引向量之间的距离,得到距离最近的若干幅图片。③用户也可以指定图像特征,例如,红色30%,黄色50%。服务器将构造出索引向量,然后找出距离最近的若干幅图片。参考文献[1]贺玲,吴玲达,蔡益朝.CBIR中的索引技术综述[J].小型微型计算机系统.2006,vol.27:141-145[2]刘忠伟,章毓晋.十种基于颜色特征的图像检索算法的比较和分析[J].信号处理,2OOO,16(1):79-84[3]MAWY,ZHANGHJ.BenchmarkingofImageFeaturesforContent-basedRetrieval[C]//The32ndAsilomarConferenceonSignals,Systems&Computers.PacificGrove,California,USA:IEEECSPress,1998.[4]陈韶斌,丁明跃,周成平.[J].计算机与数字工程,2OO2,30(2):55-54[5]陈迎,唐洁茹.一种图像搜索引擎的模型与实现[J].武汉理工大学学报,2OO1,23(1):26-29