龙源期刊网图像自动标注方法研究综述作者:徐勇张慧来源:《现代情报》2016年第03期〔摘要〕随着Web20的逐步发展,海量用户生成的图像信息充斥于各大网络平台,图像自动标注技术逐步成为图像检索以及图像理解的关键问题之一。该文主要通过对现有图像自动标注方法的文献进行收集和整理,在比较、分析各种方法相关理论和实现技术的基础上,对图像自动标注方法研究进展进行评述;并归纳了各种方法的优势与不足。得出结论:图像自动标注方法和图像处理技术仍然需要从机器学习方面进一步的研究与改进,且可以从图像信息的标注拓展到视频信息的标注。〔关键词〕图像信息;图像自动标注;图像检索;多示例;多分类;半监督模型DOI:10.3969/j.issn.1008-0821.2016.03.024〔中图分类号〕G25436〔文献标识码〕A〔文章编号〕1008-0821(2016)03-0144-07〔Abstract〕WiththeprogressivedevelopmentofWeb20,massiveuser-generatedimageinforma-tionfilledineverynetworkplatform,automaticimageannotationtechnologygraduallybecomeoneofkeyissuesoftheimageretrievalandimageunderstanding.Inthispaper,throughcollectingandorganizingdocumentsoftheexistingautomaticimageannotationmethodtounderstandthetheoryandanalysisofthevariousmethods,Onthisbasis,thestatusofAutomaticTaggingimagesarereviewed,andcomparativeanalysisoftheadvantagesofeachmethodandinsufficient.Theconclusionis:automaticimageannotationmethodandimageprocessingtechnologystillneedsfurtherresearchandimprovementfromtheactivelearning,andcanexpandtheimageinformationfromthelabeltolabelvideoinformation.〔Keywords〕imageinformation;automaticimageannotation;inageretrieval;multi-category;semi-supervisedmodel近年来,随着信息技术的高速发展以及摄像机、手机等图像采集设备的普及,图像信息充斥在世界的每一个角落,用其清晰、简单的方式描述着日常生活的方方面面。比如,用图像描述情感(朋友圈的图像信息),家庭影集的管理,医学图像检索,人脸识别及网络购物、旅游评论等。据微信平台统计,仅微信朋友圈每日的图像信息都超过一个亿。图像信息给日常生活带来方便的同时,也提出了巨大的挑战——在浩瀚的图像海洋中,怎样检索到用户需要的信息;怎样理解大量用户生成的图像内容的情感信息等问题吸引了很多研究者的思考。为了解决这些问题,图像自动标注技术应运而生,并逐步发展成为图像检索以及图像理解的关键问题之一。龙源期刊网图像自动标注是指针对图像的视觉内容,通过机器学习的方法自动给图像添加反应其内容的文本特征信息的过程。其基本思想是:利用已标注图像集或其他可获得的信息,自动学习语义概念空间与视觉特征空间的潜在关联或者映射关系,给未知图像添加文本关键词。经过图像自动标注技术的处理,图像信息问题可以转化为技术已经相对较成熟的文本信息处理问题。图像自动标注技术的运用使得用户可以更加容易地获得海量网络图像,有效地组织、查询和浏览大规模图像。这样,网络上数以万计的图像信息就可以被很好的利用和分析。随着Twitter,Facebook,微博等社交平台上的图片信息呈指数增长,图像自动标注技术逐渐成为图像分析、应用领域的关键技术之一,受到越来越多的国内外研究人员的关注。为了更好的了解图像自动标注方法的研究现状,本文对现有图像自动标注方法的文献进行收集和整理,在了解相关理论和分析的基础上,对图像自动标注问题研究现状进行评述;在此基础上对各种图像标注的方法进行了比较。1基于分类思想的图像标注方法随着互联网的普及以及多媒体技术的快速发展,海量的图像信息因为其方便、简洁、快速的特点充斥于各大网络平台。为了更好的处理图像信息,图像标注技术受到了国内外研究者的关注,并逐渐发展成为图像、图形领域的热点问题。传统的图像标注是人工完成的,对图像的理解与标注相对准确,但是在大数据环境下的图像标注中,人工标注工作量巨大,并且容易受到主观经验的影响,对同一幅图像的标注不一致。于是,有学者利用计算机技术实现图像的自动标注。图像自动标注技术从一开始就得到很多研究者的关注,研究人员提出了各种图像自动标注模型。其中很多模型经过不断地修改与改进,都能达到相对较高的标注精度。早期,研究人员将语言学习领域的方法引入图像标注,通过理解高层语义,将图像特征翻译为对应的文本关键词,这样就实现了从图像到文本的转化。要想将图像翻译为文本,就需要寻找图像的构成单元。所以研究人员首先将图像进行分割,然后再统计文本与关键词之间的共生关系,实现图像标注。Mori等人在1999年提出了共生模型(Co-occurrenceModel)[1],从此越来越多的研究人员开始关注图像自动标注领域。共生模型的基本思想是先将图像划分成规则的区域,对分割的图像区域进行分类,然后统计图像区域与关键词的共生概率,用共生概率大的关键词标注图像。此后,Duygulu等人提出了翻译模型(TranslationModal,简称TM)[2],利用传统的语言统计翻译模型将语义概念翻译为由图像区域聚类产生的blobs。该模型也需要分割图像并对图像区域进行聚类。Jeon等人基于图像分割提出了跨媒体相关模型(Cross-MediaRelevanceModel,CMRM)[3],主要是以底层特征(例如颜色,形状)对图像区域进行聚类。图像区域本身与底层特征没有密切联系,所以图像标注的准确率不高。龙源期刊网早期的这些方法都是通过图像分割、区域分类和统计共生概率的方法进行图像自动标注。这些方法比较简单,高层语义关键词与图像底层视觉特征之间没有一一对应。早期的方法虽然对于图像标注的正确率不高,但是建立图像和语义概念的统计概率模型,开启了图像自动标注的研究,吸引了许多学者的关注,为后续图像自动标注方法提供了参考。11相关概念基于分类的图像标注模型是一种有监督的机器学习方法。分类器训练过程会不断地通过反馈信息调整分类器,使得分类器达到某个精度。分类模型的基本思想是:先对图像进行分割,过滤噪声和过分割部分,把每一个语义概念当作一个类别,对分割后的图像进行分类。图像的自动标注实际上可以看作图像分类问题来处理。图像分类不同于传统的分类问题,每幅图像由多个分割区域组成、同时属于多个语义类别,所以必须用含有该幅图像语义的多个特征词标注。比如,一幅图像中有飞机、老虎、草坪等信息,这幅图像就同时属于这几个语义类别,图像的标注关键词就为飞机、老虎、草坪。分割区域图像分类结束,图像自动标注问题也就解决了。这种图像自动标注方法的重点在分类,分类器的好坏直接影响着图像标注的结果,其代表方法有SVM方法、贝叶斯方法、k-近邻方法、决策树方法等。提高分类器的精度,图像标注的准确性就会提高。从基于分类的图像自动标注基本思想可知,对一幅图像进行自动标注,主要分为两个阶段:标注模型训练阶段(用大量的已分类图像训练分类器)和图像标注阶段。如图1所示。12经典分类标注方法121多示例多标记标注一幅图像由多个区域组成,不同的区域对应不同的语义关键字。比如一幅图像中有蓝天、白云、草坪,马等语义,其中的任何一个语义只是存在于图像中的某个区域,并不是图的全局都包含这些语义。所以全局特征不能很好的表示图像的高层语义。多示例学习问题被引入解决图像标注的有歧义问题。Dietterich[4]等人首先用多示例学习模型来研究药物活性问题,通过训练正包和反包生成模型,对未知图像包进行标注。在此多示例图像标注研究的基础上,YangC等人[5]提出了多示例学习领域经典的多样性密度(DiverseDensity)算法来解决标注问题。算法的基本思想是[5],如果特征空间中某点最能表征某个给定关键词的语义,那么正包中应该至少存在一个示例靠近该点,而反包中的所有示例应该远离该点。因此该点周围应当密集分布属于多个不同正包的示例,同时远离所有反包中的示例。特征空间中如果某点附近出现来自于不同正包中的示例越多,反包中的示例离得越远,则该点表征了给定关键词语义的概率就越大。用多样性密度来度量这种概率,具有最大概率的点即为要寻找的目标点。龙源期刊网一般来说,一幅图像由多个示例组成;同时,一幅图像也属于多个语义关键词,这样图像标注问题就属于多标记问题。TangJ,CusinoC等人[6-7]用多标记学习问题的思路解决图像标注问题,在多标记学习过程中,先将多标记学习问题转化为多个单标记学习问题,提出了基于支持向量机的自动图像标注算法。多示例多标记的图像标注方法,只是提供了图像底层特征与高层语义之间的更好的对应的新思路,对于提取出来的特征向量仍然需要训练分类模型进行分类。122多分类标注为了进一步提高图像标注的准确率,很多研究者提出了多分类模型。Carnerio提出了一种有监督的多分类标注方法(SupervisedMulticlassLabeling,简称SML)[8],这种方法将每个关键词看作是一个类,通过机器学习中的多示例学习方法来为每个类生成对应的条件密度函数,并将训练图像看作是与它相关的标注关键词所对应的条件密度函数的一个高斯混合模型。路晶,金奕江等人[9]提出了使用基于SVM的否定概率和法的图像标注的方法,此标注方法的基本思想是:先建立小规模图像库为训练集,库中每个图像标有单一的语义标签,再利用其底层特征,以SVM为子分类器,“否定概率和”法为合成方法构建基于成对藕合方式(PWC)的多类分类器,并对未标注的图像进行分类,结果以N维标注向量表示。臧淼[10]等人提出了Bayes多分类模型,将图像标注看做多分类问题,然后选择条件概率密度高的作为图像标注词。吴伟等人[11]改进了支持向量机多分类模型,其中把直方图交叉距离作为核函数,传统支持向量机的输出值变换为样本到超平面的距离,选择图像特征中冗余较小的视觉特征,建立分类器,用距离大小来判断类别。123其它分类方法除了以上提到的方法,还有很多分类模型被引入到了图像自动标注领域,如基于聚类、决策树、K-means、贝叶斯模型等。Wanglei等人[12]提出采用基于子空间的聚类算法,用K-means算法生成blob-token,并通过统计token和key-word之间关联,建立模型,实现图像的标注。Yeung等人[13]则通过利用相关反馈技术构造一个语义模板,把视觉特征和高级语义概念相关联,用于图像的标注。LiWei等人[14]用分类的方法在visualterms和keyword之间建立关联,以此构建分类器,将分类器用于后续图像的标注。以上这几种聚类方法,通常都是基于视觉特征,将具有视觉特征的区域划分为同一类别,只要视觉特征相同就可以归为一类,不管其语义特征是否相同,都用相同的关键字,所以这种分类方法的图像标注的准确率不是特别高。很多研究者提出了基于语义的聚类来提高图像标注的准确性。张元清,包骏杰等人[15]从语义约束的聚类