第23卷第2期2010年4月模式识别与人工智能PR&AIV01.23No.2Apr2010图像语义分析与理解综述高隽谢昭张骏吴克伟(合肥工业大学计算机与信息学院合肥230009)摘要语义分析是图像理解中高层认知的重点和难点,存在图像文本之间的语义鸿沟和文本描述多义性两大关键问题.以图像本体的语义化为核心,在归纳图像语义特征及上下文表示的基础上,全面阐述生成法、判别法和句法描述法3种图像语义处理策略.总结语义词汇的客观基准和评价方法.最后指出图像语义理解的发展方向.关键词图像理解,语义鸿沟,语义一致性,语义评价中图法分类号TP391.4ImageSemanticAnalysisandUnderstanding:AReviewGAOJun,XIEZhao,ZHANGJun,WUKe—Wei(SchoolofComputerandInformation,HefeiUniversityofTechnology,Hefei230009)ABSTRACTSemanticanalysisistheimportanceanddifficultyofhish—levelinterpretationinimageunderstanding,inwhichtherearetwokeyissuesoftext—imagesemanticgapandtextdescriptionpolysemy.Concentratingonsemantizationofimagesontology,threesophisticatedmethodologiesareroundlyreviewedasgenerative,discriminativeanddescriptivegrammaronthebasisofconcludingimagessemanticfeaturesandcontextexpression.Theobjectivebenchmarkandevaluationforsemanticvocabularyareinducedaswell.Finally.thesummarizeddirectionsforfurtherresearchesonsemanticsinimageunderstandingarediscussedintensively.KeyWordsImageUnderstanding,SemanticGap,SemanticConsistency,SemanticEvaluation1引言图像理解(ImageUnderstanding,IU)就是对图像的语义解释.它是以图像为对象,知识为核心,研究图像中何位置有何目标(whatiswhere)、目标场景之间的相互关系、图像是何场景以及如何应用场景的一门科学.图像理解输入的是数据,输出的是知识,属于图像研究领域的高层内型卜31.语义(Se・・国家自然科学基金资助项目(No.60875012,60905005)收稿日期:2009—12—21;修回日期:2010一01—27作者简介高隽,男,1963年生,教授,博士生导师,主要研究方向为图像理解、智能信息处理、光电信息处理等.E‘mail:gaojun@hfut.edu.ca.谢昭,男,1980年生,博士,讲师,主要研究方向为计算机视觉、智能信息处理、模式识别.张骏,女,1984年生,博士研究生,主要研究方向为图像理解、认知视觉、机器学习.吴克伟,男,1984年生,博士研究生,主要研究方向为图像理解、人工智能.万方数据模式识别与人工智能23卷mantics)作为知识信息的基本描述载体,能将完整的图像内容转换成可直观理解的类文本语言表达,在图像理解中起着至关重要的作用.图像理解中的语义分析在应用领域的潜力是巨大的.图像中丰富的语义知识可提供较精确的图像搜索引擎(SearchingEngine),生成智能的数字图像相册和虚拟世界中的视觉场景描述.同时,在图像理解本体的研究中,可有效形成“数据.知识”的相互驱动体系,包含有意义的上下文(Context)信息和层状结构(Hierarchical.Structured)信息,能更快速、更准确地识别和检测出场景中的特定目标(如,识别出场景中的“显示器”,根据场景语义知识可自动识别附近的“键盘”).尽管语义分析在图像理解中处于非常重要的位置,但传统的图像分析方法基本上全部回避了语义问题,仅针对纯粹的图像数据进行分析.究其原因主要集中于两方面:1)图像的视觉表达和语义之间很难建立合理关联,描述实体间产生巨大的语义鸿沟(SemanticGap);2)语义本身具有表达的多义性和不确定性(Ambiguity).目前,越来越多的研究已开始关注上述“瓶颈”,并致力于有效模型和方法以实现图像理解中的语义表达.解决图像理解中的语义鸿沟需要建立图像和文本之间的对应关系,解决的思路可大致分为三类.第一条思路侧重于图像本身的研究,通过构建和图像内容相一致的模型或方法,将语义隐式地(Implicit-ly)融人其中,建立“文本-+图像”的有向联系,核心在于如何将语义融于模型和方法中.采用此策略形成的研究成果多集中于生成(Generative)方式和判别(Discriminative)方式中.第二条思路从语义本身的句法(Grammar)表达和结构关系入手,分析其组成及相互关系,通过建立与之类似的图像视觉元素结构表达,将语义描述和分析方法显式地(Explicit—ly)植入包含句法关系的视觉图中,建立“图像_文本”的有向联系.核心在于如何构建符合语义规则的视觉关系图.第三条思路面向应用,以基于内容的图像检索(ImageRetrieval)为核心,增加语义词汇规。模,构建多语义多用户多进程的图像检索查询系统.解决语义本身的多义性问题需要建立合理的描述规范和结构体系.Princeton大学的认知学者和语言学家早在20世纪80年代就研究构建了较合理统一的类树状结构.如今已被视为视觉图像研究领域公认的语义关系参考标准,用于大规模图像数据集的设计和标记中,有效归类统一了多义性词语.此外,一些客观的语义检索评价标准也在积极的探索过程中.本文将对上述两个图像语义理解中的问题进行方法提炼和总结.针对语义鸿沟问题,介绍已有模型和方法的处理策略.还采用较完备的图像语义“标尺”(Benchmark)解决语义的主观多义性.2图像内容的语义分析图像内容描述具有“像素一区域一目标-场景”的层次包含关系,而语义描述的本质就是采用合理的构词方式进行词汇编码(Encoding)和注解(Annota—tion)的过程.这种过程与图像内容的各层描述密切相关,图像像素和区域信息源于中低层数据驱动,根据结构型数据的相似特性对像素(区域)进行“标记”(Labeling),可为高层语义编码提供有效的低层实体对应关系.目标和场景的中层“分类”(Categori—zation)特性也具有明显的编码特性,每一类别均可视为简单的语义描述,为多语义分析的拓展提供较好的原型描述.本节将针对前述的语义鸿沟问题介绍常用的图像语义表示方法和分析策略.2.1语义化的图像特征图像内容的语义分析借鉴文本分析策略.首先需要构建与之相对应的对象,整幅图像(Image)对应整篇文档(Document),而文档中的词汇(Lexicon)也需要对应相应的视觉词汇(VisualWord).视觉词汇的获取一般通过对图像信息的显著性分析提取图像的低层特征,低层特征大多从图像数据获取,包括简单的点线面特征和一些特殊的复杂特征,再由鲁棒的特征表达方式生成合适的视觉词汇,视觉词汇一般具有高重用性和若干不变特性.点特征提取以图像中周围灰度变化剧烈的特征点或图像边界上高曲率的点为检测对象,根据灰度或滤波函数确定区域极值点(如Harris角点Ho等),并拓展至不同掩膜下的尺度空间中(如高斯.拉普拉斯、高斯差分等),分析极值点的稳定特性,得到仿射不变的Harris二阶矩描述符HJ.线特征描述图像中目标区域的外表形状和轮廓特性,这类轮廓线特征以Canny算子等经典边缘检测算法为基础,集中解决边缘曲线的描述、编组以及组合表达等问题.边缘上的双切线点和高曲率点可连接形成有效的边缘链或圆弧,根据聚类策略或某些规则完成线片段编组,形成线特征的视觉词汇哺』』.区域是图像上具有灰度强相关性的像素集合,包含某种相似属性(如灰度值、纹理等),相对于点线特征,面特征有更丰富的结构信息.区域特征以点特征为中心,采用拉普万方数据2期高隽等:图像语义分析与理解综述拉斯尺度下的Harris或Hessian仿射区域描述,对特征尺度上的椭圆仿射区域内的初始点集进行参数迭代估计,根据二阶矩矩阵的特征值测量点邻的仿射形状H,J.另一种策略分析视觉显著区域对象(如直方图、二值分割图等)的熵值统计特性,得到最佳尺度下的最稳定区域,满足视觉词汇的高重用性‘10。11|.鲁棒特征表达对提取的特征进行量化表示.点特征一般仅具有图像坐标.线特征则充分考虑邻域边缘点的上下文形状特性,以边缘上采样点为圆心,在极坐标下计算落入等距等角间隔区域的边缘像素直方图.椭圆形面特征描述主要以尺度不变特征变换(ScaleInvariantFeatureTransform,SIFY)¨。“1为主,SIIT特征对每个高斯窗口区域估计方向直方图,选择峰值作为参考方向基准,计算4x4网格区域内8个方向的梯度直方图,任何区域均可转换为4X4×8=128维特征向量.该特征对图像尺度、旋转具有不变性,对亮度和视角改变也保持一定稳定性.通过对特征向量的聚类,得到最原始的特征词汇,形成的语义化图像特征也称为“码书”(Codebook)¨4】.2.2图像语义的上下文表达图像的语义信息描述主要包含外观位置信息和上下文信息,前者如2.1节所述,可表示成“码书”.上下文信息不是从感兴趣的目标外观中直接产生,而来源于图像邻域及其标签注解,与其他目标的外观位置信息密切相关.当场景中目标外观的可视程度较低时,上下文信息就显得尤为重要.Biederman将场景中不相关目标关系分为5种,即支撑(Support)、插入(Interposition)、概率(Proba-bility)、位置(Position)和大小(Size)¨卜16J.五类关系均包含“知识”,不需要知道目标信息就可确定支撑和插入关系,而后三类关系对应于场景中目标之间的语义交互关系,可缩短语义分析时间并消除目标歧义,通常称为“上下文特征”(ContextFeatures),譬如一些相对复杂的特征描述(如全局Gist特征¨7。18|、语义掩码特征等)融入场景上下文信息,本身就包含语义(关联)信息,是语义分析的基础.如今有很多研究开始挖掘Biederman提出的三类语义关系,可分为语义上下文、空间上下文和尺度上下文㈣.语义上下文表示目标出现在一些场景中,而没有出现在其他场景中的似然性,表示为与其他目标的共生(Co—Occurrence)关系,可采用语义编码方式Ⅲ。211,也可由共生矩阵判断两类目标是否相关陋瑙],此类上下文对应Biederman关系中的“概率”关系.空间上下文表示目标相对于场景中其他目标出现在某个位置上的似然性,对应于“位置”关系.空间上下文隐式地对场景中目标的“共生”进行编码,为场景结构提供更加具体的信息,只需确定很少的目标,就可通过合理的目标空间关系降低目标识别的误差,消除图像中的语,义歧义Ⅲ嗡J.尺度上下文表示目标在场景中可能的相对尺度范围,对应于“大小”关系.尺度上下文需处理目标之间的特定空间和深度关系,可缩小多尺度搜索空间,仅关注目标可能出现的尺度.尺度上下文在二维图像中较为复杂,目前仅用于简单的视觉分析系统中Ⅲ。27].目前大多数上下文方法主要分析图像中的语义上下文和空间上下文.语义上下文可从其他两种上下文中推理获取,与场景中的目标共生相比.尺度和空间上下文的变化范围较大,而共生关系的知识更易获取,处理计算速度更快.融入上下文特征的图像语义形成了全局和局部两种分析策略,即基于场景的上下文分析和基于目标的上下文分析.前者从场景出