Y.H.Tian中科院计算所博士学位论文开题报告基于上下文的多媒体分析和挖掘方法研究(OnContext-BasedMultimediaAnalysisandMiningMethods)田永鸿导师:高文教授黄铁军研究员贺思敏研究员2003年8月Y.H.Tian摘要多媒体数据的爆炸性增长对其描述、组织和检索技术提出了挑战。近年来,基于内容的多媒体检索技术研究得到了长足的进展,但缺乏对多媒体文档语义的深入理解等使其具有明显的局限性。为实现基于语义的多种媒体混合检索,关键问题是如何从多媒体文档中挖掘和提取语义概念。任何语义都必须在一定上下文背景下产生,上下文蕴涵了大量的语义信息,因此我们可以利用上下文分析方法来解决多媒体检索和组织中“语义鸿沟”问题。已有的部分采用上下文分析原理进行多媒体分析方面的研究,包括文本挖掘领域的关键字同现分析、网络CBIR领域中利用网页中图像相关文本来提取图像的上下文语义等。本课题将对基于上下文分析的多媒体挖掘和检索方法进行综合、概括和进一步扩展。研究主要集中在如下几个方面:1)上下文分析方法,包括基于统计建模的上下文模型,基于上下文模型的语义相似度度量方法等。统计模型、Bayes网络和图论将是采用的主要研究手段。2)基于上下文分析的多媒体文档语义分类和聚类方法:本部分将针对具体的应用问题,研究如何应用上下文分析方法进行多媒体语义分类和聚类方法。我们首先研究如何利用结构、内容和上下文信息来进行基于多粒度上下文模型的超文本分类,以此来初步验证上下文分析的有效性;在此基础上,我们重点研究基于上下文分析的图像文档语义分类和聚类算法,将研究融合文本和图像信息的图像文档上下文建模及挖掘方法;昀后,我们将考虑如何将上下文分析方法扩展到包括视音频在内的多媒体文档上去。3)基于用户交互的多媒体库动态上下文和自发语义研究:传统的相关反馈方法基于单用户交互模型,而海量多媒体库下我们需要研究如何建模大量用户的访问对多媒体库中文档语义的影响。我们利用InfluenceModel建模用户与多媒体库的交互,系统地研究基于动态上下文的多媒体文档的自发语义模型,并研究如何在此基础上降低多媒体库用户分析空间并从用户访问历史中挖掘有用知识以改进检索性能。多媒体的挖掘和检索是一个复杂而有一定难度的研究课题,本课题的目标是为进一步深入理解多媒体内容、实现有效的多媒体文档语义检索提供技术基础。关键词多媒体挖掘,多媒体检索,上下文分析,自发语义MultimediaMining,MultimediaRetrieval,Context-BasedAnalysis,EmergentSemanticY.H.Tian目录1选题的目的及意义................................................................................................................41.1Motivation...................................................................................................................41.2研究意义....................................................................................................................41.3研究目标.....................................................................................................................62国内外研究动态....................................................................................................................62.1多媒体语义检索与索引.............................................................................................62.2上下文分析...............................................................................................................102.3总结...........................................................................................................................153研究内容..............................................................................................................................153.1基本设定...................................................................................................................153.2研究内容...................................................................................................................164技术路线和研究方法..........................................................................................................174.1统计上下文建模及基于CSI的学习算法...............................................................174.2基于上下文模型和HMT的多粒度Web站点挖掘...............................................184.3基于结构上下文分析的图像语义挖掘方法...........................................................204.4用户上下文分析和多媒体文档自发语义挖掘.......................................................234.5讨论...........................................................................................................................255论文可能的创新点..............................................................................................................266论文工作进度安排..............................................................................................................266.1已完成的工作...........................................................................................................266.2工作进度安排...........................................................................................................277参考文献..............................................................................................................................27Y.H.Tian1选题的目的及意义1.1Motivation本课题研究的基本出发点是:近年来,基于内容的图像和视频检索技术研究得到了长足的进展,但其存在如下问题:采用基于范例的查询方式(Query-By-Example,QBE):人们往往更习惯于基于关键词的查询(Query-By-Keyword,QBK)方式,如图1所示。缺乏对多媒体文档语义理解:现有的CBIR在处理低层特征和高层语义之间的映射方面存在较大的困难。单一媒体服务:有时用户希望能检索符合自己需要的一切材料,包括图像、网页文档、视频片断等,而现有的基于内容的多媒体检索系统大多数是单独处理一种媒体形式的。图1:Motivation:从QBE到QBKMDBCBMRRequestResultsb)QuerybyKeyword平湖落日MDBCBIRRequestResultsa)QuerybyExample为实现基于关键字或概念的多种媒体混合检索,关键问题是如何从多媒体文档中提取语义概念。上下文分析是实现多媒体语义提取的一种可能有效手段。1.2研究意义本课题将研究面向多媒体语义索引的上下文分析方法,并在包括图形、文本等的图像文档数据集上进行实验验证。因此,除非特别说明,本报告中的多媒体文档都指图像文档,相应的内容检索系统为基于内容的图像检索(Content-BasedImageRetrieval,CBIR)系统。本课题的研究具有如下几方面的意义:1)探索解决图像文档分析和检索中存在的“语义鸿沟”问题,实现基于语义的多媒体检索的可能有效方法现有的CBIR系统都是基于可以直接从图像文档中获得的低层视觉特征,如颜色、纹理、形状、区域等来判断图像之间的相似性,但是这种低层视觉特征往往不能描述图像文档的高层语义。而另一方面,人们检索图像文档、判断图像文档之间的相似性并非仅仅建立在图像的视觉特征相似性的基础上,而更多的是建立在图像语义(图像所描述的对象、事件以及表达的情感等含义或用户对图像的理解)的基础上。这种用户对图像的语义理解和CBIR系统无法真正提供的基于语义的图像检索之间的差距,成为语义鸿沟(SemanticGap)[Gudivada,1995]。事实上,研究趋势表明,因此基于内容的多媒体检索的研究者正在把更多的精力投入到多媒体文档的高层语义提取上去。对于传统CBIR中存在的语义鸿沟问题,一些研究者采用相关反馈方法来提高CBIR的检索精度[Chang,1998],[Ciocca,1999];另外的研究者研究基于语义的图像检索系统,包括BlobWorld[Carson,1999],iFind[HJZhang,2000]等。这些方法都要面对如何获取高层语义的难Y.H.Tian题。目前由于对象识别、高层语义提取、视觉特征与高层语义映射等方面的技术困难,真正的语义图像检索系统还远远没有达到支持真正的语义检索要求。相关反馈方法虽然可以一定程度改善检索性能,但其效果有限。因此,我们必须寻求新的方法来辅助CBIR以便更有效地进行图像文档的检索。上下文分析是辅助CBIR系统来有效解决语义鸿沟问题的一种可能手段。由于上下文蕴涵了大量的语义信息,上下文分析一方面将低层特征和高层语义相结合来提取图像基本语义,同