图像场景分类与视频场景聚类研究综述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

01234场景聚类与分类综述作者:小六爷01234Outline3.总结2.图像场景分类1.视频场景聚类012341012341.视频场景•1.问题的提出如果你想看《新宿事件》中某一特殊情节(日本黑帮聚会),如果你想看足球比赛中的进球,……=》如何有效地管理和处理大量视频数.(摘要,检索,点播)01234视频场景2.问题的分析视频浏览可以在帧,镜头的层次上进行,也可以在场景的层次上进行,而后者则是更高水平意义上的视频浏览,因为它是对视频内容进行更加压缩和概括基础上的浏览。(例如新闻条目,电影故事单元)01234•3.解决办法视频的结构化分析为了在场景层次上对视频浏览,首先要把视频分割为镜头,并用关键桢表示镜头,然后在镜头的基础上将相似的镜头聚类构成场景,最后提取基于场景的关键帧,即可得到浏览用的视频帧。(一个视频示例)012341.1视频的结构化分析•图视频Video场景Scene镜头Shot关键帧Keyframe镜头边界检测关键帧提取空域特征(颜色、纹理、形状)镜头聚类/镜头分类时域特征01234KeyFrame:能突出地表示镜头内容的帧。Shot:摄像机一次连续拍摄所得的帧序列Scene:一组语义相关的镜头集合,针对的是同一环境下的同一批对象,(拍摄的角度和技法可能不一样),它是一个有意义的故事单元。(片段)Video:完整视频节目,由一系列场景组成的一大段视频。(文档:词,句,段落,文章)视频的构成01234视频场景的定义•场景概念不统一•是指语义上相关时间上相近的一组镜头集合。•韦伯字典底层上描述两类•是视频所蕴含的高层抽象概念和语义的表达,相对于帧,镜头等低层内容。表达了一个完整的符合人们思维的语义单元。比如《美丽心灵》Nash在酒吧里发生的一系列事件;奥巴马出访中国(可能包括机场迎接,人民大会堂接见,参加晚宴等).012341.2视频结构化处理视频重构场景镜头聚类关键桢提取镜头分割01234镜头分割一:突变表现为一个镜头瞬间直接切换到另一个镜头.比较成熟的方法方法:基于像素域的颜色柱状图法,DCT域的DC系数法。突变检测比较容易,检测方法比较成熟。01234渐变镜头检测二:渐变(如淡入、淡出,溶解等),表现为镜头之间的不明显的过渡过程,因此识别难度大.目前已经提出的渐变镜头检测方法:双阈值比较法,基于聚类的方法,基于数学模型的方法,基于小波变换的方法等。缺点:只局限于简单的渐变检测01234关键桢提取关键桢提取:根据镜头内容的复杂程度,选择一帧或多帧图像来表示该镜头,关键桢提取的好坏对视频内容的分析起决定性作用,因此是一个重要的研究内容。目前常用方法:基于镜头边界提取关键帧,基于图像信息提取关键桢,基于镜头活动性提取关键帧,基于聚类提取关键桢方法等。01234场景边界检测结构特征明显的视频:新闻,体育视频,访谈等一:基于规则的方法.借助相关的领域知识或结构知识以及音视频文本信息获得场景或故事单元,比如新闻节目的每一个新闻条目就是一个故事单元,在内容上描述相对独立的事件;但是该方法推广性能比较差;二:结合规则的基于多特征融合的统计方法。01234场景聚类•非结构化视频:电影,动画,该类视频没有明显的结构特征,故事单元的提取困难得多。•研究方法:镜头聚类镜头聚类:把属于同一个场景的镜头结合起来,形成场景,用来描述具有语义意义的活动01234研究现状场景是对视频高层语义的抽象,因此场景的形成需要对视频更多的语义理解。目前使用镜头聚类的方法是根据一些低层特征得到的,但是低层特征相似距离小并不一定表示镜头本身的内容相似,目前自动完成精确场景抽象仍具有相当的难度。目前已有算法只能对某类特定场景提取效果较好,距离达到实际应用的要求还远得很01234研究方法现状目前比较有名的方法有Princeton的B.L.Yeo和M.M.Young提出时间约束的聚类方法对镜头代表帧聚类,并根据聚类结果的时间特性探测对话、动作和一般故事单元。该方法存在的问题是固定的时间约束带来人为的误差,另外聚类时不能自动确定合适的阈值。(层次聚类)01234Hnajalic也提出一种类似的基于镜头头动态关联的故事单元的提取方法,也同样存在上述问题。其它的还有TOC(TableofContent)(时间自适应镜头视觉相似性分组,自动确定聚类阈值),SSG(shotsimilaritygraph)等方法01234示例:美丽心灵和终结者II使用SSG(镜头相似图)方法进行场景分割的结果012341.3研究者介绍•Bigguy:Zeeshan(CV-lab@UCF)与BedeLiu及其学生M.M.Yeong等(PrincetonUniversity):电影类,采访类视频分割,视频监控等Hanjalic(TUDelft-代尔夫特理工大学,欧洲麻省)研究内容涉及镜头检测,视频语义内容分析等。NgoChong-wah(香港城市大学):多媒体数据挖掘,视频内容挖掘。01234代表论文•电影类视频代表文章:1.AGraphTheoryforscenedetectioninproducedvideo-sigir03-Zeeshan2.OnClusteringandRetrievalofVideoShotsthroughTemporalSlicesAnalysis.C.W.Ngo.TMM023.Automatedhigh-levelmoviesegmentationforadvancedvideo-retrievalsystems.Hanjalic.TCSVT994.ScenedetectioninHollywoodmoviesandTVshows.—CVPR2003012341.4难点与热点视频语义理解标准的统一渐变镜头的检测:现有方法不能识别更多的复杂的渐变镜头。低层特征与高层语义之间的鸿沟:底层特征相似距离小并不一定表示镜头本身的内容相似.所以基于语义相似度量是下一步研究重点.视频内容摘要:关键桢提取算法应用:视频内容检索,视频视频,摘要点播01234相关会议、刊物•会议–ACMMultimedia–SPIEconf.VideocommunicationandImageProcessing(VCIP)–IEEEconf.MultimediaandExpo(ICME)–InternationalConferenceonImageandVideoRetrieval(CIVR)–CVPR,ICCV–IEEEconf.ImageProcessing(ICIP)•刊物–IEEETrans.CircuitsandSystemsforVideoTechnology–IEEETrans.onMultimedia–IEEETrans.ImageProcessing–TRECVIDWorkshop–ComputerVisionandImageUnderstanding01234201234图像场景1.问题提出茫茫的图像海洋中,如何寻找你要的图片?为实现快速浏览和检索图像,我们必须对图像进行有效管理:如分类标注等.(如想寻找鲨鱼的图片,不需要在森林类图片中找).012342.分类依据在人们对图像理解的众多语义内容中(5要素)图像的场景包含了人们对一副图像的总体认识而且提供了图像中对象出现的上下文环境,为进一步识别出图像中的对象提供了基础。01234图像场景定义01234图像场景所谓图像场景,我们理解为图像环境属性.目前研究针对cleanenviromentalscene。场景语义类别的定义常常是根据具体需要预先设定的.如图像数据库中大量图像粗分为室外/室内,城市/乡村,海洋,森林,海岸,草原,河流,天空等等01234研究方法•1.图像场景分类分为两个步骤:一:从图像中获得表现图像场景的图像特征;二:利用获得的特征设计语义分类器。根据是否建立起图像低层特征与高层语义之间的对应关系,目前的图像场景分类方法又分为两种:01234研究现状•一:利用图像低层特征建模该方法主要通过1.对图像的低层全局或区域的颜色纹理形状等特征的提取;2.结合有监督学习方法如SVM实现对某些类别的场景的分类。(如户内/户外,城市/乡村)。01234•此类方法已经在图像和视频检索领域研究了多年.该方法直接根据图像的低层特征区分图像,而不用识别图像中的目标,适合差别明显的场景分类。•对于复杂的图像场景分类效果差,推广性差,且不能克服低层特征与高层语义之间的鸿沟。01234研究现状•二:利用图像中层语义建模构建中间层主题—通过检测选取图像中包含的语义对象/兴趣区域块来帮助描述图像场景。1.通过图像分割自动或手动标记出分割区域的类别2.对每个区域/对象类别构建训练样本3.使用机器学习方法实现对对象的分类。该方法代表人物有FanJianping和LuoJiebo,FeifeiLi。01234•代表文章:Abayesianhierarchicalmodelforlearningnaturalscenecategories.(CVPR05)•利用图像的中层语义建模是目前图像场景分类的研究热点和主流。•它可以有效弥补复杂场景和高层语义之间的鸿沟01234主要研究者•A.Oliva&A.Torralba.(MIT)•CSAILaboratory(计算机科学与人工智能)•Interest:sceneandobjectrecognition•Publication:DensescenealignmentusingSIFTFlowforobjectrecognition(CVPR09)Recognizingindoorscenes(CVPR09)LabelMevideo:buildingavideodatabasewithhumanannotations(CVPR09)SIFTflow:densecorrespondenceacrossdifferentscenes(Project,ECCV08)Smallcodesandlargedatabasesforrecognition(CVPR09)01234主要研究者•Fei-FeiLi(Princeton)•PrincetonVisionLab•Interest:对象识别,人体运动识别,materialrecognition•,场景分类,综合的场景理解•Publication:TowardsTotalSceneUnderstanding:Classification,AnnotationandSegmentationinanAutomaticFramework(CVPR09)SimultaneousImageClassificationandAnnotation(cvpr09)ImageNet:ALarge-ScaleHierarchicalImageDatabase(cvpr09)What,whereandwho?Classifyingeventsbyscenesand

1 / 41
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功