1视频内容的结构化22背景LargemultimediadatabaseOnlinevideosvideo24hoursBroadcastvideos3视频的特点时间上依赖的图象帧序列流很强的情节发展性但是其制作过程中存在“场景”“分镜头”,且其间存在内容层次,只是在最后节目中消失了4结构化视频的作用建立索引视频表征视频相似度比较便于浏览和检索视频结构化目的:自动分析视频流中蕴涵的这种结构切分有意义的视频段5视频结构化的基本概念书视频章节页场景镜头帧6视频结构化的基本概念视频场景镜头帧基本组成单位独立的图象语义上相关,时间上相近的若干镜头在时间和空间上连续数帧的集合若干镜头或场景的集合7体育视频结构示意图8新闻结构示意图9研究点镜头边界检测(shotboundarydetection)场景聚类(sceneclustering)镜头分类(shotclustering)关键帧提取(Keyframeextraction)镜头边界检测示意图10镜头镜头:摄像机拍下的不间断帧序列,是视频数据流进一步结构化的基础结构层如,在拍摄“飞机起飞”这组镜头时,画面的色彩和纹理等图像特征将保持不变镜头是对视频流进行处理的最小物理单元,而视频帧是视频流的基本单元,镜头包含少许的语义内容由于在同一组镜头中,属于同一组镜头的图像帧之间的特征保持稳定如果相邻图像帧之间的特征发生了明显变化,则认为发生了镜头变化,需要对视频进行切分1111镜头分类示例长镜头(LS):显示场景的全貌中镜头(MS):表现人物的动作,如谈话等短镜头(CU):近距离刻画人物的表情长镜头中镜头短镜头注:一般在电影中镜头常被分为7类,即特长(XLS)、长(LS)、中长(MLS)、中(MS)、中短(MCU)、短(CU)和特短(XCU),12场景场景:语义上相关和时间上相邻的若干镜头组成了一个场景,场景是视频所蕴涵的高层抽象概念和语义表达,如“学校运动会”这个场景可以由“运动员入场”、“运动员比赛”和“观众呐喊”等镜头组成。场景可以用属于这个场景的若干个镜头所对应的关键帧来表示。(为什么不使用文字信息?)13场景聚类示意图Scene1Scene2Scene3Scene414镜头边界检测15视频镜头边缘检测定义Problemdefinition–Shottransitiondetectionisusedtosplitupafilmintobasictemporalunitscalledshots;ashotisaseriesofinterrelatedconsecutivepicturestakencontiguouslybyasinglecameraandrepresentingacontinuousactionintimeandspace.Alsoknownasshotboundarydetectionorscenetransitiondetection.Itisafundamentalstepofautomatedindexingandcontent-basedvideoretrievalorsummarizationapplicationswhichprovideanefficientaccesstohugevideoarchives16镜头变化分类Thisisasuddentransitionfromoneshottoanother,i.e.oneframebelongstothefirstshot,thenextframebelongstothesecondshot.Theyarebealsoknownashardcutsorsimplycuts.Inthiskindoftransitionsthetwoshotsarecombinedusingchromatic,spatialorspatial-chromaticeffectswhichgraduallyreplaceoneshotbyanother.1718TheSchemaofVideoShotDetection19视频镜头边缘检测方法基本思想:对比相邻帧间的特征认为有重大变化的地方是镜头边缘的发生之处Althoughcutdetectionappearstobeasimpletaskforahumanbeing,itisanon-trivialtaskforcomputers.Cutdetectionwouldbeatrivialproblemifeachframeofavideowasenrichedwithadditionalinformationaboutwhenandbywhichcameraitwastaken.Whilemostalgorithmsachievegoodresultswithhardcuts,manyfailwithrecognizingsoftcuts.Hardcutsusuallygotogetherwithsuddenandextensivechangesinthevisualcontentwhilesoftcutsfeatureslowandgradualchanges.2020镜头边界检测常用算法绝对帧间差法图像像素差法图像数值差法颜色直方图法压缩域差法矩不变量法边界跟踪法运动矢量法21绝对帧差法判断相信图像之间特征的绝对差是否大具体实现时,判断两个相信帧差别的方法可以是:计算相邻两个图像中所有像素的色彩亮度之和注意:采样不必均匀,不必25帧/秒作为计算绝对差异的特征可以有很多,不一定是色彩亮度和22图像像素差法(1)影响因素D/A转换的噪音视频对象和镜头运动,焦距的变化及某一时刻是闪变cutwipedissolvefade等特殊效果步骤计算象素变化超过阈值的像素个数将此数目与另一阈值比较,超出则认为是镜头边界2324图像像素差法(2)缺点对镜头的移动敏感对噪声的容错性小改进3*3滤波针对不同的视频流选不同的阈值25图像像素差法(3)将图像分成若干子块区域分别比较例如在图像子块中计算灰度平均值和方差缺点计算量大会产生错误的结果26颜色直方图法相邻帧图象的灰度差别大于某个阈值时认为是镜头的切分点分为16个子块,计算每个子块的颜色直方图舍弃8个最大的差值,以减少对象移动噪声是影响带权重的区域灰度颜色直方图,权值根据视频流内区域变化的可能性设定像素差法,数值差法和颜色直方图法中,颜色直方图法最好地满足了速度和准确度的要求27简单的直方图差0(,')(,)(',)NjdffHfjHfj28带权重的直方图()()()(,').(,').(,').(,')redgreenbluergbdffdffdffdffsss29均值化后的颜色直方图minmin100.(1)0.511(,)(,)eqvNjjwwvIntlwwHfjHfj其中,0(,')(,)(',)NeejdffHfjHfj30直方图求交00(,')(,')min((,),(',))(,')(,')(,)NcolorjNjISffsffHfjHfjsffdffHfj从而31直方图平方差20((,)(',))(,')(,)NjHfjHfjdffHfj20((,)(',))(,')(',)NjHfjHfjdffHfj20((,)(',))(,')max((,),(',))NjHfjHfjdffHfjHfj3233压缩域差法不对图像解压,而是直接用JPEG压缩图像帧的DCT系数作为帧相似度衡量的标准。省去解压步骤,直接从原始视频数据流中提取特征,从而加快检测速度。每个压缩域系数保留了原始图像帧中或图像帧间最重要特征,所以压缩域系数可以有效分析视频数据。矩不变量法图像矩不变量具有比例、旋转和过渡不变性的特点,可以用来进行镜头边缘检测。图像f(x,y)的矩定义为:xyqppqyxfyxm),(矩不变量法也可以从归一化的图像中心矩定义矩不变量:其中xyqprpqyxfyyxxmn),()()(100,/,2/)(10010mmxqpr0001/mmy矩不变量法根据以上定义,使用以下三个矩不变量:02201nn2112022024)(nnn20321212303)3()3(nnnn矩不变量法从相邻图像帧f和f’中提取矩不变特征,计算这些矩不变特征的欧氏距离:其中如果d(f,f’)超过一定阈值,则认为f和f’间出现了镜头转换。},,{3212),(ffffd38边界跟踪法思路:在镜头转换中,距离原来边缘很远的位置会出现新的边缘,而原来的边缘会逐渐消失,因此,镜头转换的判断可以看作是两个图像帧中边缘的比较。39边界跟踪法Zabih,Miller和Mai在边界识别的基础上提出了比较颜色直方图和颜色比例的镜头边缘检测方法。该方法为:把连续帧排列成一行以减少镜头移动造成的影响,然后比较图像中边的个数和位置,同时计算相邻两帧间进入或者离开图像的边所占百分比,百分比最大的是镜头的切点。是否为Dissolve或fade也可以通过百分比的相关值判断。该方法对运动的敏感度不大。边界跟踪法在该算法中,如果用表示帧f和f’中最近边中像素点距离超过阈值r的像素点数目在f中所占百分比,表示帧f’和f中最近边中像素点距离超过阈值r的像素点在f’中所占百分比,则相邻帧f和f’的差为:如果d(f,f’)超过一定阈值,则认为在f和f’处应该进行镜头切割。inpoutp),max(),(outinppffdimd1=rgb2gray(im1);Imd2=rgb2gray(im2);%blackbackgroundimagebw1=edge(imd1,'sobel');bw2=edge(imd2,'sobel');%invertimagetowhitebackgroundibw2=1-bw2;ibw1=1-bw1;s1=size(find(bw1),1);s2=size(find(bw1),1);%dilatese=strel('square',3);dbw1=imdilate(bw1,se);dbw2=imdilate(bw2,se);imIn=dbw1&ibw2;imOut=dbw2&ibw1;ECRIn=size(find(imIn),1)/s2;ECROut=size(find(imOut),1)/s1;ECR=max(ECRIn,ECROut);42运动矢量法镜头缩放运动(zoom/pan)的出现可以用来进行镜头边缘检测。Ueda等通过块匹配得到的运动矢量特征,来检测是否镜头是由于摄像机镜头前后移动引起焦距变化或是摄像机角度转变造成的。Shahrary用基于区域像素差计算得到的运动矢量特征来判断镜头中是否含有大量的相机或者对象运动。由于摄像机运动常被不正确地当作渐变,因而这种方法判断镜头缩放等运动可以达到镜头边缘检测的目的。43小结镜头边缘检测算法的实质:如何找到一种或几种良好的视频图像特征,通过判断相邻图像帧之间的特征是否发生剧烈变化,来完成视频镜头边缘检测任务。定义和选取特征图像视觉特征,结合文字、听觉特征设计算法判断特征变化选取阈值44视频镜头边缘检测方法分类FixedThreshold-Inthisapproach,thescoresarecomparedtoathresholdwhichwassetpreviouslyandifthescoreishigherthanthethresholdacutisdeclared.AdaptiveThreshold-Inthisapproach,thescoresarecomparedtoathresholdwhichconsidersvariousscoresinthevideotoadaptthet