1新闻类视频结构化2主要内容视频新闻内容分析现有新闻类分析系统3结构示意图NewsvideostartEndStory1NonstoryStoryn4新闻类视频结构化——可行性视频结构化应用最广泛也最成功的领域是新闻类视频。新闻节目是一个连续数据流,有新闻开始和新闻结束,并且有时候在新闻中还有广告等内容。不像其他视频节目的结构不是很明显,新闻视频节目中具有明显的结构,使结构化新闻视频数据不仅成为可能,而且也易于判断结构化的结果是否正确。5视频新闻内容分析——时域结构新闻视频的时域结构:它是新闻项的序列新闻项指先是主持人镜头,然后是新闻报道,最后是主持人镜头,接着进行下一个新闻项。开始新闻镜头主持人镜头商业广告主持人镜头天气预报结束6视频新闻内容分析——目的新闻视频分析就是根据这些相对粗糙的类别,将所有镜头进行归类,从而组合场景目前新闻视频分析的目的就是把切分出来的镜头组合成一个个独立的新闻故事,去除在新闻节目流中广告和天气预报等观众不感兴趣的数据流,使人们可以单独去了解独立的新闻事件,而不需要把整个时段的所有新闻节目都看下来7视频新闻内容分析——步骤对视频新闻节目进行分析需要分成如下三步:首先将新闻视频流分割成一个个的镜头单元然后根据事先定义的镜头模型将这些切分出来的各类镜头归类最后把分类后的镜头单元组合成独立的新闻故事8镜头切分——任务、分类镜头切分的任务就是检测镜头边缘,把视频流分割成镜头单元镜头边缘有两大类型:突变和渐变。突变就是简单的镜头切换(cut),而渐变是具有某种特殊效果的逐渐过渡(如fade、dissolve和wipe)。9镜头分类在视频新闻中,主要考虑两种镜头类型:主持人镜头和新闻镜头可以根据主持人在画面上位置来进一步区分不同类型的主持人镜头:一是包含一位主持人的镜头,二是包含两位主持人的镜头新闻镜头就复杂很多,没有固定的结构。因此,可认为那些不能确定为主持人模型的镜头就是新闻镜头镜头切分包含以下两步:首先,定义两类主持人镜头模型;然后设计一种相似度衡量方法,判断某个镜头是否为主持人镜头10主持人镜头模型定义当有一个主持人进行新闻报道时,画面可以分成三个部分:主持人人脸、节目(或电视台)图标和背景画面主持人背景台标114种常见的主持人模型区别的关键在于主持人数目和是否有图标12主持人新闻报道镜头识别主持人新闻报道镜头识别的任务:从新闻视频中分割出得到的镜头中,找出那些属于主持人新闻报道的镜头单元主持人新闻报道镜头的特征:在主持人报道新闻主旨时主持人基本保持不动,只是嘴、头或者肩膀会有小许细微运动,而背景和图标会完全静止。主持人进行新闻报道时,相邻图像帧之间的差别很小。帧与帧之间的变化仅仅是由于主持人微小的身体运动以及随机噪音引起的,所以主持人镜头中相邻两帧的平均差别小于新闻镜头中两帧之间的平均差别13主持人新闻报道镜头识别——步骤先筛选出一些帧间运动变化差别小的镜头,这样的镜头就是可能的主持人报道镜头然后将这些可能的主持人新闻报道镜头与前面定义的四类主持人报道模型进行匹配,如果它们的空间结构基本一致,则认为选择的镜头是主持人新闻报道镜头。如果所选择的可能镜头与所定义的任何一种模型均不匹配,则这个镜头就不是主持人新闻报道镜头14选出可能主持人镜头方法优点:大大减轻了后边进行主持人镜头模型匹配判断的计算量,因为不需要逐一判断每一个分割出的镜头是不是主持人镜头,而只需要在可能的主持人镜头中选出真正的主持人镜头具体步骤:对于分割出来的镜头单元,计算这个镜头中相邻帧的特征平均值和方差。当和满足如下条件时,认为该组镜头为可能的主持人镜头:和1t22t15选出可能主持人镜头方法(续)其中t1和t2是判断阈值。为了使分析过程快速简单,一般在计算中采用基于灰度直方图矩阵的统计量来衡量相邻帧之间的差别对判断出来的这些可能是主持人的镜头,将在下面做进一步分析判断,筛选出真正的主持人镜头16主持人镜头选择判断方法:判断主持人候选镜头中是否有主持人出现。如果有主持人出现,则候选镜头是真正主持人新闻报道镜头,否则不是。17主持人镜头选择判断算法:用图所定义的主持人镜头模型中各区域特征。下面以判断是否为两位主持人新闻报道镜头为例。在图(a)所定义的两位主持人新闻报道模型中,可以知道两位主持人新闻报道镜头中相邻帧间变化主要来源于两位主持人的身体(主要是面部)?因此,计算相邻帧画面中对应的A、B和C这三个区域特征平均值和方差。18主持人镜头选择判断由于头部运动发生在区域A和B中,而区域C没有变化,所以,有0AC和220AC0BC和220BC及0C和20C19主持人镜头选择判断如果某个候选镜头中的帧满足以上条件,就可以断定该镜头属于图(a)所定义的两位主持人新闻报道镜头。同样的方法可以判断候选镜头是否属于上图所定义的其他主持人新闻报道模型。如果某个候选镜头不属于上图所定义的任何主持人新闻报道模型,则这个镜头不是真正的主持人新闻报道镜头。20视频新闻内容分析目的:进行新闻内容分析,其目的是要分析出每个独立的新闻故事。21视频新闻内容分析主要思路:独立新闻故事一般在两种情况下发生:(1)先是主持人报道一个独立新闻故事的简要主旨,然后是非主持人新闻镜头报道故事详细介绍。当这个独立新闻故事报道完毕后,又出现主持人新闻报道镜头,开始了下一条独立新闻故事的报道。对这种情况,只需要把前一个主持人新闻报道镜头到下一个主持人新闻报道镜头之间的视频帧组合到一起,形成一个独立新闻故事介绍就可以了。22视频新闻内容分析(2)镜头中出现主持人画面,可主持人实际上报道了好几条新闻(如简讯)。从语义上来看,这样一个主持人镜头里包含了好几个新闻故事,需要将这几个新闻故事分割开来,因为它们是独立的新闻故事。在这种情况下,每当主持人从一条简讯转到下一条新简讯时,画面中的图标也会相应的变换,因为画面中的图标是当前新闻故事的概要。所以当主持人报道下一条新闻时,前一条新闻的图标消失,出现下一条新闻的概要,可以依据这个特定信息,统计该主持人镜头中图标区域变化情况,把独立的新闻简讯分割开来。23视频新闻内容分析(2续)判断方法:如果在一个主持人新闻报道镜头中,其相邻两帧图标区域部分的特征变化超过某一预定阈值,那么这两帧就是新闻故事的分界点。找出这些分界点,就可以把主持人新闻报道镜头进一步分割成好几个新闻内容独立的主持人镜头。24构造新闻故事目的:将属于同一新闻故事的镜头组合起来,便于数据库的检索。25构造新闻故事新闻故事的一般结构:主持人内容简介镜头+新闻详细报道镜头。根据这个特征,将识别出的每一个主持人新闻报道镜头及它到下一个主持人新闻报道镜头间的所有镜头组合成一个独立的新闻故事26构造新闻故事开始对应主持人新闻报道镜头,而新闻故事对应非主持人出现的详细新闻报道。对于主持人连续报道好几条新闻简讯的情况,构造出的独立新闻故事仅包含主持人新闻报道镜头,而无详细新闻报道镜头。27构造新闻故事对连续的视频新闻构造出独立新闻故事后,就实现了新闻节目在内容上的自动分割。这为视频数据库的检索和管理提供的方便。28构造新闻故事建立新闻故事索引对这些独立的新闻故事提供文本标注用每个独立新闻故事的关键帧来对这个新闻故事进行索引。29构造新闻故事说明:对于新闻节目会出现的其他镜头,如天气预报,也可以通过事先定义天气预报镜头模块来判断,因为天气预报镜头有固定结构。对于广告节目,使用预定义模块的方法很难达到判断识别目的,因为广告节目镜头没有固定模式。?但是,广告节目的背景音与新闻报道背景音存在很大差别(观众可以不看视频数据,只是听与视频流对应的音频流,在大多数情况下就能判断出哪些是广告节目,哪些是新闻报道节目)所以,在新闻节目分析中,可以结合音频信息进行分析。30现有新闻类分析系统CMU的Informedia浙江大学计算机系多媒体计算组的新闻视频分析系统(体育新闻节目结构化)31CMU的Informedia概述:CMU的InformdiaDigitalLibraryProject综合了自然语言理解、图像处理、语音识别和视频压缩等技术,从文本、音频和视频几个角度分析视频,进行结构化。它以新闻广播作为结构化的测试样本,得到了很好的结果。32CMU的Informedia视频新闻的分析处理步骤:(1)将新闻节目转化为MPEG格式,音频和视频作为独立的流分开处理,保留各自的时间标志。(2)应用Sphinx-Ⅱ语音识别系统去识别音频流中的语言,并把识别结果翻译成文本。卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。333435CMU的Informedia视频新闻的分析处理步骤:(3)判断镜头边缘和镜头中的关键帧。其它的视频处理比如人脸的识别和视频字幕识别都可以应用于新闻节目分析。(4)如果有视频字幕,视频字幕和语音识别对应起来,这样就能够把语音识别得到的文本的时间信息附给字幕。36CMU的Informedia视频新闻的分析处理步骤:(5)视频新闻流被分割成独立的新闻故事或段落,可以用于检索或者回放。(6)构造新闻故事的抽象数据,比如新闻总结、镜头的关键帧、新闻主题和新闻梗概。(7)视频新闻中的视频(图像)流和音频流结合在一起成为索引,用户通过InformationClient的界面搜索视频。37CMU的Informedia38CMU的Informedia39404142现有新闻类分析系统浙江大学计算机系多媒体计算组的新闻视频分析系统(针对体育新闻节目结构化)43体育新闻节目结构化为了检验算法的有效性,浙江大学计算机系多媒体计算组设计并实现了一个新闻视频分析系统,该系统是在windows2000环境下用visualC++开发的。该系统包括镜头切分、主持人镜头识别和视频内容分析三大部分。其中视频内容分析出的结果是一个一个内容独立的新闻故事。44体育新闻节目结构化由于针对的是体育新闻,所以系统主要考虑这两种镜头类型:主持人新闻报道镜头体育新闻详细报道镜头45体育新闻节目结构化在新闻节目中,主持人新闻报道画面多是只有一个主持人在介绍,如图。46体育新闻节目结构化这个系统中,采用双阈值法来检测镜头边缘。该模块以用户提交的一个视频段作为输入,输出结果为检测出的所有镜头单元。47体育新闻节目结构化该图显示了提交一段视频体育新闻后的镜头分割结果48体育新闻节目结构化图中上部分是整个视频新闻中相邻帧之间特征变化情况(在这里,帧特征取直方图),图中所画的两条水平线分别是双阈值法中的高阈值和低阈值。从图中上部分显示的视频新闻图像帧特征变化曲线可以看到,镜头边缘检测的关键是阈值的确定,选择恰当的阈值,就能获得令人满意的结果。图中左下部是提交的视频体育新闻图右下部是采用双阈值法分割出来的镜头49体育新闻节目结构化算法:将视频帧画面分成背景和主持人两部分,分别计算各区域中相邻帧的特征变化,选择可能镜头主持人新闻报道镜头。然后按照上面介绍的区域特征匹配和独立新闻故事组合等方法,得到独立的体育新闻故事,完成体育视频新闻流分割任务。50新闻视频分析中集成视频、音频和文本信息上面介绍了两个在对视频新闻进行结构化的系统。其实,视频信息只是多媒体数据中的一部分,现在已经在一些视频新闻分析中,已经开始把图像、音频和语音分析结合起来达到视频新闻结构化的目的。51新闻视频分析中集成视频、音频和文本信息第一,在识别新闻片断时,综合分析图像和音频特征将音频识别结果与视频处理结果融合考虑,精化新闻分析。新闻音频流语音主持人音乐环境噪声寂静音视频流镜头检测关键帧52新闻视频分析中集成视频、音频和文本信息第二,文本是新闻电视中经常包含的一种重要信息源,它是描述新闻电视内容的有用数据,尤其是对高层语义内容分析,如新闻分类和相关故事搜索。怎么获取?广播新闻电视,文本信息可来自视频帧后期制作所形成的视频字幕。在信