2.2视频和动画信息处理基础视频(Video)泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。连续的图像变化每秒超过24帧(frame)画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面;看上去是平滑连续的视觉效果,这样连续的画面叫做视频。视频技术最早是为了电视系统而发展,但现在已经发展为各种不同的格式以利消费者将视频记录下来。网络技术的发达也促使视频的纪录片段以串流媒体的形式存在于因特网之上并可被电脑接收与播放。视频与电影属于不同的技术,后者是利用照相术将动态的影像捕捉为一系列的静态照片。2.2.2视频动画的文件格式1、AVI(AudioVideoInterleaved,音频视频交错))由是Microsoft公司推出的视频音频交错格式(视频和音频交织在一起进行同步播放),是一种桌面系统上的低成本、低分辨率的视频格式。它的一个重要的特点是具有可伸缩性,性能依赖于硬件设备。它的优点是可以跨多个平台使用,缺点是占用空间大。2、MPEG/MPG/DATMPEG也是MotionPictureExpertsGroup的缩写。这类格式包括了MPEG-1,MPEG-2和MPEG-4在内的多种视频格式。MPEG-1相信是大家接触得最多的了,因为其正在被广泛地应用在VCD的制作和一些视频片段下载的网络应用上面,大部分的VCD都是用MPEG1格式压缩的(刻录软件自动将MPEG-1转为.DAT格式),使用MPEG-1的压缩算法,可以把一部120分钟长的电影压缩到1.2GB左右大小。MPEG-2则是应用在DVD的制作;同时在一些HDTV(高清晰电视广播)和一些高要求视频编辑、处理上面也有相当多的应用。使用MPEG-2的压缩算法压缩一部120分钟长的电影可以压缩到5-8GB的大小(MPEG2的图像质量MPEG-1与其无法比拟的)。3.GIF格式GIF属于图形格式,支持透明度,占用存储空间小,但图像质量较差。4、RA/RM/RAMRM,RealNetworks[4]公司所制定的音频/视频压缩规范RealMedia中的一种,RealPlayer能做的就是利用Internet资源对这些符合RealMedia技术规范的音频/视频进行实况转播。在RealMedia规范中主要包括三类文件:RealAudio、RealVideo和RealFlash(RealNetworks公司与Macromedia公司合作推出的新一代高压缩比动画格式)。REALVIDEO(RA、RAM)格式由一开始就是定位就是在视频流应用方面的,也可以说是视频流技术的始创者。它可以在用56KMODEM拨号上网的条件实现不间断的视频播放,可是其图像质量比VCD差些。5、MOVQuickTime原本是Apple公司用于Mac计算机上的一种图像视频处理软件。Quick-Time提供了两种标准图像和数字视频格式,即可以支持静态的PIC和JPG图像格式,动态的基于Indeo压缩法的MOV和基于MPEG压缩法的MPG视频格式。6、ASFASF(AdvancedStreamingformat高级流格式)。ASF是MICROSOFT为了和Realplayer竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式。ASF使用了MPEG4的压缩算法,压缩率和图像的质量都很不错。因为ASF是以一个可以在网上即时观赏的视频“流”格式存在的,所以它的图像质量比VCD差一点点并不出奇,但比同是视频“流”格式的RAM格式要好。7、WMV一种独立于编码方式的在Internet上实时传播多媒体的技术标准,Microsoft公司希望用其取代QuickTime之类的技术标准以及WAV、AVI之类的文件扩展名。WMV的主要优点在于:可扩充的媒体类型、本地或网络回放、可伸缩的媒体类型、流的优先级化、多语言支持、扩展性等。8、RMVB这是一种由RM视频格式升级延伸出的新视频格式,它的先进之处在于RMVB视频格式打破了原先RM格式那种平均压缩采样的方式,在保证平均压缩比的基础上合理利用比特率资源,就是说静止和动作场面少的画面场景采用较低的编码速率,这样可以留出更多的带宽空间,而这些带宽会在出现快速运动的画面场景时被利用。这样在保证了静止画面质量的前提下,大幅地提高了运动图像的画面质量,从而图像质量和文件大小之间就达到了微妙的平衡。另外,相对于DVDrip格式,RMVB视频也是有着较明显的优势,一部大小为700MB左右的DVD影片,如果将其转录成同样视听品质的RMVB格式,其个头最多也就400MB左右。不仅如此,这种视频格式还具有内置字幕和无需外挂插件支持等独特优点。要想播放这种视频格式,可以使用RealOnePlayer2.0或RealPlayer8.0加RealVideo9.0以上版本的解码器形式进行播放。2.3声音信息处理基础2.3.1声音的基本概念1、声音声音是由物体振动产生,正在发声的物体叫声源。声音是粒子运动的结果2、声波声波是物体的振动,发声及传播的物理过程。3、分贝(decibel)dB分贝是以美国发明家亚历山大·格雷厄姆·贝尔命名的,他因发明电话而闻名于世。因为贝尔的单位太粗略而不能充分用来描述我们对声音的感觉,因此前面加了“分”字,代表十分之一。一贝尔等于十分贝。声学领域中,分贝的定义是声源功率与基准声功率比值的对数乘10的数值。用于形容声音的响度。4、频率是表示声音振动快慢的物理量5、声音的属性1、音色音色是音的感觉特性。音调的高低决定于发声体振动的频率,响度的大小决定于发声体振动的振幅,但不同的发声体由于材料、结构不同,发出声音的音色也就不同,这样我们就可以通过音色的不同去分辨不同的发声体音色是声音的特色,根据不同的音色,即使在同一音高和同一声音强度的情况下,也能区分出是不同乐器或人发出的。同样的响度和音调上不同的音色就好比同样饱和度和色相配上不同的明度的感觉一样。2.音调声音频率的高低叫做音调(Pitch),是声音的三个主要的主观属性,即音量(响度)、音调、音色(也称音品)之一。表示人的听觉分辨一个声音的调子高低的程度。音调主要由声音的频率决定,同时也与声音强度有关。对一定强度的纯音,音调随频率的升降而升降;对一定频率的纯音、低频纯音的音调随声强增加而下降,高频纯音的音调却随强度增加而上升。3、音强是指声音信号中主音调的强弱程度,是判别乐音的基础。即音的强弱(响亮)程度.音的基本特性的一种.音的强弱是由发音时发音体振动幅度(简称振幅)的大小决定的,两者成正比关系,振幅越大则音越强,反之则越弱.2.3.2声音的文件存储格式常见的数字音频格式有:WAV格式1.WAV格式,是微软公司开发的一种声音文件格式,也叫波形声音文件,是最早的数字音频格式,被Windows平台及其应用程序广泛支持。WAV格式支持许多压缩算法,支持多种音频位数、采样频率和声道,采用44.1kHz的采样频率,16位量化位数,跟CD一样,对存储空间需求太大不便于交流和传播。MIDI格式2.MIDI是MusicalInstrumentDigitalInterface的缩写,又称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式,规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议,可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件,在MIDI文件中存储的是一些指令。把这些指令发送给声卡,由声卡按照指令将声音合成出来。3、MP3全称是MPEG-1AudioLayer3,它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。换句话说,音频文件(主要是大型文件,比如WAV文件)能够在音质丢失很小的情况下(人耳根本无法察觉这种音质损失)把文件压缩到更小的程度4、WMA格式WMA(WindowsMediaAudio)是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的,其压缩率一般可以达到1:18。此外,WMA还可以通过DRM(DigitalRightsManagement)方案加入防止拷贝,或者加入限制播放时间和播放次数,甚至是播放机器的限制,可有力地防止盗版。5.CD文件CD格式的音频文件扩展名为cda。标准CD格式的采样频率为44.1KHZ标准CD格式也就是44.1K的采样频率,速率88K/秒,16位量化位数,因为CD音轨可以说是近似无损的,因此它的声音基本上是忠于原声的,因此如果你如果是一个音响发烧友的话,CD是你的首选。CD光盘可以在CD唱机中播放,也能用电脑里的各种播放软件来重放。一个CD音频文件是一个*.cda文件,这只是一个索引信息,并不是真正的包含声音信息,所以不论CD音乐的长短,在电脑上看到的“*.cda文件”都是44字节长。2.4多媒体数据压缩技术2.4.1多媒体数据数据冗余的产生冗余是指信息存在的各种性质的多余度。信息量与数据量的关系可以表示为:数据量=信息量+数据冗余数据压缩的目的——尽量减小数据冗余量,尽量保留主要信息量。多媒体数据表示中存在着大量的冗余,多媒体数据压缩技术就是利用多媒体数据的冗余性来减少多媒体数据量的方法。能够对多媒数据进行压缩是因为数据存在大量的冗余,尤其对声音和图象文件,压缩的目的就是尽可能的消除这些冗余。冗余分下列几类:1、空间冗余空间冗余是静态图像中存在的最主要的一种数据冗余。同一景物表面上采样点的颜色之间往往存在着空间连贯性,但是基于离散像素采样来表示物体颜色的方式通常没有利用这种连贯性。例如:图像中有一片连续的区域,其像素为相同的颜色,空间冗余产生。空间冗余例:图象中的“A”是一个规则物体。光的亮度、饱和度及颜色都一样,因此,数据A有很大的冗余。A2.时间冗余时间冗余是序列图像中经常包含的冗余。一组连续的画面之间往往存在着时间和空间的相关性,但是基于离散时间采样来表示运动图像的方式通常没有利用这种连贯性。例如:房间里的两个人在聊天,在这个聊天的过程中,背景(房间和家具)一直是相同的,同时也没有移动,而且是同样的两个人在聊天,只有动作和位置的变化。时间冗余.空间冗余和时间冗余也称统计冗余图像数据存在大量的统计特征的重复,这种重复包括静态单帧图像数据在空间上的冗余和音频、视频数据在时间上的冗余。在动态图像序列中,前后两帧图像之间具有较大的相关性,表现出帧与帧之间的重复,因而存在时间冗余。例:序列图象。F2AF1A3、信息熵冗余也称为编码冗余,是指数据所携带的信息量少于数据本身而反映出来的数据冗余。4、结构冗余有些图像从大面积上或整体上看存在着重复出现的相同或详尽的纹理结构,例如布纹图像和草席图像,被称为结构冗余。5、知识冗余有许多图像的理解与图像所表现内容的基础知识(鲜艳或背景知识)有相当大的相关性,从这种知识出发可以归纳出图像的某种规律性变化,这类冗余称为知识冗余。知识冗余的一个典型例子是对人像的理解,比如,鼻子上方有眼睛,鼻子又在嘴的上方等。5、视觉冗余人类的视觉系统实际上只在一定程度上对图像的变化产生敏感,即图像数据中存在着大量人类视觉觉察不到的细节。事实上,人类视觉系统的一般分辨力为64灰度级,而一般图像量化采用的是256灰度级,这类冗余称为视觉冗余。2.4.2多媒体数据压缩的方法1、无损压缩所谓无损压缩,是利用数据的统计冗余进行压缩,可完全恢复原始数据而不引起任何失真,但压缩率是受到数据统计冗余度的理论限制,一般为2:1到5:1.这类方法广泛用于文本数据,程序和特殊应用场合的图像数据(如指纹图像,医学图像等)的压缩。由于压缩比的限制,仅使用无损压缩是不可能解决图像和数字视频的存储和传输的所有问题.经常使用的无损压缩方法有Shannon-Fano编码,Huffman编码,游程(Run-length)编码,LZW(Lempel-Ziv-Welch)编码和算术