数字视频技术课程论文专业:电子信息工程2班姓名:学号:基于MEPG-2标准数字视频压缩的关键技术一、概述随着计算机技术的不断发展,视频、音频的数字化已经成为广播电视技术发展的方向,但是由于视频数字化的比特数的明显增加给视频信号传输和处理带来了困难,由此产生了视频压缩技术,该技术可以解决这个问题;同时数字压缩技术已经成为非线性编辑设备关键技术之一。MPEG-2是一种常见的数字视频压缩格式,是MPEG工作组于1994年发布的视频和音频压缩国际标准。MPEG-2通常用来为广播信号提供视频和音频编码,包括卫星电视、有线电视等。MPEG-2经过少量修改后,也成为DVD产品的核心技术。本文我们将分析探讨基于MEPG-2标准数字视频压缩的关键技术。二、数字视频压缩2.1数字视频数字视频就是以数字形式记录的视频,和模拟视频相对的。数字视频有不同的产生方式,存储方式和播出方式。比如通过数字摄像机直接产生数字视频信号,存储在数字带,P2卡,蓝光盘或者磁盘上,从而得到不同格式的数字视频。然后通过PC,特定的播放器等播放出来。为了存储视觉信息,模拟视频信号的山峰和山谷必须通过模拟/数字(A/D)转换器来转变为数字的“0”或“1”。这个转变过程就是我们所说的视频捕捉(或采集过程)。如果要在电视机上观看数字视频,则需要一个从数字到模拟的转换器将二进制信息解码成模拟信号,才能进行播放。模拟视频的数字化包括不少技术问题,如电视信号具有不同的制式而且采用复合的YUV信号方式,而计算机工作在RGB空间;电视机是隔行扫描,计算机显示器大多逐行扫描;电视图像的分辨率与显示器的分辨率也不尽相同等等。因此,模拟视频的数字化主要包括色彩空间的转换、光栅扫描的转换以及分辨率的统一。模拟视频一般采用分量数字化方式,先把复合视频信号中的亮度和色度分离,得到YUV或YIQ分量,然后用三个模/数转换器对三个分量分别进行数字化,最后再转换成RGB空间。2.2压缩说明如果使用数字视频,需要考虑的一个重要因素是文件大小,因为数字视频文件往往会很大,这将占用大量硬盘空间。解决这些问题的方法是压缩—让文件变小。当我们在使用文本文件时,大小问题显得不那么重要,因为这样的文件充满了“空格”,可以大幅度压缩——一个文本文件至少可以压缩90%,压缩率是相当高的(压缩率是指已压缩数据与未压缩数据之比值)。然而其他类型的文件,如MPEG视频或JPEG照片几乎无法压缩,因为它们本身就是用非常紧密的压缩格式制成的。数字视频之所以需要压缩,是因为它原来的形式占用的空间大得惊人。视频经过压缩后,存储时会更方便。数字视频压缩以后并不影响作品的最终视觉效果,因为它只影响人的视觉不能感受到的那部分视频。例如,有数十亿种颜色,但是我们只能辨别大约1024种。因为我们觉察不到一种颜色与其邻近颜色的细微差别,所以也就没必要将每一种颜色都保留下来。还有一个冗余图像的问题—如果在一个60秒的视频作品中每帧图像中都有位于同一位置的同一把椅子,有必要在每帧图像中都保存这把椅子的数据吗?压缩视频的过程实质上就是去掉我们感觉不到的那些东西的数据。标准的数字摄像机的压缩率为5比1,有的格式可使视频的压缩率达到100比1。但过分压缩也不是件好事。因为压缩得越多,丢失的数据就越多。如果丢弃的数据太多,产生的影响就显而易见了。过分压缩的视频会导致无法辨认。压缩视频的时候,可以尝试几种压缩设置。目的是尽可能将数据压缩到最小,当数据丢失到从画面中能够明显看到时,再将压缩率稍微向回调一点儿。这样就可以在文件大小和画面质量之间达到最佳平衡。每个视频作品都各不相同—有些视频经过高度压缩后看上去仍不错,有些却不是,所以通常需要通过试验才能得到最好的效果。三、MPEG-2标准数字视频压缩3.1MPEG-2标准介绍MPEG(MotionPicturesExpertsGroup),译为运动图像专家组,它是在InternationalStandardsOrganization(ISO,国际标准化组织)的召集下,为数字视频和音频制定压缩标准的专家组。该组织最初在1992年制定了MPEG1的标准,应用于激光视盘的节目传播。广播电视行业从MPEG1标准的应用上看到了MPEG技术对于电视行业的意义,于是该组织又在1994年推出了MPEG2压缩标准,建立了全世界范围内视音频服务与应用进行相互操作的可能性。由于MPEG-2的出色性能表现,已能适用于HDTV,使得原打算为HDTV设计的MPEG-3,还没出世就被抛弃了。(MPEG-3要求传输速率在20Mbits/sec-40Mbits/sec间,但这将使画面有轻度扭曲)。除了作为DVD的指定标准外,MPEG-2还可用于为广播,有线电视网,电缆网络以及卫星直播(DirectBroadcastSatellite)提供广播级的数字视频。有三个关键的压缩技术被MPEG-2压缩标准使用,这就是离散余弦变换(DCT)、运动补偿(MotionCompensation)和Huffman编码。DCT降低了图像的空间(Spatial)冗余度,运动补偿降低了图像的时间(Temporal)冗余度,而Huffman编码则降低了图像在信息(Entropy)方面的冗余度。这几种技术的综合应用,使得MPEG的压缩率较高。3.2技术原理MPEG-2图像压缩的原理是利用了图像中的两种特性:空间相关性和时间相关性。一帧图像内的任何一个场景都是由若干像素点构成的,因此一个像素通常与它周围的某些像素在亮度和色度上存在一定的关系,这种关系叫作空间相关性;一个节目中的一个情节常常由若干帧连续图像组成的图像序列构成,一个图像序列中前后帧图像间也存在一定的关系,这种关系叫作时间相关性。这两种相关性使得图像中存在大量的冗余信息。如果我们能将这些冗余信息去除,只保留少量非相关信息进行传输,就可以大大节省传输频带。而接收机利用这些非相关信息,按照一定的解码算法,可以在保证一定的图像质量的前提下恢复原始图像。一个好的压缩编码方案就是能够最大限度地去除图像中的冗余信息。3.3压缩编码码流3.3.1结构分层MPEG-2为更好地表示编码数据,用句法规定了一个层次性的结构。其结构分为六层,自上到下分别是:视频序列层(Sequence),图像组层(GOP:GroupofPicture),图像层(Picture),像条层(Slice),宏块层(MacroBlock)和像块层(Block)。序列指构成某路节目的图像序列,序列起始码后的序列头中包含了图像尺寸,宽高比,图像速率等信息。序列扩展中包含了一些附加数据。为保证能随时进入图像序列,序列头是重复发送的。序列层下是图像组层,一个图像组由相互间有预测和生成关系的一组I、P、B图像构成,但头一帧图像总是I帧。GOP头中包含了时间信息。图像组层下是图像层,分为I、P、B三类。PIC头中包含了图像编码的类型和时间参考信息。图像层下是像条层,一个像条包括一定数量的宏块,其顺序与扫描顺序一致。MP@ML中一个像条必须在同一宏块行内。像条层下是宏块层。MPEG-2中定义了三种宏块结构:4:2:0宏块4:2:2宏块和4:4:4宏块,分别代表构成一个宏块的亮度像块和色差像块的数量关系。4:2:0宏块中包含四个亮度像块,一个Cb色差像块和一个Cr色差像块;4:2:2宏块中包含四个亮度像块,二个Cb色差像块和二个Cr色差像块;4:4:4宏块中包含四个亮度像块,四个Cb色差像块和四个Cr色差像块。这三种宏块结构实际上对应于三种亮度和色度的抽样方式。3.3.2编码方法在进行视频编码前,分量信号R、G、B被变换为亮度信号Y和色差信号Cb、Cr的形式。4:2:2格式中亮度信号的抽样频率为13.5MHz,两个色差信号的抽样频率均为6.75MHz,这样空间的抽样结构中亮度信号为每帧720x576样值,Cb,Cr都为360x576样值,即每行中每隔一个像素对色差信号抽一次样。4:4:4格式中,亮度和色差信号的抽样频率都是13.5MHz,因此空间的抽样结构中亮度和色差信号都为每帧720x576样值。而4:2:0格式中,亮度信号的抽样频率13.5MHz,空间的抽样结构中亮度信号为每帧720x576样值,Cb,Cr都为360x288样值,即每隔一行对两个色差信号抽一次样,每抽样行中每隔一个像素对两个色差信号抽一次样。通过上述分析不难计算出,4:2:0格式中,每四个Y信号的像块空间内的Cb,Cr样值分别构成一个Cb,Cr像块;4:2:2格式中,每四个Y信号的像块空间内的Cb,Cr样值分别构成两个Cb,Cr像块;而4:4:4格式中,每四个Y信号的像块空间内的Cb,Cr样值分别构成四个Cb,Cr像块。相应的宏块结构正是以此基础构成的。宏块层之下是像块层,像块是MPEG-2码流的最底层,是DCT变换的基本单元。MP@ML中一个像块由8x8个抽样值构成,同一像块内的抽样值必须全部是Y信号样值,或全部是Cb信号样值,或全部是Cr信号样值。另外,像块也用于表示8x8个抽样值经DCT变换后所生成的8x8个DCT系数。在帧内编码的情况下,编码图像仅经过DCT,量化器和比特流编码器即生成编码比特流,而不经过预测环处理。DCT直接应用于原始的图像数据。在帧间编码的情况下,原始图像首先与帧存储器中的预测图像进行比较,计算出运动矢量,由此运动矢量和参考帧生成原始图像的预测图像。而后,将原始图像与预测像素差值所生成的差分图像数据进行DCT变换,再经过量化器和比特流编码器生成输出的编码比特流。可见,帧内编码与帧间编码流程的区别在于是否经过预测环的处理。3.4图像类型及码流组成我们已经提到,MPEG-2是基于DCT、运动补偿和Huffman编码算法的,由此,MPEG-2在压缩中使用了帧内压缩和帧间压缩两种方式。为了在编码中实现最大的压缩比,MPEG使用三种类型的图像,即I帧,P帧和B帧。I帧图像采用帧内压缩编码方式,即只利用了单帧图像内的空间相关性,而没有利用时间相关性。I帧主要用于接收机的初始化和信道的获取,以及节目的切换和插入,I帧图像的压缩倍数相对较低。I帧图像是周期性出现在图像序列中的,出现频率可由编码器选择。P帧(Predicated-Frame)根据前面的I帧或P帧进行预测,使用运动补偿算法进行压缩,因而压缩比要比I帧高,数据量平均达到I帧的1/3左右。P帧是对前后的B帧和后继的P帧进行解码的基准帧。P帧本身是有误差的,如果P帧的前一个基准帧也是P帧,就会造成误差传播。B帧(Bidirectinal-Frame)是基于内插重建的帧,它基于前后的两个I、P帧或P、P帧,它使用双向预测,数据量平均可以达到I帧的1/9左右。B帧本身不作为基准,因此可以在提供更高的压缩比的情况下不传播误差。需要指出的是,尽管我们使用帧(Frame)这个词,但是MPEG-2本身没有规定进行数字图像压缩时必须使用帧作为单位,对于隔行的视频图像,可以使用场(Field)作为单位。一个GOP由一串IBP帧组成,起始为I帧。GOP的长度是一个I帧到下一个I帧的间隔,一般用N表示。这个长度是可变的,长GOP可以提供高的压缩比,但是会造成随机存取的延迟(必须等到下一个I帧)和误差的积累(P帧的误差传播)。一般是一秒内有两个I帧,用来作为随机存取的入口。在MPEG2中也没有规定GOP的结构,帧重复方式可以是IP,IB,IBP,IBBP,甚至全部是I帧。基准帧的重复频率一般用M表示,不同的帧重复频率提供不同的输出码率,同时影响存取延迟。3.5关键技术3.5.1离散余弦变换DCTDCT是一种空间变换,在MPEG-2中DCT以8x8的像块为单位进行,生成的是8x8的DCT系数数据块。DCT变换的最大特点是对于一般的图像都能够将像块的能量集中于少数低频DCT系数上,即生成8x8DCT系数块中,仅左上角的少量低频系数数值较大,其余系数的数值很小,这样就可能只编码和传输少数系数而不严重影响图像质量。DCT不能直接对图像产生压缩作用,但对图像的能量具有很好的集中效果,为压缩打下了基础。3.5.2量化量化是针对DCT变换系数进行的,量化过程就是