第五节数字视频压缩基础知识当今社会生活中,图像信息和通信起着非常重要的作用。数字视频压缩的实际应用是近10年来超大规模集成电路(VLSI)、比较好的压缩算法、视觉生理研究和标准等方面显著技术发展的结果。数字视频压缩广泛应用于视频传输、计算机多媒体和数值存储等方面。一、数字视频压缩的概念(一)数字视频压缩1.数字视频压缩的优势数字视频有许多优点,但是由于其占用带宽太宽而限制了它的实际应用。数字视频压缩技术的发展,推动了数字视频的实际应用。现以PAL制彩电的卫星传输为例说明压缩的作用和意义。我国PLA制彩电的视频带宽Fc=6.0MHz。根据奈斯特定理,取样频率Fs2Fc.CCIR601建议书规定:亮度信号的取样频率为13.5MHz,色度信号的取样频率为6.75MHz,每个取样8bit,则传输PAL制彩电所需要的传输速率为13.5MHz×8bit+6.75MHz×8bit=216MB/s(2-28)这样高的传输频率,采用2PSK调制,所需传输带宽大于200MHz,即使采用4PSK,所需传输带宽也要100MHz以上。在现存的传输媒介中,要占用这样宽的带宽来传送视频不仅困难,同时也是不经济的。使用数字视频压缩技术,可以做到把216MB/s的速率压缩到8MB/s左右,而解压缩后的质量可以达到广播级。这样,在现行传输l路模拟电视信号的1个36MHz卫星转发器中,可以传输46路广播级压缩后的电视信号。2.数字视频压缩的过程压缩基本上是这样一个过程:1个图像序列中前后帧图像之间存在着一定的相关性,这种相关性使得图像中存在大量的冗余信息。一般就利用图像之间的相关性来减少图像或图像组的内容信息,只保留少量非相关信息进行传输,接收机就利用这些非相关信息,按照一定的解码算法,可以在保证一定图像质量的前提下尽可能重现原始图像。一般地,数字视频压缩是从分量视频表达开始的,此时信号是以1个亮度分量、2个色度分量来表达的。最广为接受的数字分量视频格式是CCIR601,该建议使用了共结点模型的4:2:2采样结构。所谓共结点,是指每个彩色像素点由3个采样来描述:1个亮度采样、2个色差形成的色度采样,因为这3个采样在时间上是重合的,所以称为共结点。在525行的系统中,每帧有483个有效行,每行有720个像素点;在625行的系统中,每帧有576个有效行。通过色度、亮度采样的结合,在不损害图像质量的同时,减少所需带宽得以实现。4:2:2中亮度信号的采样频率实际上是13.5MHz,色差信号Cb.Cr的采样频率刚好是亮度采样频率的一半,6.75MHz。因为625/50系统行频和525/60系统行频的最小公倍数是2.25MHz,所以将亮度信号和色差信号的取样频率数值取为2.25MHz的整数倍。信号的主要部分是有一定可预知性的。一个极端的例子是正弦波信号,它有高度的可预知性,因为每个周期都是相同的,且只有1个频率,这样就不需占用带宽:另一个极端的例子是,噪声信号完全不可预测。当然,实际上所有的信号都介于这两者之间。压缩技术总的来说就是要识别并去除这些冗余,从而减少数据量和所需带宽。(二)CCIR601号建议自1948年提出视频数字化的概念后,经过40年的探索,国际无线电咨询委员会(CCIR-ConsultativeCommitteeoflnternationalRadio)于1982年提出了电视演播室数字编码的国际标准CCIR601号建议,确定以亮度分量Y和两个色差分量R-Y.B-Y为基础进行编码,以作为电视演播室数字编码的国际标准。国际无线电咨询委员会成立于1927年,是国际电信联盟(ITU)的常设机构之一,其主要职责是研究无线电通信和技术业务问题,并对这类问题提出建议书。这些建议书实际上就是标推。1993年,该委员会与国际频率登记委员会(IFRB)合并,成为先进国际电信联盟(ITU)无线电通信部门,简称ITU-R。1.CCIR601号建议的3个规定。601号建议对彩色电视信号的编码方式、取样频率、取样结构都作了明确的规定。(1)规定彩色电视信号采用分量编码。所谓分量编码,就是彩色全电视信号在转换成数字形式之前,先被分离成亮度信号和色差信号,然后对它们分别进行编码。分量信号(Y、B-Y、R-Y)被分别编码后,再合成数字信号。(2)规定取样频率与取样结构。在4:2:2等级的编码中,规定亮度信号和色差信号的取样频率分别为13.5MHz和6.75MHz,取样结构为正交结构,即按行、场、帧重复,每行中R-Y积B-Y的取样与奇次(I,3,5…)Y的取样同位置,即取样结构是固定的,而取样点在电视屏幕上的相对位置不变。(3)规定编码方式。对亮度信号和2个色差信号进行线性PCM编码,每个取样点取8bit量化。同时,规定在数字编码时,不使用A/D转换的整个动态范围,只给亮度信号分配220个量化级,黑电平对应于量化级16,白电平对应于量化级235。为每个色差信号分配224个量化级,色差信号的零电平对应于量化级128。2.CCIR601号的初始建议(1)亮度抽样频率为525/60和625/50三大制式行频公倍数的2.25MHz的6倍,即Y、R-Y、B-Y三分量的抽样频率分别为13.5、6.75、6.75MHz。现行电视制式亮度信号的最大带宽是6MHz,13.5MHz2×6MHz=12MHz,满足奈奎斯特定理(抽样频率至少等于视频带宽的2倍)。考虑到抽样的样点结构应满足正交结构的要求,2个色差信号的抽样频率均为亮度信号抽样频率的一半。(2)抽样后采用线性量化,每个样点的量化比特数用于演播室为10bit,用于传输为8bit。(3)建议2种制式有效行内的取样点数亮度信号取720个,2个色度信号各取360个,这样就统一了数字分量编码标准,使3种不同的制式便于转换和统一。所以,有效行Y、R-Y、B-Y三分量样点之间的比例为4:2:2(720:360:360)。3.CCIR601号的补充建议1983年召开的国际无线电咨询委员会上又作了三点补充:(1)明确规定编码信号是经过预校正的Y、R-Y、B-Y信号。(2)相应于量化级0和255的码字专用于同步,1~244的量化级用于视频信号。(3)进一步明确了模拟与数字行的对应关系,并规定了从数字有效行末尾至基准时间样点的间隔,对525/60和625/50两种制式分别为16个和12个样点。不论625行/50场或525行/60场,其数字有效行的亮度样点数均为720,色差信号的样点数均为360,以便于制式转换。若亮度样点数除以2,就得到色差信号的数据。二、压缩算法与编码(一)压缩算法的概念压缩算法就是通过一些运算将文件缩小的一系列运算方法,通常把数据经过压缩和解压缩的过程称为编码和解码。视频压缩的目标是在尽可能保证视觉效果的前提下减少视频数据率。视频压缩比一般指压缩后的数据量与压缩前的数据量之比。由于视频是连续的静态图像,因此其压缩编码算法与静态图像的压缩编码算法有某些共同之处,但是,运动的视频还有其自身的特性,因此在压缩时还应考虑其运动特性才能达到高压缩的目标。1.有损数据压缩和无损数据压缩无损数据压缩(LosslessCompression)方法是指数据经过压缩后,信息不受损失,还能完全恢复到压缩前的原样。它和有损数据压缩相对。这种压缩的压缩比通常小于有损数据压缩的压缩比。有损数据压缩(LossComl)ression)方法是经过压缩、解压的数据与原始数据不同但非常接近的压缩方法。有损数据压缩又称破坏型压缩,即将次要的信息数据舍弃,牺牲一些质量来减少数据量,使压缩比提高。它是与无损数据压缩对应的压缩方法。根据各种格式设计的不同,有损数据压缩都会有生成损失(GenerationLoss),压缩与解压文件都会带来渐进的质量下降。这种方法经常用于因特网,尤其是流媒体及电话领域。有损数据压缩意味着解压缩后的数据与压缩前的数据不一致,在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损数据压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小,丢失的数据越多,解压缩后的效果一般越差。此外,某些有损数据压缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。2.帧内和帧间压缩帧内(Intrafr·ame)压缩也称为空间压缩(SpatialCompression)。当压缩1帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。帧内一般采用有损数据压缩算法,由于帧内压缩时各个帧之间没有相互关系,因此压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩质量。帧间(Interframe)压缩也称为时间压缩(TemporalCompression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩是基于许多视频或动画的连续前后两帧具有很大的相关性,或说前后两帧信息变化很小的特点,也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩一般是无损的。帧差值(FrameDifferencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。3.对称和不对称编码对称性(Symmetric)是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间;对称算法适合于实时压缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其他多媒体应用中,一般是把视频预先压缩处理好,而后再播放,因此可以采用不对称(Asymmetric)编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。一般地说,压缩一段视频的时间比回放(解压缩)该视频的时间要多得多。例如,压缩一段3min的视频片断可能需要10多分钟的时间,而该片断实时回放时间只有3min。(二)压缩算法的实现1.压缩算法的层次压缩算法通常分几个层次完成压缩。对于MPEG算法,是采用3个层次完成压缩,即带宽压缩、匹配主观的有损失压缩和最后一层的无损失压缩。(1)带宽压缩:主要是源分解力和目标比特率匹配及降低色度的分解力,达到主观上满意的程度。(2)匹配主观的有损失压缩:压缩算法本身是利用波形分析和主观适配的量化来去掉空间冗余和时间冗余,在这个层次压缩是有损失的。(3)最后一次的无损失压缩:通过把固定长度和可变长度编码进行句法组合,而无损失地把信息变换到比特流中去。2.压缩的基本算法压缩算法依赖于以下两种基本方法:(1)运动补偿法。以像块为基础的运动补偿,用于减少时间冗余。运动补偿的时间预测方法用来开拓视频信号很强的时间相关法。时间预测既适用于有因果关系的预测器(即纯预测编码),也适用于无因果关系的预测器(即内插编码)。(2)离散余弦变换法。以变换(离散余弦变换,DCT)为基础的压缩,用于减少空间冗余。减少空间冗余的方法(DCT方法)直接用于信源图像及时间预测后的误差信号上。预测误差信号可利用降低空间冗余(8×8DCT)进一步压缩与运动有关的信息,以16×16的像块为基础,并与空间信息一块传输。目前用于数据压缩的算法有多种,见表2-5。表2-5数据压缩方法数据种类应用领域数据压缩方法理论熵、复杂性、信息冗余无损数据压缩熵编码法哈夫曼树、算术编码(Shannon-Fano、区间)、Golomb、Exp-Golomb、统一编码(Elias、Fibonacci)、Asymmetricbinary字典编码RLE.L277/78.LZSS.LZW.LZWL\LZO.DEFLATE\LZMA.LZX.LZJB其他CTW\BWT.PPM\DMC理论卷积、采样、采样定理音频压缩音频编解码器LPC、WLPC、CELP、ACELP、A-law、Lt-law、MDCT、傅里叶变换、音响心理学其他动态范围压缩、语音编码、子带编码条件色彩空间、像素、色度抽样、CompressionArtifact图像