多媒体技术教程V4-ch3

xiaoqius
1 ℃
2020-01-02

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

普通高等教育“十一五”国家级规划教材《多媒体技术教程》人民邮电出版社国防科学技术大学版权所有第三章多媒体数据压缩普通高等教育“十一五”国家级规划教材《多媒体技术教程》人民邮电出版社国防科学技术大学版权所有3.1多媒体数据压缩技术概述普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1多媒体数据压缩技术概述•压缩的必要性音频、视频的数据量很大，如果不进行处理，计算机系统几乎无法对它进行存取和交换。例如，一幅具有中等分辨率（640×480）的真彩色图像（24b/像素），它的数据量约为7.37Mb/帧，一个100MB（Byte）的硬盘只能存放约100帧图像。若要达到每秒25帧的全动态显示要求，每秒所需的数据量为184Mb，而且要求系统的数据传输率必须达到184Mb/s。对于声音也是如此，若采用16b样值的PCM编码，采样速率选为44.1kHZ，则双声道立体声声音每秒将有176KB的数据量。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1多媒体数据压缩技术概述•视频、图像、声音有很大的压缩潜力信息论认为：若信源编码的熵大于信源的实际熵，该信源中一定存在冗余度。原始信源的数据存在着很多冗余度：空间冗余、时间冗余、视觉冗余、听觉冗余等。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1.1数据冗余的类型一幅图象中同一种颜色不止一个象素点，若相邻的象素点的值相同，象素点间（水平、垂直）有冗余。（空间冗余）当图象的一部分包含占主要地位的垂直的源对象时，相邻线间存在冗余。（空间冗余）若图象稳定或只有轻微的改变，运动序列帧间存在冗余。（时间冗余）普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1.1数据冗余的类型空间冗余：在同一幅图像中，规则物体和规则背景的表面物理特性具有相关性，这些相关性的光成像结果在数字化图像中就表现为数据冗余。时间冗余：时间冗余反映在图像序列中就是相邻帧图像之间有较大的相关性，一帧图像中的某物体或场景可以由其它帧图像中的物体或场景重构出来。音频的前后样值之间也同样有时间冗余。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1.1数据冗余的类型信息熵冗余：信源编码时，当分配给第i个码元类的比特数b（yi）=-logpi，才能使编码后单位数据量等于其信源熵，即达到其压缩极限。但实际中各码元类的先验概率很难预知，比特分配不能达到最佳。实际单位数据量dH（S），即存在信息冗余熵。视觉冗余：人眼对于图像场的注意是非均匀的，人眼并不能察觉图像场的所有变化。事实上人类视觉的一般分辨能力为26灰度等级，而一般图像的量化采用的是28灰度等级，即存在着视觉冗余。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1.1数据冗余的类型听觉冗余：人耳对不同频率的声音的敏感性是不同的，并不能察觉所有频率的变化，对某些频率不必特别关注，因此存在听觉冗余。其它冗余：包括结构冗余、知识冗余等。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1.2数据压缩方法的分类根据解码后数据与原始数据是否完全一致可以分为两大类：一类是熵编码、冗余压缩法，也称无损压缩法、无失真压缩法；二是熵压缩法，也称有损压缩法、有失真压缩法。从“熵”损失角度分为无损压缩和有损压缩两种：无失真压缩，又称熵编码。由于不会失真，多用于文本、数据的压缩，但也有例外，非线性编辑系统为了保证视频质量，有些高档系统采用的是无失真压缩方法。有失真压缩，又称熵压缩法。大多数图像、声音、动态视频等数据的压缩是采用有失真压缩。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1.2数据压缩方法的分类从信息语义角度分为“熵(平均信息量)编码”和“源编码”两种：熵(平均信息量)编码(EntropyCoding)熵编码是一种泛指那些不考虑被压缩信息的性质的编码和压缩技术。它是基于平均信息量的技术把所有的数据当作比特序列，而不根据压缩信息的类型优化压缩。也就是说，平均信息量编码忽略被压缩信息的语义内容。熵编码分为：重复序列消除编码(含：消零、行程编码)、统计编码等。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1.2数据压缩方法的分类源编码(SourceCoding)源编码的冗余压缩取决于初始信号的类型、前后的相关性、信号的语义内容等。源编码比严格的平均信息量编码的压缩率更高。当然压缩的程度主要取决于数据的语义内容，比起平均信息量编码，它的压缩比更大。源编码主要分为：预测编码、变换编码、向量量化等。3.1.2数据压缩方法的分类SourceCodingPrediction:DPCMandDMTransformation:FFT、DCTLayered:Sub-band、Sub-samplingandBitPositionVectorQuantizationHybridCodingJPEG、MPEG、H.261、DVI、Intel-IndeoEntropyCodingRunLengthCodingStatisticalCodingHuffmanArithmetic普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1.3数据压缩技术的性能指标节省图象或视频的存储容量，增加访问速度，使数字视频能在PC机上实现，需要进行视频和图象的压缩。有三个关键参数评价一个压缩系统压缩比图象质量压缩和解压的速度另外也必须考虑每个压缩算法所需的硬件和软件。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1.3数据压缩技术的性能指标1．压缩比压缩性能常常用压缩比定义（输入数据和输出数据比）例：512×480，24bit/pixel(bpp)输出15000byte输入＝737280byte压缩比＝737280/15000＝49普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1.3数据压缩技术的性能指标2．图象质量压缩方法：无损压缩（图象质量不变）有损压缩有损压缩：失真情况很难量化，只能对测试的图象进行估计。模拟图象质量的指标：信噪比、分辨率、颜色错，但必须在观察了实际图象以后。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1.3数据压缩技术的性能指标3．压缩解压速度在许多应用中，压缩和解压可能不同时用，在不同的位置不同的系统中。所以，压缩、解压速度分别估计。静态图象中，压缩速度没有解压速度严格；动态图象中，压缩、解压速度都有要求，因为需实时地从摄像机或VCR中抓取动态视频。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.1.3数据压缩技术的性能指标4．硬软件系统有些压缩解压工作可用软件实现。设计系统时必须充分考虑：算法复杂－压缩解压过程长算法简单－压缩效果差目前有些特殊硬件可用于加速压缩/解压。硬接线系统速度快，但各种选择在初始设计时已确定，一般不能更改。因此在设计硬接线压缩/解压系统时必须先将算法标准化。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.2常用的数据压缩编码方法3.2.1DPCM和ADPCM编码预测编码是根据原始的离散信号之间存在着一定关联性的特点，利用前面的一个或多个信号对下一个信号进行预测，然后对实际值和预测值的差进行编码。如果预测比较准确，那么误差信号就会很小，就可以用比较少的数码进行编码，达到压缩数据的目的。DPCM与ADPCM是两种典型的预测编码。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.2.1DPCM和ADPCM编码1.差分脉码调制(DPCM)PCM(PulseCodeModulation)，原始的模拟信号经过时间采样，然后对每一样值进行量化，作为数字信号传输。DPCM不对每一样值都进行量化，而是预测下一样值，并量化实际值和预测值之间的差。DPCM是基本的编码方法之一，在大量的压缩算法中被采用，比如JPEG的DC分量就是采用DPCM编码的。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.2.1DPCM和ADPCM编码举例说明DPCM编码原理：设DPCM系统预测器的预测值为前一个样值，假设输入信号已经量化，差值不再进行量化。若系统的输入为{0121123344…}，则预测值为{0012112334…}，差值为{011–1011010…}，差值的范围比输入样值的范围有所减小，可以用较少的位数进行编码。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.2.1DPCM和ADPCM编码2.自适应差分脉码调制(ADPCM)为了进一步改善量化性能或压缩数据率，可采用自适应量化或自适应预测的方法。只要采用了其中的任一种自适应方法，均称为ADPCM。自适应预测预测参数的最佳化依赖于信源的统计特性，要得到最佳的预测参数是一件繁琐的工作。而采用固定的预测参数往往又得不到好的性能。为了既能使性能较佳，又不致于有太大的工作量，可以将上述两种方法折衷考虑，采用自适应预测。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.2.1DPCM和ADPCM编码具体方法是：预测参数仍采用固定的；但此时有多组预测参数可供选择。这些预测参数根据常见的信源特征求得。编码时具体采用哪组预测参数根据信源的特征来自适应的确定。为了自适应的选择最佳参数，通常将信源数据分区间编码，编码时自动地选择一组预测参数，使该区间实际值与预测值的均方误差最小。随着编码区间的不同，预测参数自适应的变化，以达到准最佳预测。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.2.1DPCM和ADPCM编码例如，Microsoft的ADPCM采用二预测参数，提供7组预测系数，如右表所示。编码时，根据选定的准则(如最小均方误差准则)，每个编码区间自动地选取一组最佳的参数。系数集系数1系数2025601512-256200319264424005460-2086392-232普通高等教育“十一五”国家级规划教材《多媒体技术教程》自适应量化根据信号分布不均匀的特点，系统具有随输入信号的变化而改变量化区间大小,以保持输入给量化器的信号基本均匀的能力，这种能力称为自适应量化。3.2.1DPCM和ADPCM编码普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.2.2离散余弦变换（DCT）编码在变换编码时，初始数据要从初始空间或时间域进行数学变换，变换为一个更适于压缩的抽象域。该过程是可逆的；即使用反变换可恢复原始数据。如将时域信号变换到频域，因为声音、图像大部分信号都是低频信号，在频域中信号的能量较集中，再进行采样、编码就可以压缩数据。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.2.2离散余弦变换（DCT）编码变换本身是可逆的，因而其也是一种无损技术。然而，为了取得更满意的结果，某些重要系数的编码位数比其他的要多，某些系数干脆就被忽略了。这样，该过程就成为有损的了。数学家们已经构造了多种数学变换。除了傅里叶变换外，还有余弦、Hadamard、Haar、KarhunenLoeve变换。最实用最常用的数学变换是离散余弦变换(DCT)。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.2.2离散余弦变换（DCT）编码典型的变换编码系统框图：信源序列变换变换域采样量化编码存储或传输译码填零反变换再现序列变换编码系统压缩数据的三个步骤普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.2.2离散余弦变换（DCT）编码数据压缩主要是去除信源的相关性。若考虑到信号存在于无限区间上，而变换区域又是有限的，那么表征相关性的统计特性就是协方差矩阵。当协方差矩阵中除对角线上元素之外的各元素都为零时，就等效于相关性为零。所以，为了有效地进行数据压缩，常常希望变换后的协方差矩阵为一对角矩阵，同时也希望主对角线上各元素随ｉ，ｊ的增加很快衰减。因此，变换编码的关键在于：在已知Ｘ的条件下，根据它的协方差矩阵去寻找一种正交变换Ｔ，使变换后的协方差矩阵满足或接近为一对角矩阵。普通高等教育“十一五”国家级规划教材《多媒体技术教程》3.2.2离散余弦变换（DCT）编码当经过正交变