多媒体数据压缩技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第5章多媒体数据压缩技术本章要点:多媒体数据压缩技术概述量化统计编码变换编码数据压缩编码国际标准5.1多媒体数据压缩技术概述(必要、可行、分类)5.1.1多媒体数据压缩编码的必要性由于多媒体元素种类繁多、构成复杂,使得数字计算机面临的是数值、音乐、动画、静态图像和电视视频图像等多种媒体元素,且要将它们在模拟量和数字量之间进行自由转换、信息吞吐、存储和传输。目前,虚拟现实技术还要实现逼真的三维空间、3D立体声效果和在实境中进行仿真交互,带来的突出问题就是媒体元素数字化后数据量大得惊人,解决这一问题,单纯靠扩大存储器容量、增加通信干线传输率的办法是不现实的。通过数据压缩技术可大大降低数据量,以压缩形式存储和传输,既节约了存储空间,又提高了通信干线的传输效率,同时也使计算机得以实时处理音频、视频信息,保证播放出高质量的视频和音频节目。5.1.2多媒体数据压缩的可能性安特尼·科罗威尔[意]意大利1975年,300公斤分析冗余?图像数据压缩技术就是研究如何利用图像数据的冗余性来减少图像数据量的方法。下面是常见的一些图像数据冗余:(1)空间冗余:是由于基于离散像素采样的方法不能表示物体颜色之间的空间连惯性导致的;(2)时间冗余:就是对于象电视图像、动画等序列图片,当其中物体有位移时,后一帧的数据与前一帧的数据有许多相同的地方;(3)结构冗余:在有些图像的纹理区,图像的像素值存在着明显的分布模式;(4)知识冗余:对于图像中重复出现的部分,我们可构造其基本模型,并创建对应各种特征的图像库,进而图像的存储只需要保存一些特征参数,从而可大大减少数据量;(5)视觉冗余:事实表明,人类的视觉系统对图像场的敏感性是非均匀和非线性的;6.1.3多媒体数据压缩方法的分类1.有损与无损压缩:第一种分类方法是根据解码后数据是否能够完全无丢失地恢复原始数据,可分为:1)无损压缩:也称可逆压缩、无失真编码、熵编码等。原理:去除或减少冗余值,但这些值可在解压缩时重新插入到数据中,恢复原始数据。它大多使用在对文本和数据的压缩上,但是压缩比较低,大致在2:1~5:1之间。典型算法有:Huffman编码、Shannon-Fano编码、算术编码、游程编码和Lenpel-Ziv编码等。2)有损压缩:也称不可逆压缩和熵压缩等。此法在压缩时减少了的数据信息是不能恢复的。2、压缩技术分类:第二种分类方法是按照压缩技术所采用的方法来分的,见下表所示:多媒体数据编码算法PCM自适应、固定式预测编码自适应、固定式(DPCM、△M)混合编码变换编码傅里叶、离散余弦(DCT)、离散正弦(DST)、哈尔、斜变换、沃尔什-哈密瓜达马、卡胡南-劳夫(K-L)、小波统计编码(熵编码)哈夫曼、算术编码、费诺、香农、游程编码(RLE)、LZW静态图像编码方块、逐渐浮现、逐层内插、比特平面、抖动电视编码帧内预测帧间编码运动估计、运动补偿、条件补充、内插、帧间预测其他编码矢量量化、子带编码、轮廓编码、二值图像3.脉冲编码调制PCM(PulseCodeModulation)编码分类1)预测编码(PredictioveCoding,PC):这种编码器记录与传输的不是样本的真实值,而是它与预期测值的差。预测值由欲编码图像信号的过去信息决定。由于时间、空间相关性,真实值与预测值的差值变化范围远远小于真实值的变化范围,因而可以采用较少的位数来表示。2)变换编码(TransformCoding,TC):其主要思想是利用图像块内像素值之间的相关性,把图像变换到一组新的基上,使得能量集中到少数几个变换系数上,通过存储这些系数而达到压缩的目的。3)统计编码:最常用的统计编码是Huffman编码。它对于出现频率大的符号用较少的位数来表示,而对出现频率小的符号用较多的位数来表示。其编码效率主要取决于需编码的符号出现的概率分布,越集中则压缩比越高。5.2量化通常量化是指模拟信号到数字信号的映射,它是模拟量化为数字量必不可少的步骤。由于模拟量是连续的,而数字量是离散量,因此量化操作实质上是用有限的离散量代替无限的模拟量的多对一映射操作。5.2.1比特率比特率是采样率和量化过程中使用的比特数的产物。它是数据通信的一个重要参数。公用数据网的信道传输能力常常是以每秒传送多少KB或多少GB信息量来衡量的。数字音频格式比较应用类型采样频率(KHz)带宽(KHz)频带(Hz)比特率(KB/s)电话8.03.0200~320064远程会议16.07.050~7000256数字音频光盘44.120.020~200001410数字音频带48.020.020~2000015365.2.2量化原理量化处理是使数据比特率下降的一个强有力的措施。脉冲编码调制(PCM)的量化处理在采样之后进行。数据压缩编码中的量化是指以PCM码作为输入,经正交变换、差分、或预测处理后,在熵编码之前,对正交变换系数、差值或预测误差的量化处理。模拟无限等级-------------数字等级有限化→数字量化处理量化输入值的动态范围很大,需要以多的比特数表示一个数值,量化输出只能取有限个整数,称作量化级,一般希望量化后的数值用较少的比特数就可表示。每个量化输入被强行归一到与其接近的某个输出,即量化到某个级。量化处理总是把一批输入,量化到一个输出级上,所量化处理是一个多对一的处理过程,是个不可逆过程,量化处理中有信息丢失,或者说会引起量化误差(量化噪声)。5.2.3标量量化器的设计1.量化器的设计要求(1)给定量化分层级数,满足量化误差最小;(2)限定量化误差,确定分层级数,满足以尽量小的平均比特数,表示量化输出。2.量化方法和量化特性量化方法有标量量化和矢量量化之分,标量量化又可分为均匀量化、非均匀量化和自适应量化。下图画出一个标量量化过程的示意图:in量化器的量化特性曲线,有多种多样,下图给出一个八级均匀量化特性曲线:下图是给出一个非均匀量化特性曲线:5.2.4矢量量化矢量量化编码一般是失真编码方法。矢量量化的名字是相对于标量量化而提出的,对于PCM数据,一个数一个数进行量化叫标量量化;若对这些数据分组,每组K个数构成一个K维矢量,然后以矢量为单元,逐个矢量进行量化,称矢量量化。矢量量化可有效提高压缩比,见下图:5.3统计编码本节介绍几种典型的熵编码方法,如Shannon与Fano编码法和Huffman编码法,算术编码法与游程编码法。其中尤以Huffman编码法为最佳,在多媒体编码系统中常用这种方法作熵保持编码。预备知识:信息论基础???今天有同学收到EMAIL、TEL,….?今天有同学读报?海报?今天有同学WATCHTV、RADIO???????什么是信息?信息量多大?信息单位是什么?当我们收到一封信或一个电话、传真、电报、电子邮件时,便获得一定的信息,在此之前我们并不能肯定其中的内容,如果我们早知其内容,也就没有必要写信、发电子邮件或打电话了,这也就不存在信息问题。那么信息是什么?简单说:从上面可知信息就是消息,消息是由不知到知知的过程,信息量的大小就是消息的多少,也即由不知到知知的多少,这是一般定义上的理解,在数学怎么定义信息及信息量的大小。再从上面我们也可以知道,在信息中蕴含着不确性,这种不确性在数学上就是事件的概率,对确定事件(消息)概率大信息量少,否则信息量就大,所以一般而言,小概率事件信息量大,大概率事件信息量小,如果概率P=1信息量则为0。例如:(1)百年不遇事件,概率较小,一旦发生,必定信息量惊人;(2)两军对持,若势均力敌(等概率分布)很难判定谁是胜家,信息量大。如果两军实力相差较远(不等概率),则信息量小,易判定胜负,这说明:基本事件的个数相同者,以等概率分布场平均信息量大。信息可以识别,转换、存贮、传送、增值、信息既不是物质,也不是意识,信息的存在具有特殊性,同时与物质与意识又密切相关。信息的过程包含有发送、传输、接收三个基本过程。香农提出了如下模型称之为信息传播的基本模型。从这个模型可知,信息量实际就是发送、传输、接收这个信息所要求表示这个事件(信息)最小比特数。如发送某一事件A,需要3位(二进数)来表示,则说明该信息的信息量是3bit,按shannon理论:信息源S的信息量用熵(entropy)来定义:Pi是符号Si在S中出现的概率表示包含在Si中信息量,即编码Si所需二进制位数,H(s)是S的总信息量例如:(1)一幅256级灰度的黑白图像,每个象素点灰度概率为Pi=1/256,那么编码每个象素要log21/256=8bit(2)电视屏上约有500×600=3×105个格点,按每个点10种不同的亮度等级计算,)1(log)(2iiiPPsHiiiPP2log)1(log2iP则共组成多少个不同画面?按等概率计算,每个画面概率是多少?电视屏上约有2个格点,按每个点2种不同的亮度等级计算,则共组成多少个不同画面?按等概率计算,每个画面概率是多少?(2)电视屏上约有500×600=3×105个格点,按每个点10种不同的亮度等级计算,则共组成多少个不同画面?按等概率计算,每个画面概率是多少?平均每个画面可提供信息量为:=3×105×3.32=106bit(3)千字文章假定每字可从万字表中任选,则可有不同的千字文:N=100001000=104000篇,按等概率计算,平均每篇千字文可提供的信息量为:结论:可见一个电视画面的信息远远超过千字文,从计算可知前者是后者的100倍,图像信息量是远远大于文本信息量。几种主要信息编码方法1、Shannon-Fano算法编码有一幅40象素组成的图像,每个象素灰度用5级来表示,分别记为A、B、C、D、E,40个象素中出现A级灰度数为15个,出现B级为7个,出现C级为7个,出现D和E级分别为6个和5个,按照Shsnnon理论,这幅图像的熵为:=2.196也就是说,这幅图像内每个象素平均可用2.196位表示,整个图像共需40×2.196=87.84bit,下面按Shannon-Fano的编码方法进行编码,其基本步骤如下:(1)计算各符号(A—E)亦即灰度等级出现的概率,并排序,见表(2)列表并计算各自的比特数:(3)用递归法分成两部分,每部分具有近似相同的次数,如图所示直至分到各种表示的符号级别,并给它们分配“0”或“1”,可以是概率大者为“0”也可以是概率小者为“0”,另外一个就对应为“1”。)101(1log101)(5510351032101103isHbitNNsH4322103.132.3104log)1(1log)(540log405640log406740log407740log4071540log4015)(22222sH)1(log2iP(4)压缩比的计算利用这种算法,关键作用就是在传递这些信时,其传输比特位要少,亦即要求压缩比较大,这种算法及编码,简单方便,其压缩比为:如果不压缩,每个象素有5级(A—E)灰度,每个象素至少要用3bit来表示。此画共有40个象素,即要用120bit用Shsnnon-Fano算法则需共计91bit,因此压缩比是1.3:1,这种压缩比对图像而言还是很小的。2、Huffman编码算法前面介绍的Shannon-Fano是1948年提出的一种非定长编码,称为变长码(Variable-Lengthcode),由于是据概率进行的编码方法,所以又称为统计编码,或称为熵编码。Shannon-Fano编码只是指出存在一种无失真的编码,使得编码平均码长逼近熵值这个下限,但它并没有给出具体的编码方法。下面介绍另一种变长的统计熵编码的方法,这就是Huffamn编码方法。它是基于变字长编码的最佳编码定理。(定理)在变字长码中,对于出现概率大的信息符号编短字长的码,对于出现概率小的信息符号编以长字长的码,如果码字长度严格按照符号概率的大小的相反顺序排列,则平均码字长度一定小于按任意方式排列得到的码字长度。(证明):设最佳排列方式的码字平均长度为L,则有为信号源符号出现的概率,是符号的编码长度且规定:≥,≤,i=1,2,3…….m,s=1,

1 / 26
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功