第9讲――算术编码与LZ编码2012-5-11[1]

valorsky
2 ℃
2020-01-30

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

算术编码与LZ编码第9讲算术编码•前面所讨论的无失真编码，都是建立在信源符号与码字一一对应的基础上，这种编码方法通常称为块码或分组码，此时信源符号一般是多元的。•如果要对二元序列进行编码，则需采用合并信源符号方法，把二元序列转换成多值符号，转换时二元符号之间的相关性不予考虑，转换后这些多值符号之间的相关性也不予考虑。这就使信源编码的匹配原则不能充分满足，编码效率一般不高。•为了克服这种局限性，需要跳出分组码范畴，从整个符号序列出发，采用递推形式进行编码。从整个符号序列出发，根据各信源序列的概率将信源序列映射到[0,1)区间上，然后选取区间内的一点（也就是一个二进制的小数）来表示信源序列。算术编码基本思想设信源字母表为{a1,a2},概率p(a1)=0.6,p(a2)=0.4，将[0,1]按概率比例分为区间[0,0.6],[0.6,l]。p(a1)p(a2)00.6100.360.60.841p(a1a1)p(a1a2)p(a2a1)p(a2a2)随着序列的长度不断增加,C所在区间的长度就越短,精确地确定C的位置需要码长也不断增加设信源符号集A={a1,a2,…,an},其相应概率分布为pi,pi0(i=1,2,…,n),定义信源符号的累积概率（分布函数）为P1=0;P2=p1;P3=p1+p2;…11riirpP累积概率r=1,2,…,npr=Pr+1-Pr)1,0[rPP1p1P2P3P41p2p3……0当A={0,1}二元信源时，P1=P(0)=0;P2=P(1)=p0P(0)P(1)01p0p1二元序列的累积概率引例设有二元序列S=011，求S的累积概率P(S)=p(000)+p(001)+p(010)若S后面接0P(S0)=p(0000)+p(0001)+p(0010)+p(0011)+p(0100)+p(0101)=p(000)+p(001)+p(010)=P(S)若S后面接1P(S1)=p(0000)+p(0001)+p(0010)+p(0011)+p(0100)+p(0101)+p(0110)=P(S)+p(0110)=P(S)+p(S)p0二元序列的累积概率P(0)=0,P(1)=p0P(Sar)=P(S)+p(S)PrS0=0110S1=0111p(Sar)=p(S)p(ar)p(Sar)=p(S)p(ar)P(Sar)=P(S)+p(S)PrP(0)0P(1)1p0设符号序列S=011p1P(0)P(1)p(00)=p(0)P(1)P(01)p(01)P(01)P(1)P(011)p(010)=p(01)P(1)p(011)二元序列的累积概率P(Sar)=P(S)+p(S)Pr累积概率递推公式一般多元信源序列的累积概率递推公式rrPSpSPaSPP)()(),(0)()()(),(),(1)(rrrapSpaSpaSAp序列的概率(所对应区间的宽度)递推公式SrrPSpSPaSPP/)()(),(0)()/()(),(),(1)(SapSpaSpaSAprrr•实际中,求序列累积概率只需两个存储器,起始时可令:A(Φ)=1,P(Φ)=0每输入一个符号,存储器P和A就按照上式更新一次,直至符号输入完毕,这时存储器P的内容即为该序列的累积概率。0)()()(),(PPSpSPaSPrr，1)()()(),(),(papSpaSpaSArrr，累积概率递推公式累积概率递推计算注意：计算过程中,每输入一个符号只要进行乘法和加法运算。通过信源符号序列累积概率计算,把区间分割成许多小区间,不同的信源符号序列对应不同的区间为[P(S),P(S)+p(S))，可取小区间内的一点来代表这序列。将符号序列的累积概率写成二进位小数，取小数点后L位,若后面有尾数,就进位到第L位，即)(1logSpL算术编码若P(S)=0.10110001，L=3则C=0.110LLSP.0)(算术编码的唯一可译性由码C的形成方法，)(SPC)(1logSpL又可知可知LSp2)()()(SpSPLSP2)(C由此可见C必在))()(),([SpSPSP)()(),(SpSPSPCLSPC2)(,因而唯一可译。)(1logSpL对于长序列，p(S)必然很小，L与概率倒数对数几乎相等，也就是说取整造成的差别很小，因而平均码长将接近于信源熵H(S)7)(1logSpL设二元无记忆信源S={0,1},p(0)=1/4,p(1)=3/4。S=11111100，对其做算术编码。P(S)=p(00000000)+p(00000001)+p(00000010)+…+p(11111011)=1-p(11111111)-p(11111110)-p(11111101)-p(11111100)=1-p(111111)=1-(3/4)6=0.110100100111从而得C=0.1101010，S的码字为1101010解：p(S)=p2(0)p6(1)=(1/4)2(3/4)6例题1101001%7.928/7811.0序列11111100的编码过程输入符号p(S)p(S)p(0)P(S)LC空10010.110.010.0110.110.10010.00110.011110.110.0110110.0010010.10010120.1110.010100010.000110110.1010111120.1110.00111100110.00010100010.110000110130.11110.0010110110010.0000111100110.11010010011130.11100.000010110110010.000010110110010.11010010011150.1101100.00000010110110010.00000010110110010.11010010011170.1101010+=p(1)=3/4=(0.11)2p(11)=(3/4)2=(0.1001)2+=…p(0)=(1/4)=2-2p(S)p(0)→p(S)右移2位1log14()npu设无记忆信源U={a1,a2,a3,a4}，其概率分布依次为0.5,0.25,0.125,0.125，对信源序列做算术编码。解：例题21134121aaaaaaaau42214()(0.5)(0.25)(0.125)2Pu序号uip(ui)P(ui)l(ui)C0空1001a21/41/220.102a11/81/230.1003a11/161/240.10004a31/12835/6470.10001105a41/1024567/1024100.10001101116a11/2048567/1024110.100011011107a21/81922269/4096130.10001101110108a11/163842269/4096140.10001101110100算术编码递推过程a1,a2,a3,a40.5,0.25,0.125,0.12521134121aaaaaaaaurrPSpSPaSP)()(),(1()0Pa2()1/2Pa3()3/4Pa4()7/8Pa由算术编码递推表得C=0.1000110111010000，从而U的码字为10001101110100RUH)(1.75100%14/8()0.5log0.50.25log0.2520.125log0.1251.75HU()logHUnDP(0)0P(1)1p(0)译码输出序列011p(1)P(0)P(1)p(00)P(01)p(01)P(01)P(1)P(011)p(010)p(011)算术译码CCC()CP()(0)Ap对二元算术码而言，其译码过程是一系列比较过程：每一步比较与，这里为前面已译出的序列串，是序列串对应的宽度，是序列的累积概率值，即为对应区间的下界限，是此区间内下一个输入为符号“0”所占的子区间宽度。译码规则为：若＜，则译输出符号为“0”；若＞，则译输出符号为“1”。()CP()(0)Ap()A()P()(0)Ap()CP()(0)Ap()CP()(0)Ap算术编码的译码•算术编码的编码效率很高，当信源符号序列很长时，L很大时，平均码长接近信源熵。•从性能上来看，算术编码具有许多优点，它所需的参数较少、编码效率高、编译码简单，不象哈夫曼码那样需要一个很大的码表。•算术编码在图像数据压缩标准（如JPEG）中得到广泛的应用。算术编码的优点算术编码要注意的一些问题计算精度随着递推过程的延续，P(u)和F(u)的小数位数也将逐步增加，若不能随时输出和加以截断，运算器将难以容纳。但有所截断必然降低精度，而精度不够会影响译码的正确性。存储器容量编成的码字S的长度也是随序列u的长度增加而不断增长。若不及时输出，存储量将非常大。但若输出过早，运算过程中可能还需调整已经输出的部分，那就来不及了。计算复杂性每次递归运算都有乘法，P(ak)小数位数影响计算复杂度。在算术编码中使用的概率P(ak)不一定完全等于真实的概率分布，只要设定的分布近似于真实分布就很有效。自适应算术编码在实际应用中，可以在编码过程中根据输入的信源序列自适应估计信源的分布，因此可以对任意概率分布的信源（包含有记忆）进行编码。上述问题现已解决，算术编码已进入实用。两位以色列研究者J.Ziv和A.Lempel独辟蹊径，完全脱离Huffman及算术编码的设计思路，创造出了一系列比Huffman编码更有效，比算术编码更快捷的通用压缩算法——LZ算法。LZ编码对于统计特性确知的平稳信源，已有Huffman编码和算术编码高效编码方法，其平均码长可逼近信源的平均符号熵，而且实现困难不算太大，所以已进入实用。要确知信源的统计特性相当困难。通用编码指在信源统计特性不知时，对信源进行编码，而且编码效率很高。•Ziv和Lempel于1977年提出了LZ77算法。1978年，二人又提出了改进算法，后被命名为LZ78。1984年，T.A.Welch提出了LZ78算法的一个变种，即LZW算法。1990年后，T.C.Bell等人又陆续提出了许多LZ系列算法的变体或改进版本。•LZ系列算法用一种巧妙的方式将字典技术应用于通用数据压缩领域，而且，可以从理论上证明LZ系列算法同样可以逼近信息熵的极限.•下面我们主要介绍LZ78算法。12{,,,}KAaaa设输入信源符号序列为尽可能取最少个相连的信源符号，并保证各段都不相同。Luuuu,,,21iu，其中编码时将此序列分成不同的段。分段规则：设序列分段结果为.,,,,321cyyyy若ij，则必有rijayyLZ78码LZ78编码算法是一种分段编码。由分段规则可见，字典中每一段都是前面某一段后加一个符号。•开始时，先取一个符号作为第一段，然后再继续分段。若出现有与前面相同符号时，就再取紧跟后面的一个符号一起组成一个段，以使与前面的段不同。•这些分段构成字典。•当字典达到一定大小后，再分段时就应查看有否与字典中的短语相同，若有重复就添加符号后再查看，直至与字典中短语不同为止。•由分段规则可见，字典中每一段都是前面某一段后加一个符号。则编码的码字由段号加后面一个符号组成。或者说编码码字可用两个数段号i和符号序号r组成。段号i和符号序号r的表示•由于rK，这两个数也可以用一个数Nj来表示，即Nj=iK+r.•从Nj很容易恢复i和r，即用K除Nj，所得余数就是r，商为i。•把Nj表示成二进制数，即得二进码。•单符号的码字段号为0。计算对Nj编码时所需的比特数注意到K,i,j,r等都是整数，并设ji，则所以，对Nj编码所需的比特数为由上式可见，各段所需的比特数是不同的，是随j的增加而增多。1,,jijrKNKirKjlog(1)log