JPEG(JointPhotographicExpertsGroup)是联合图像专家小组的英文缩写。它由国际电话与电报咨询委员会CCITT(TheInternationalTelegraphandTelephoneConsultativeCommittee)与国际标准化组织ISO于1986年联合成立的一个小组,负责制定静态数字图像的编码标准。小组一直致力于标准化工作,开发研制出连续色调、多级灰度、静止图像的数字图像压缩编码方法,即JPEG算法。JPEG算法被确定为国际通用标准,其适用范围广泛,除用于静态图像编码外,还推广到电视图像序列的帧内图像压缩。而用JPEG算法压缩出来的静态图片文件称为JPEG文件,扩展名通常为*.jpg、*.jpe*.jpeg。JPEG专家组开发了两种基本的压缩算法、两种数据编码方法、四种编码模式。具体如下:压缩算法:有损的离散余弦变换(DiscreteCosineTransform,DCT);无损的预测技术压缩。数据编码方法:哈夫曼编码;算术编码;编码模式:基于DCT顺序模式:编/解码通过一次扫描完成;基于DCT递进模式:编/解码需要多次扫描完成,扫描效果从粗糙到精细,逐级递进;无损模式:基于DPCM,保证解码后完全精确恢复到原图像采样值;层次模式:图像在多个空间多种分辨率进行编码,可以根据需要只对低分辨率数据作解码,放弃高分辨率信息。在实际应用中,JPEG图像使用的是离散余弦变换、哈夫曼编码、顺序模式。JPEG压缩编码算法的主要计算步骤如下:(0)8*8分块。(1)正向离散余弦变换(FDCT)。(2)量化(quantization)。(3)Z字形编码(zigzagscan)。(4)使用差分脉冲编码调制(DPCM)对直流系数(DC)进行编码。(5)使用行程长度编码(RLE)对交流系数(AC)进行编码。(6)熵编码。笔者在实践过程中查阅了大量的资料,发现大多数书籍资料和网上资料都是从编码角度分析JPEG的编/解码方式,并且都只是介绍编码过程中的主要方法。所以,本文从解码角度详细分析JPEG的编/解码过程,并且加入许多笔者实践过程中遇到的问题和解决方法,希望从另一个角度说明问题,以更好帮助读者结合其他资料解决问题。不过,介绍解码过程之前,首先要了解JPEG文件中数据的存储格式。一、JPEG文件格式介绍JPEG文件使用的数据存储方式有多种。最常用的格式称为JPEG文件交换格式(JPEGFileInterchangeFormat,JFIF)。而JPEG文件大体上可以分成两个部分:标记码(Tag)和压缩数据。标记码由两个字节构成,其前一个字节是固定值0xFF,后一个字节则根据不同意义有不同数值。在每个标记码之前还可以添加数目不限的无意义的0xFF填充,也就说连续的多个0xFF可以被理解为一个0xFF,并表示一个标记码的开始。而在一个完整的两字节的标记码后,就是该标记码对应的压缩数据流,记录了关于文件的诸种信息。常用的标记有SOI、APP0、DQT、SOF0、DHT、DRI、SOS、EOI。注意,SOI等都是标记的名称。在文件中,标记码是以标记代码形式出现。例如SOI的标记代码为0xFFD8,即在JPEG文件中的如果出现数据0xFFD8,则表示此处为一个SOI标记。本文附录列出一张完整的JPEG定义的标记表,供读者查阅。这里仅列出几个常用标记的标记代码、占用字节长度和表示的意义。SOI,StartofImage,图像开始标记代码2字节固定值0xFFD8APP0,Application,应用程序保留标记0标记代码2字节固定值0xFFE0包含9个具体字段:①数据长度2字节①~⑨9个字段的总长度即不包括标记代码,但包括本字段②标识符5字节固定值0x4A46494600,即字符串“JFIF0”③版本号2字节一般是0x0102,表示JFIF的版本号1.2可能会有其他数值代表其他版本④X和Y的密度单位1字节只有三个值可选0:无单位;1:点数/英寸;2:点数/厘米⑤X方向像素密度2字节取值范围未知⑥Y方向像素密度2字节取值范围未知⑦缩略图水平像素数目1字节取值范围未知⑧缩略图垂直像素数目1字节取值范围未知⑨缩略图RGB位图长度可能是3的倍数缩略图RGB位图数据本标记段可以包含图像的一个微缩版本,存为24位的RGB像素。如果没有微缩图像(这种情况更常见),则字段⑦“缩略图水平像素数目”和字段⑧“缩略图垂直像素数目”的值均为0。APPn,Application,应用程序保留标记n,其中n=1~15(任选)标记代码2字节固定值0xFFE1~0xFFF包含2个具体字段:①数据长度2字节①~②2个字段的总长度即不包括标记代码,但包括本字段②详细信息数据长度-2字节内容不定例如,AdobePhotoshop生成的JPEG图像中就用了APP1和APP13两个标记段分别存储了一幅图像的副本。DQT,DefineQuantizationTable,定义量化表标记代码2字节固定值0xFFDB包含9个具体字段:①数据长度2字节字段①和多个字段②的总长度即不包括标记代码,但包括本字段②量化表数据长度-2字节a)精度及量化表ID1字节高4位:精度,只有两个可选值0:8位;1:16位低4位:量化表ID,取值范围为0~3b)表项(64×(精度+1))字节例如8位精度的量化表其表项长度为64×(0+1)=64字节本标记段中,字段②可以重复出现,表示多个量化表,但最多只能出现4次。SOF0,StartofFrame,帧图像开始标记代码2字节固定值0xFFC0包含9个具体字段:①数据长度2字节①~⑥六个字段的总长度即不包括标记代码,但包括本字段②精度1字节每个数据样本的位数通常是8位,一般软件都不支持12位和16位③图像高度2字节图像高度(单位:像素),如果不支持DNL就必须0④图像宽度2字节图像宽度(单位:像素),如果不支持DNL就必须0⑤颜色分量数1字节只有3个数值可选1:灰度图;3:YCrCb或YIQ;4:CMYK而JFIF中使用YCrCb,故这里颜色分量数恒为3⑥颜色分量信息颜色分量数×3字节(通常为9字节)a)颜色分量ID1字节b)水平/垂直采样因子1字节高4位:水平采样因子低4位:垂直采样因子(曾经看到某资料把这两者调转了)c)量化表1字节当前分量使用的量化表的ID本标记段中,字段⑥应该重复出现,有多少个颜色分量(字段⑤),就出现多少次(一般为3次)。DHT,DifineHuffmanTable,定义哈夫曼表标记代码2字节固定值0xFFC4包含2个具体字段:①数据长度2字节字段①和多个字段②的总长度即不包括标记代码,但包括本字段②哈夫曼表数据长度-2字节a)表ID和表类型1字节高4位:类型,只有两个值可选0:DC直流;1:AC交流低4位:哈夫曼表ID,注意,DC表和AC表分开编码b)不同位数的码字数量16字节c)编码内容16个不同位数的码字数量之和(字节)本标记段中,字段②可以重复出现(一般4次),也可以致出现1次。例如,AdobePhotoshop生成的JPEG图片文件中只有1个DHT标记段,里边包含了4个哈夫曼表;而MacromediaFireworks生成的JPEG图片文件则有4个DHT标记段,每个DHT标记段只有一个哈夫曼表。DRI,DefineRestartInterval,定义差分编码累计复位的间隔标记代码2字节固定值0xFFDD包含2个具体字段:①数据长度2字节固定值0x0004,①~②两个字段的总长度即不包括标记代码,但包括本字段②MCU块的单元中的重新开始间隔2字节设其值为n,则表示每n个MCU块就有一个RSTn标记。第一个标记是RST0,第二个是RST1等,RST7后再从RST0重复。如果没有本标记段,或间隔值为0时,就表示不存在重开始间隔和标记RSTSOS,StartofScan,扫描开始12字节标记代码2字节固定值0xFFDA包含2个具体字段:①数据长度2字节①~④两个字段的总长度即不包括标记代码,但包括本字段②颜色分量数1字节应该和SOF中的字段⑤的值相同,即:1:灰度图是;3:YCrCb或YIQ;4:CMYK。而JFIF中使用YCrCb,故这里颜色分量数恒为3③颜色分量信息a)颜色分量ID1字节b)直流/交流系数表号1字节高4位:直流分量使用的哈夫曼树编号低4位:交流分量使用的哈夫曼树编号④压缩图像数据a)谱选择开始1字节固定值0x00b)谱选择结束1字节固定值0x3Fc)谱选择1字节在基本JPEG中总为00本标记段中,字段③应该重复出现,有多少个颜色分量(字段②),就出现多少次(一般为3次)。本段结束后,紧接着就是真正的图像信息了。图像信息直至遇到一个标记代码就自动结束,一般就是以EOI标记表示结束。EOI,EndofImage,图像结束2字节标记代码2字节固定值0xFFD9这里补充说明一下,由于在JPEG文件中0xFF具有标志性的意思,所以在压缩数据流(真正的图像信息)中出现0xFF,就需要作特别处理。具体方法是,在数据0xFF后添加一个没有意义的0x00。换句话说,如果在图像数据流中遇到0xFF,应该检测其紧接着的字符,如果是1)0x00,则表示0xFF是图像流的组成部分,需要进行译码;2)0xD9,则与0xFF组成标记EOI,则图像流结束,同时图像文件结束;3)0xD0~0xD7,则组成RSTn标记,则要忽视整个RSTn标记,即不对当前0xFF和紧接的0xDn两个字节进行译码,并按RST标记的规则调整译码变量;3)0xFF,则忽视当前0xFF,对后一个0xFF再作判断;4)其他数值,则忽视当前0xFF,并保留紧接的此数值用于译码。二、JPEG解码过程详解下面来详细讲述JPEG文件的解码过程。1.读入文件的相关信息按照上述的JPEG文件数据存储方式,把要解码的文件的相关信息一一读出,为接下来的解码工作做好准备。参考方法是,设计一系列的结构体对应各个标记,并存储标记内表示的信息。其中图像长宽、多个量化表和哈夫曼表、水平/垂直采样因子等多项信息比较重要。以下给出读取过程中的两个问题。1)整个文件的大体结构JFIF格式的JPEG文件(*.jpg)的一般顺序为:SOI(0xFFD8)APP0(0xFFE0)[APPn(0xFFEn)]可选DQT(0xFFDB)SOF0(0xFFC0)DHT(0xFFC4)SOS(0xFFDA)压缩数据EOI(0xFFD9)2)字的高低位问题JPEG文件格式中,一个字(16位)的存储使用的是Motorola格式,而不是Intel格式。也就是说,一个字的高字节(高8位)在数据流的前面,低字节(低8位)在数据流的后面,与平时习惯的Intel格式不一样。.3)读出哈夫曼表数据a)理论说明在标记段DHT内,包含了一个或者多个的哈夫曼表。对于单一个哈夫曼表,应该包括了三部分:哈夫曼表ID和表类型这个字节的值为一般只有四个0x00、0x01、0x10、0x11。0x00表示DC直流0号表;0x01表示DC直流1号表;0x10表示AC交流0号表;0x11表示AC交流1号表。不同位数的码字数量JPEG文件的哈夫曼编码只能是1~16位。这个字段的16个字节分别表示1~16位的编码码字在哈夫曼树中的个数。编码内容这个字段记录了哈夫曼树中各个叶子结点的权。所以,上一字段(不同位数的码字数量)的16个数值之和就应该是本字段的长度,也就是哈夫曼树中叶子结点个数。b)举例说明以下面一段哈夫曼表数据举例说明(数据全部以16进制表示):11000202000501060100000000000000000001110221033141125161718191221332红色部分(第1字节)为哈夫曼表ID和表类型,其值0x11表示此部分数据描述的是AC交流1号表。蓝色部分(2~17字节)为不同位数的码字的数量。这16个数值实际意义为:没有1位和4位的哈夫曼码字;2位和3位的码字各有