TIF图像数据结构之研究TIF文件格式最早是为了存储扫描仪图像而设计的。它的最大的特点就是与计算机的结构、操作系统以及图形硬件系统无关。它可处理黑白、灰度、彩色图像。在存储真彩色图像时和BMP格式一样,直接存储RGB三原色的浓度值而不使用彩色映射(调色板)。对于介质之间的交换,TIF称得上是位图格式的最佳选择之一。TIF的全面性也产生了不少问题,它的包罗万象造成结构较为复杂,变体很多,兼容性较差,它需要大量的编程工作来全面译码。例如,TIF图像数据可以用几种不同的方法压缩,用一个程序来读出所有的TIF几乎是不可能的。TIF图一般由三个部分组成:文件头(简称IFH)、文件目录(简称IFD)、图像数据。一、图像文件头(ImageFileHeader)IFH数据结构包含3个成员共计8个字节(见表一):表一IFH结构描述------------------------------------------------------------名称字节数数据类型说明------------------------------------------------------------Byteorder2IntegerTIF标记,其值为4D4D或4949Version2Integer版本号,其值恒为2A00OffsettofirstIFD4Long第一个IFD的偏移量------------------------------------------------------------表一说明1.Byteorder:可能是H4D4D或H4949,H4D4D表示该图是摩托罗拉整数格式,H4949表示该图是Intel整数格式。2.Version:总是H2A00,它可能是tif文件的版本,也可能用于进一步校验该文件是否为TIF格式。3.OffsettofirstIFD:第一个IFD相对文件开始处的偏移量(因为可能会有多个顺序排列的IFD)。IFD数据结构并不一定紧跟在IFH后面,相反,它常常位于第三部分图像数据的后面,即TIF图像文件的一般组织形式是:IFH——图像数据——IFD。二、图像文件目录(ImageFileDirectory)IFD是TIF图像文件中重要的数据结构,它包含了三个成员。由于一个TIF文件中可以有多个图像,而一个IFD只标识一个图像的所有属性(有的文章把“属性”称之为“标签”),所以,一个TIF文件中有几个图像,就会有几个IFD。IFD的结构见表二:表二IFD结构描述-----------------------------------------------------------------名称字节数数据类型说明-----------------------------------------------------------------DirectoryEntryCount2Integer本IFD中DE的数量DirectoryEntry(1)12简称DE,中文译义“目录项”DirectoryEntry(2)12……DirectoryEntry(N)12OffsettonextIFD4Long下一个IFD的偏移量-----------------------------------------------------------------表二说明1.DirectoryEntryCount:指出在该IFD中DE的个数;2.DirectoryEntry:共12个字节,结构见表三。需要指出的是,DE的个数是不定的,因为每个DE只标识了图像的一个属性,那么这幅图像有N个属性就会有N个DE,用户甚至可添加自定义的标记属性,这就是为什么称TIF格式文件为“可扩充标记的文件”的原因。3.OffsettonextIFDOrNULL:下一个IFD相对于文件开始处的位置,这是一个链式构成。如果该数字为0,表示已经是最后一个IFD。当然,如果该TIF文件只包含了一幅图像,那么就只有一个IFD,显然这个偏移量也会等于0。表三DE结构描述--------------------------------------------------名称字节数数据类型说明--------------------------------------------------tag2Integer本属性的标签编号type2Integer本属性值的数据类型length4Long该类型数据的数量valueOffset4Long属性值的存放偏移量--------------------------------------------------表三说明由DE标识的图像属性有:图像的大小、分辨率、是否压缩、像素的行列数、颜色深度(单色、16色、256色、真彩色)等等。其中:①tag:是该属性的标签编号(TagID),在图像文件目录中,它是按照升序排列的(但不一定是连续的)。这些编号在TIF格式官方白皮书中可以查到相应的含义,但遗憾的是,我们到哪儿可以找到官方白皮书呢?所以,笔者只能把网上能找得到资料(再结合自己的实验结果)罗列出来,见表四。②type:表示该属性数据的类型,一般认为TIF官方指定的有5种数据类型(但也有说12种数据类型的)。见表五。③length:该种类型的数据的个数,而不是某个数据的长度。④valueOffset:是tagID代表的变量值相对文件开始处的偏移量,但如果变量值占用的空间不多于4个字节(例如只有1个Integer类型的值),那么该值就直接存放在valueOffset中,没必要再另外指向一个地方了。表四DE中标签编号的含义-------------------------------------------------------------------------TagID属性名称type说明-------------------------------------------------------------------------0100图像宽00030101图像高00030102颜色深度0003值=1为单色,=4为16色,=8为256色。如果该类型数据个数>2个,说明是真彩图像0103图像数据是否压缩0003值=05表示压缩0106图像是否采用反色显示0003值=01表示反色,否则表示不反色0111图像扫描线偏移量0004图像数据起始字节相对于文件开始处的位置0116图像扫描线的数量0004表示图像有几行扫描线,实际上等于图像高度0117图像数据字节总数0003如果不是偶数,那么实际存放时会在后面加0011A水平分辩率偏移量0005常用计量单位是:像素/英寸011B垂直分辩率偏移量0005常用计量单位是:像素/英寸0131生成该图像的软件名0002文本类型0132生成该图像的时间0002文本类型0140调色板偏移量0003256色和16色图像才有此属性,而且有连续2个调色板,但属性的length值只表示出1个调色板-------------------------------------------------------------------------表四说明①“水平(垂直)分辩率”是分数型的属性,其值要占用8个字节,所以在valueOffset中存放的肯定是它的具体数值的偏移量,而不是数值本身。②“生成图像的软件名称”和“生成图像的时间”这两个字符型属性,它们的值所占用的空间也会大于4字节,所以在valueOffset中存放的也是它们的值的偏移量,而不是值本身。③“图像数据字节总数”一般是个偶数,如果是奇数,那么实际存放时会在后面加一个0,但这个0不会计算在字节总数之内。表五DE中的数据类型--------------------------------------------------------------------type值数据类型说明--------------------------------------------------------------------0001Byte0002Ascii文本类型,7位Ascii码加1位二进制00003Integer0004Long0005RATIONAL分数类型,由两个Long组成,第1个是分子,第2个是分母--------------------------------------------------------------------三、图像数据。这些数据可能是压缩的,也可能是未压缩的。如果经过压缩,那么压缩算法又有许多种,所以,图像数据是TIF文件中最为复杂的部分,暂还没有哪个软件能译出所有的压缩算法。四、一个Tif文件的实例让我们自己动手做一个实验,以加深理性认识。用系统自带的画图程序新建一个17*15的白色图像,另存为TIF文件,它的全部数据如下(因设备差异你的数据也许会有些微不同):0000:49492A004E000000803FE0503824160D0010:0784426150B864361D0F8844625138A40020:562D178C466351B8E4763D1F904864520030:3924964D1880800060000000010000000040:60000000010000000800080008000F000050:FE0004000100000000000000000103000060:010000001100000001010300010000000070:0F0000000201030003000000480000000080:030103000100000005000000060103000090:0100000002000000110104000100000000A0:0800000015010300010000000300000000B0:16010400010000000F0000001701040000C0:010000002F0000001A0105000100000000D0:380000001B010500010000004000000000E0:1C01030001000000010000002801030000F0:01000000020000003D010300010000000100:0100000000000000简要分析(请注意转换16进制数据时,低位在前,高位在后):0000-0007:文件头,可以看出,该图是Intel整数格式,第一个IFD的偏移量为4E。0008-0037:图像数据。注意最后那个0是补加的,它没有统计在“图像数据字节总数”属性值中。0038-003F:水平分辩率值。0040-0047:垂直分辩率值。0048-004D:颜色深度值。004E-0107:第一个IFD。DirectoryEntryCount的值(004E-004F)为F,表示这个IFD中有15个DE,每个DE占用12字节,15个DE共占用180字节,加上DirectoryEntryCount占用的2字节,再加上OffsettonextIFD占用的4字节,这个IFD共占用186字节,换算为16进制就是BA,所以,它的数据结束于0107。OffsettonextIFD的值(最后4个字节)均为0,表示整幅图像文件只有这一个IFD。其中15个DE的描述见表六。表六一个Tif文件实例的DE描述-------------------------------------------------------------------------顺号偏移量TagIDTypelengthvalueOffset说明--------------------------------------------------------------------------1005000FELong100未知属性值=02005C0100Integer111图像宽为17像素(10进制)300680101Integer1