《计算机学报》2009年7期1以数字图像为载体的隐写分析研究进展王朔中1张新鹏1张卫明1,21.上海大学通信与信息工程学院,上海2000722.信息工程大学信息工程学院,郑州450002摘要:隐写和反隐写的对抗是关系到信息安全的重要课题。本文针对常用隐写载体之一即数字图像,回顾反隐写技术的最新进展。根据隐写技术快速发展对反隐写研究提出的挑战,对近几年提出的新方法和新思路进行梳理和归纳,给出系统和扼要的评述,供隐写和反隐写研究者参考。重点围绕三方面展开讨论:对于克服了统计不对称性的LSB匹配嵌入法如何进行有效的检测或嵌入率估计;对于小嵌入率隐写进行分析的研究中有哪些进展;面对层出不穷的隐写新方法,如何实现不针对具体嵌入算法的通用隐写分析。对于反隐写研究的发展趋势和面临的新问题也作了讨论。关键词:隐写,隐写分析,LSB匹配,隐写嵌入率,通用隐写分析1.引言自上世纪90年代初以来,信息隐藏作为信息安全中的重要课题引起了国际学术界的重视。首先是对保护多媒体产品版权的数字水印研究急剧升温,公开发表的论文呈指数规律逐年上升,不少开发数字水印产品的公司应运而生。目前数字水印技术的发展势头有增无已。对信息隐藏另一重要领域即数字隐写(steganography)的研究也随之跟上,很早就出现了一些简单的隐写方法[1]。到世纪之交开始了对这一领域的广泛探索。隐写是以表面上正常的数字载体如图像、音频和视频等作为掩护,在其中嵌入秘密信息,隐藏的数据既不改变载体信号的视听觉效果,也不改变计算机文件的大小和格式,因而可实现不为人知的隐蔽通信。含密媒体通常与大量正常媒体资料混在一起,通过各种渠道特别是互联网传播。不同于传统密码通信的是,“正在进行通信”这一事实本身也被隐藏起来了,因而可用于重要消息的安全传递。随着信息隐藏技术的快速发展,大量隐写方法涌现出来,人们可以方便地获取和使用多种隐写工具。然而对这些工具的滥用却严重威胁着网络信息安全,因此研究反隐写技术是有关领域研究者面临的紧迫任务。最重要的反隐写技术是隐写分析(stegananalysis),也就是根据载体的统计特性判断其中是否含有额外的隐蔽信息。隐写分析也可以包括“定量分析”(quantitativesteganalysis)或“主动分析”(activesteganalysis)[2],即除了检测秘密信息的存在性,还要估计嵌入的秘密信息量[3]、估计密钥[4]、识别所用的隐写工具、截获隐蔽信息等。隐蔽信息的截获被认为是隐写分析的终极目标,但目前关于这方面的研究进展报道非常罕见。以检测有无可疑嵌入信息、估计嵌入数据量为基本目标的隐写分析迄今为止仍是最重要的反隐写措施。实际上对隐写的有效分析要比隐写本身更困难,这是因为各类数字载体数量巨大,嵌入方法千变万化,从中搜寻隐蔽信息犹如大海捞针。隐写存在性检测的重要意义在于:一旦数字媒体中含有隐蔽信息的事实受到怀疑,隐写行为即告失败。成功的隐写分析是追踪信息源头、切断敌对隐蔽信道的前提。另外还可以根据检测结果实施主动攻击(activeattack),删除嵌入信息或使之不能被提取,国家自然科学基金(60502039、60773079)与国家高技术研究发展计划(2007AA01Z477)资助王朔中:上海大学通信与信息工程学院教授、博导。联系地址:上海市延长路149号上海大学通信与信息工程学院200072电话(传真):021-56331964E-mail:shuowang@shu.edu.cn《计算机学报》2009年7期2达到阻止隐蔽通信的目的。隐写和反隐写的对抗是网络时代信息战的重要内容之一[5],在这一相对年轻的研究领域中已涌现了大量的成果。历年来人们从不同的角度对前期研究情况进行过概括和综述[6-11],提供了有价值的参考资料。由于相关研究的发展速度很快,有必要对近几来的最新研究情况进行归纳和梳理,着重讨论一些重要的发展方向,供研究者参考。我们根据隐写技术的新发展对反隐写研究提出的挑战,探讨隐写分析中针对若干难题的最新研究动态。可用于隐写的载体中,以数字图像的使用最为广泛。本文主要讨论以图像为载体的隐写分析问题,其中包括未经压缩和曾经过JPEG压缩而又保存为非压缩格式的情况。对JPEG格式图像的隐写分析涉及较少,有关问题将另外单独考虑。第2节简要回顾早期隐写分析方法,第3~5节讨论近年来具有代表性的新进展,分别考虑对LSB匹配嵌入的分析技术、对小嵌入量的隐写分析、不针对具体嵌入方法的通用检测这三个主要问题。近年来在隐写技术的改进和实际应用方面还出现了一些新的动向和新的思路,向反隐写研究者提出了亟待解决的新课题,我们将在第6节对此进行扼要的阐述。第7节是本文小结。2.早期隐写分析研究概况早期隐写方法(如简单LSB替换、EzStego、J-Steg、JPHide&Seek、OutGuess、Jpeg-Jsteg、F5等)大多可保证优良的含密图像视觉质量,通过视觉无法察觉疑点。但由于对统计特性考虑较少,这些方法很快就被证明在嵌入量足够大的情况下在统计上是不安全的。简单LSB替换方法虽然仅对载体图像进行微小的修改,但仍会在最低位面产生某些异常特性而容易被识别出来。这首先是因为图像最低位并不总是0和1的均匀随机分布,在某些区域呈现与内容有关的结构,LSB替换会破坏这种结构。不仅如此,简单地用隐蔽数据替换LSB还会引入统计上的不对称性,为分析者提供了可靠检测的线索。很早就出现了针对LSB嵌入法的有效检测方法。例如Westfeld等[12]不仅对某些隐写图像的最低位面方法进行了视觉检测,还提出直方图分析法,利用信息嵌入后每一对象素灰度、颜色指数、变换系数值分布趋于均匀的性质设计2检验,对有无隐写进行判断,并估计隐蔽数据长度。虽然通过改进设计嵌入方法能保持像素对的值不变从而挫败这种分析[13],但很快就又被成功地检测出来[14]。Fridrich等人的RS分析法[15][16]利用图像空间相关性导出灵敏的双重统计量。他们指出图像LSB可在一定程度上由其它位面预测,篡改LSB会削弱这种可预测性,从而导致有效的隐写分析。研究还表明,在JPEG图像中进行空域嵌入会改变量化引起的数据统计结构,因而容易被识破[17]。LSB隐写不仅可直接修改像素本身,也可在变换域实现,因此也适用于JPEG图像。常用的J-Steg是对JPEG图像中分块DCT的某些量化系数值进行LSB嵌入,因此也可用类似的分析方法进行成功的检测。研究者又指出,在DCT量化系数上进行LSB隐写会增加块效应,通过构造参考图像可估计原始DCT系数直方图[14]。针对一种经过多次改进的JPEG图像隐写方法F5[18],在水平和垂直两个方向分别剪裁4个像素,用原来的量化表对重新得到的88分块进行量化,通过与待检测图像的比较,判断DCT量化系数的直方图是否收缩实现了成功的分析[19]。张涛和平西建于2003年提出基于差分图像直方图的检测方法[20],他们将待测图像的LSB位面置0,将其差分直方图与待检测图像的差分直方图相比较,可由某一转换系数导出用于判断LSB是否被秘密信息替换过的物理量,而且这个量与嵌入数据量之间存在一定的关系,因而可以估计出隐蔽信息的长度。一种对LSB嵌入法的改进是位面复杂度分割(BPCS),将载体多个位面分成大小相等的块,用《计算机学报》2009年7期3复杂度高的位面小块承载秘密信息[21]。但含密图像的位面小块复杂度直方图存在两个明显的不连续点,据此可实现对BPCS隐写的分析[22],由复杂度直方图的不连续性可判断秘密信息存在性,并确定秘密信息块的复杂度范围,测算秘密信息嵌入量。该方法也适用于变换域位面复杂度分割隐写。调色板图像也是常用隐写载体,调整调色板中的颜色可降低隐写失真,但调色板异常会引起监控者的怀疑[23][24]。另一种方法是不改变调色板,而将颜色进行奇偶分配用以代表秘密数据[25],但通过最低位面混乱度和逆嵌入操作后的奇异颜色像素个数可察觉秘密信息的存在[26]。另外还可用一种称为PairAnalysis的高阶统计量方法对典型的调色板图像隐写工具EzStego进行分析并估计信息嵌入量,可检测的最小信息量为每像素0.1比特,性能优于过去提出的2法和RS法[27]。早期简单隐写方法所产生的统计不对称性、直方图异常、调色板异常等现象已能被多种方法检测出来,因此在某种意义上这些方法早已不再安全。但是随着反隐写研究的发展,改进的嵌入方法很快地出现,克服了早期技术的明显缺陷。例如用匹配嵌入的方法消除LSB替换所引入的统计不对称性就使统计分析更为困难。即使最简单的LSB替换,当嵌入量很小时,要可靠检测还是一个难题。解决这一难题仍有现实意义,因为LSB替换极容易实现,有研究者指出只需一条Unix命令而不必求助于任何隐写工具就可以进行LSB嵌入[28]。另外,嵌入方法层出不穷使得针对具体嵌入技术设计分析方法的反隐写方捉襟见肘,难以应付。所有这些都促使隐写分析技术不断地深入发展。3.针对LSB匹配隐写的分析LSB替换的主要安全漏洞在于仅存在2i和2i1之间的转换,而不存在2i和2i1之间的转换,这就导致了具有成对灰度值的像素数趋于相等的现象。避免这种统计异常性的最简单方法就是LSB匹配嵌入[29]:当嵌入的比特与像素值最低位相同时,像素值不变;不同时随机选择1或1。于是上述两种转换以相等的概率出现,统计不对称现象不再存在,而引起的图像失真却不变。嵌入信息的提取和简单LSB替换时一样,只要取出最低位面就可以了。LSB匹配嵌入又常被称为1隐写。本节着重讨论对像素域LSB匹配嵌入的分析,包括图像是否曾经被JPEG压缩过两种情况。Westfeld提出了一种基于统计相邻颜色数的分析方法[30],可检测经过JPEG压缩的彩色图像中的LSB匹配隐写。两个颜色[r1,g1,b1]和[r2,g2,b2],若满足|r1r2|1,|g1g2|1,|b1b2|1,则称为相邻颜色,每种颜色最多有26种相邻颜色。JPEG载体图像中相邻颜色较少,平均为4~5种,通常最多不超过9种。用LSB匹配法嵌入数据会产生大量相邻颜色,许多颜色甚至会达到26种相邻色的极限值。计算相邻颜色的平均数,例如对于载体图像是2.20,在嵌入量为100%(每一彩色像素嵌入3比特)时上升到5.58。若以最大相邻颜色数为统计检验量[28],则对于任何经JPEG压缩过的图像,即使嵌入率低到1%也能可靠检测。但是对于从未进行过JPEG压缩的图像,或者只要对JPEG图像进行重采样,这种检测就完全失效,因为此时载体图像本身就包含具有很多相邻颜色的像素。Harmsonetal.[31]将图像直方图hC(n)的离散Fourier变换HC(k)称为直方图特征函数(histogramcharacteristicfunction,HCF)。他们认为含密图像可看作载体图像与加性噪声之和,因此含密图像的直方图hS(n)是hC(n)和噪声概率分布函数f(n)的卷积。无论是LSB替换还是LSB匹配嵌入,引入的噪声均具有下列概率分布:125.005.0125.0)(nnnnf(1)《计算机学报》2009年7期4其离散Fourier变换F(k)=cos2(k/N)在k=0,1,...,N/2内从1单调下降至0,因此含密图像的HCF总是小于载体图像的HCF:)()()()(CCSkHkFkHkH(2)下标C表示载体,S表示隐写。k是“直方图谱”的自变量,物理意义不直观。考虑k[0,1,...,N/2]的总效果,定义HCF的质心(centerofmass,COM)如下:2/02/0)()(][NkNkkHkHkHC(3)可利用下列不等式实现对含密图像的检测:][][CSHCHC(4)直方图特征函数(HCF)及其质心(COM)的概念建立在加性噪声模型上,可成为检测LSB匹配隐写的基础。Ker在此基础上发展了一组有效的方法,以下着重讨论Ker的分析技术。Ker在[32]中指出,Harmsen的方法直接用于对灰度图像L