第42卷第3期2014年6月福州大学学报(自然科学版)JournalofFuzhouUniversity(NaturalScienceEdition)Vol.42No.3Jun.2014DOI:10.7631/issn.1000-2243.2014.03.0341文章编号:1000-2243(2014)03-0341-05基于主成分分析的并行特征融合JPEG隐写检测何凤英,钟尚平,杨健(福州大学数学与计算机科学学院,福建福州350116)摘要:针对目前JPEG隐写检测方法的特征选取缺乏理论依据,特征冗余度高的问题,提出一种基于主成分分析进行并行特征融合的JPEG隐写分析方法.首先分析所选特征之间的互补性,然后用主成分分析进行特征变换,去除冗余信息,最后将特征并行融合.实验结果表明,和串行特征融合相比,本文方法具有更高的JPEG隐写图像检测率和更快的分类速度.关键词:隐写检测;并行特征融合;主成分分析;特征互补;JPEG图像中图分类号:TP391文献标识码:AJPEGsteganalysisbasedonparallelfeaturefusionbyprincipalcomponentanalysisHEFeng-ying,ZHONGShang-ping,YANGJian(CollegeofMathematicsandComputerScience,FuzhouUniversity,Fuzhou,Fujian350116,China)Abstract:AimingtotheproblemsintheexistingJPEGsteganalysisschemes,suchashighredundancyinfeaturesandfeatureselectionlackingoftheoreticalbasis,thisstudyproposesaJPEGsteganalysisapproachbasedonfeaturefusionbytheprincipalcomponentanalysis(PCA)andanalysisofthecomplementarityamongfeatures.Thestudyfusescomplementaryfeaturesandisolatesredundantcompo-nentsbyPCA,andfinallyusesRBaggSVMclassifierforclassification.ExperimentalresultsshowthatthisschemeeffectivelyimprovesthedetectionrateofsteganalysisinJPEGimagesandachievesfasterspeedofimageclassification.Keywords:steganalysis;parallelfeaturefusion;principalcomponentanalysis;complementaryfeature;JPEGimage0引言隐写检测是对截获信号进行分析以判断其中是否含有秘密信息的隐写分析方法.JPEG图像作为一种最常见的图像格式,其隐写检测已成为近年来研究的重点.特征融合[1]是将原始特征数据源采用某种方法进行融合,产生新的特征集,以期能比原始特征数据包含更多综合性分类信息的方法,和单一特征相比,融合特征具有更好的综合信息表现能力.近年来,特征融合在图像隐写检测方面有不少研究成果.Pevny等[2]改进Fridrich等[3]和Shi等[4]的成果,分别得到193维DCT扩展特征和81维的Markov降维特征,并进行串行融合,得到274维的融合特征.Kodovsky等采用CC-PEV和SPAM特征进行串行融合[5],Fridrich等采用high-dimensionalrichmodel在随机子空间上进行特征融合分类[6].上述方法虽然在隐写分析正确率上有一定的提高,但他们是将两组特征首尾相连进行串联形成新的特征矢量,不仅存在大量的冗余信息,而且容易引起维数灾难问题,此外,上述方法选取融合特征具有很强的主观随意性,没有考虑特征间的关系,所提取的特征未必有利于分类.基于以上分析,本研究提出一种基于主成分分析(principalcomponentanalysis,PCA)进行并行特征融合的JPEG隐写检测方法.该方法首先选取当前分类准确度较高,并具有互补性的特征,然后采用PCA对收稿日期:2012-08-27通讯作者:何凤英(1979-),讲师,主要从事信息隐藏图像处理研究,hfy@fzu.edu.cn基金项目:福建省教育厅科研资助项目(JB09003)福州大学学报(自然科学版)第42卷http//xbzrb.fzu.edu.cn特征进行变换,去除特征中的冗余信息,最后对变换后的特征进行并行融合.实验结果表明,和串行特征融合方法相比,本文提出的特征融合方法具有更好的检测效果和更快的分类速度.1隐写特征及互补性分析选取两类经典的JPEG隐写特征MPB特征[4]和PEV特征[7]进行检测分类.MPB特征的提取方法[4]如下:按4个方向(水平垂直主对角和副对角)对JPEG量化系数矩阵求差,得到4个差值矩阵,然后对各个差值矩阵计算一阶TPM,最后得到4(2+1)2维特征向量.PEV特征的提取方法[7]如下:首先,计算7种特征,分别为AC系数直方图矩阵;共生矩阵st;DCT系数直方图矩阵(亮度部分);双直方图矩阵;方差;块内分块特性;基于Markov模型的转移概率矩阵,,组合上述特征得到特征r.然后,利用图像校准技术对图像最外层四周各裁剪4行4列后进行JPEG压缩,重新提取组合以上7种特征得到特征c最后,将r,c的串行特征称为PEV特征MPB特征将JPEG量化系数差值视为一阶Markov过程,而PEV特征则基于校准技术组合了7种特征,因此它们具有不同的特征分布模型.在不同的模型下,隐写行为对特征具有不同的改变程度,很难做到即要兼顾不同的分布模型,又使得每个模型下的扰动量达到最小[8].因此,融合不同模型的特征,可以较容易的检测特征的改变,因而具有互补性.2基于PCA并行特征融合的JPEG隐写检测2.1PCA方法主成分分析[9](PCA)又称K-L变换,是寻求有效的线性变换的经典方法之一,其主要目的是降维,将原来具有一定相关性的变量通过线性变换重新组合成一组新的互不相关的几个主成分,有效去除冗余信息.令{1,2,,},为维输入样本向量,每个向量有个特征,即(,1,,2,,,)T.PCA的目的是生成个新特征向量(1,2,,)T,它们满足T,其中为转换矩阵,是协方差矩阵T的特征向量,(1,2,,)T,且diag[1,2,,]经过变换后,中的各列按方差降序排列,称此时的1,2,,为第1,2,,个主分量22并行特征融合图1基于PCA并行特征融合的JPEG检测框架Fig.1FrameworkofJPEGparallelfeaturesfusionbasedonPCA文献[10]给出了并行特征融合策略的思想:假设,为同一样本的两组特征向量,则用复向量i(i为虚数单位)来表示样本的并行组合特征注意,复向量并行融合要求两组融合特征的维数必须一致,若维数不等,那么低维的特征向量用零补足例如,(1,2,3)T,(1,2)T,则(1i1,2i2,3i0)T表示组合以后的特征向量显然,复向量空间的特征维数为两组融合特征维数的最大值2.3算法描述JPEG检测方法如图1所示,具体算法由如下4步骤组成.步骤1特征提取及预处理.对于训练集{1,2,,}提取PEV和MPB特征矩阵,为样本PEV特征矩阵{1,2,,}为行列,其中:为个不同的训练样本第维特征值组成的向量,{,1,,2,,,}T;MPB特征矩阵{1,2,,}为行列,其中:为个不同的训练样本第维特征值组成的向量,{,1,,2,,,}T,并对特征矩阵进行归一化处理,得到和步骤2特征变换分别对特征矩阵和进行PCA处理根据协方差矩阵求得转换矩阵,将转换到变换243第3期何凤英,等:基于主成分分析进行并行特征融合的JPEG隐写检测http//xbzrb.fzu.edu.cn域上,得到矩阵,为行列,特征转换为主成分{1,2,,}对进行类似的处理,得到矩阵,为行列步骤3特征降维和中的各列按方差降序排列,分别提取和的前维主成分,组成行列的矩阵和,其中,通过交叉验证确定步骤4特征融合利用复向量对所提取的特征和进行并行融合,得到特征集为本文的分类特征3仿真实验结果与分析3.1实验数据从USC-SIPI图像库[11]和我们自己采集的图像库(图像主题包括人物风景建筑动植物等)中随机选取3000幅规格为640px×480px的JPEG图像进行实验.使用F5OutguessMBSteghide四种隐写算法分别以0.250.50.75和1bac-1的嵌入率对图像进行隐写.实验过程中,针对不同嵌入容量的不同隐写算法,任选1500幅原图及其对应的1500幅隐写图片作为训练样本,剩余的1500幅原图及其对应的1500幅隐写图片作为检测样本.并用C-支持向量分类机(C-SVC)进行分类验证,核函数采用RBF核,采用十折交叉验证法根据数据集特征自动选取训练参数和3.2实验结果及对比分析实验一验证所提方法在四种常见隐写算法下进行JEPG隐写检测的有效性.分别针对单一MPB特征单一PEV特征串行融合特征并行融合特征PCA降维串行融合特征(降维至原始特征1/3)PCA降维并行融合特征(降维至原始特征1/3)以及文献[8]等7种不同的方法做了对比实验.实验结果列于表1.表1不同方法的检测率比较Tab.1Comparisonofthedetectionrateofdifferentmethods隐写算法嵌入率/bac-1检测率/%MPBPEV串行融合并行融合降维串行融合降维并行融合文献[8]方法F50.2578.6086.5387.8092.2390.2092.3390.600.5087.5091.9092.1092.0093.2094.3393.900.7590.1792.5090.6395.0096.9397.1097.001.0090.7095.3395.6797.0097.0097.6797.47Outguess0.2588.0088.9089.2090.7393.9395.1093.300.5087.1789.6090.1791.3794.4095.7795.600.7591.0391.4092.4091.5395.5097.2796.331.0093.4094.5393.3095.4797.0798.2097.07MB0.2587.7087.3391.7793.4097.1097.3795.600.5090.5389.3393.3094.0797.2799.0097.270.7595.0095.5395.5395.7097.40100.0097.201.0096.6397.2097.3398.5799.6099.7098.00Steghide0.2588.5091.5792.1792.9096.6398.9396.700.5093.9393.0795.2096.1098.5099.2398.300.7593.0795.9797.3397.5799.4799.8399.331.0095.2095.0099.4399.63100.00100.00100.00实验结果表明:总体而言,在不同隐写率下,融合后的特征,不管是串行还是并行,在不同隐写方法下的检测效果都比单一特征好,仿真实验证明了单一特征之间存在优势互补的特性,所融合的特征矢量能包含更多的分类信息,从而增强分类器的识别能力;在相同情况下,并行融合的方式其检测性能总体上优于串行融合的方式,而经过PCA降维后的并行融合检测率提高幅度更大,和降维前的并行融合相比,检测率有2%~6%的提升,和降维后的串行融合相比,检测率约有2%~3%的提升;文献[8]的思想是串行融合特征后进行PCA降维,本文方法则先对特征降