基于核的主成分分析(KernelPrincipalcomponentanalysis,KPCA)主要内容1.研究意义2.PCA原理回顾3.KPCA原理4.KPCA在电子鼻系统中的应用5.小结1.研究意义大量的现实应用需要利用待处理对象的非线性特征。KPCA正是一种非线性主成分分析方法,它能有效提取非线性特征,具有更广阔的实际应用。KPCA方法原理示意图原始数据空间高维特征空间核方法非线性映射PCA分析),(jixx)()(jixx),(jixxK)()(),(),(jijijixxxxKxx2.PCA原理分析几何意义示意图原坐标系中,x1,x2凸显出明显的线性相关性;新坐标系中,pc1,pc2几乎不相关。基本思想:将多个相关变量投影到另一组正交空间内,得到一组新的变量,使得新变量具有最大的方差。(方差反映了数据差异的程度,方差最大的方向对应信息量最大的方向)2.PCA原理分析推导过程:(1)设矢量,记,(2)考虑如下线性变换其中均为相互正交的p维单位向量,即变换后的新坐标系。通过求解,使得的方差达到最大。2.PCA原理分析T12p(,,)XXXXuX)(Eov(CXΣ)=T11111221pp1T22122222pp2Tpp11p22ppppaaaaaaaaaYXXXaXYXXXaXYXXXaX12pa,a,,aiaiY(3)求解的方差即对总体特征的贡献率(4)令,则(5)即为的协方差矩阵的特征值,即为对应的特征向量。则当最大时,也即的方差达到最大,因此对应的特征向量就是第一主轴方向,称为第一主成分。2.PCA原理分析1YTTT2T11111111()()(())pkkkVarVarEpYaXaXaXaΣa()=Var1YT111111aaaΣaΣaaX1a1Y1a11TYaX小结:求解主成分的过程就是对原始矩阵的协方差矩阵进行特征值分解,并将特征值从大到小进行排序,则前面的k个特征值对应的特征向量就是最佳的k维投影方向。2.PCA原理分析3.KPCA原理分析基本思想:基于核函数原理,通过非线性映射将输入空间投影到高维特征空间,然后在高维特征空间中对映射数据做主成分分析,因而具有很强的非线性处理能力。3.KPCA原理分析推导过程:(1)输入空间的M个样本,使(中心化保证零均值),则其协方差矩阵为(2)对于一般的PCA方法,即通过求解特征方程获得贡献率最大的特征值及与之相对应的特征向量),,2,1(MkxkNkRx01MkkxTjMjjxxMC11C3.KPCA原理分析推导过程:(3)现引入非线性映射函数,使输入空间样本点变换为特征空间中的样本点并且满足中心化条件,即则在特征空间F中的协方差矩阵为(3-1)Mxxx,,,21)(),(),(21Mxxx0)(1MkkxTjMjjxxMC)()(113.KPCA原理分析推导过程:(4)则在特征空间中的PCA是求解下列方程的特征值和特征向量(3-2)(5)进而有(3-3)(6)由于特征向量可以由数据集线性表示,则可以由线性表示,即(3-4)C),,2,1()())((MkCxvxkk),,2,1)((Mixi)(1iMiix3.KPCA原理分析推导过程:(7)由式(3-2)~(3-4)得(3-5)(8)定义矩阵K:(3-6)),,2,1())()(())()((1))()((111MkxxxxMxxijMjjkMiiiiMiiMM)()(jiijxxK3.KPCA原理分析推导过程:(9)则式(3-6)简化为(3-7)(10)显然满足,则必然满足式(3-7)(3-8)(11)通过对式(3-8)的求解,即可获得要求的特征值和特征向量2KKMKM4.KPCA在电子鼻系统中应用传感器阵列信号特征提取SVM多类分类模型输出分类结果比较KPCA、PCA、ICA、原始特征4.KPCA在电子鼻系统中应用数据集subsetsNumberofsamplesinthesubsetHCHOC6H6C7H8CONH3NO2TrainingsetTestingset1569940352918523313121064.KPCA在电子鼻系统中应用KPCA主成分累计贡献率特征值差值贡献率累积贡献率PC1PC2PC3PC4PC5PC6PC7PC8PC9PC10PC11PC12PC13PC14PC15PC16PC1768.0753.7822.2316.9913.3311.127.604.663.752.892.872.412.231.921.661.390.9814.2931.545.233.662.203.522.930.910.850.020.450.180.310.260.260.410.0729.9523.669.787.475.864.893.342.051.651.271.261.060.980.840.730.610.4329.9553.6163.4070.8876.74881.6484.9987.0488.6989.9791.2392.2993.2894.12794.8595.4795.90对训练集进行KPCA分析结果4.KPCA在电子鼻系统中应用-1-0.500.51-1-0.500.51-0.500.51PC-1PC-2PC-3HCHOC6H6C7H8CONH3NO24.KPCA在电子鼻系统中应用ClassClassificationaccuracy(%)oftestsetOriginalPCAICAKPCAHCHOC6H6C7H8CONH3NO296.1592.9498.9094.2394.9492.9295.1693.9397.5100.084.80100.074.2891.4267.50100.093.1093.1090.00100.088.88100.088.0094.44Mean90.8195.0687.3997.104.KPCA在电子鼻系统中应用ClassClassificationaccuracy(%)oftestsetOriginalPCAICAKPCAHCHOC6H6C7H8CONH3NO290.3894.2366.5392.3084.8475.7559.5463.63100.092.3051.2584.6158.3383.3328.88100.060.040.063.33100.066.6683.3340.050.0Mean76.8678.1651.3881.755.小结PCA:●线性映射方法,忽略了数据之间高于2阶的相互关系●基于特征的维度●新特征是原有特征的线性叠加,物理意义明确KPCA:●PCA的非线性扩展算法,采用非线性的方法抽取主成分●基于样本的维度(特征的数目为输入样本的维数)●新特征物理意义不明确●适合于解决非线性特征提取问题5.小结KPCA的进一步研究:(1)减少样本数目即从学习样本集中选择有代表性的学习样本(2)核函数的参数选择即核参数的优化问题谢谢!