半监督模糊Fisher降维分析*杨昔阳1,邓朝阳2,李志伟1(1泉州师范学院大数据重点实验室泉州福建362000,2泉州医学高等专科学校泉州福建362000)摘要:针对少量具有模糊隶属度类别的数据和大量未知类别的数据组成的数据集,提出了一种结合PCA和局部Fisher判别分析的半监督降维方法。这种半监督方法结合了PCA和局部Fisher判别的优点,一方面可保持所有数据的全局分布结构,另一方面又体现了已知类别属性的样本分类信息。所提出的模型可以通过求解特征值问题求解。实验表明,在获取较为准确的模糊隶属度的情况下,这种算法可以有效地对多维数据进行降维。关键词:模糊隶属度;PCA;局部Fisher判别分析;广义特征值问题ASemi-supervisedFuzzyDimensionReductionMethodYangXiyang1,DengChaoyang2,LiZhiwei1(1KeylaboratoryofIntelligentComputingandInformationProcessingofFujianProvince,QuanzhouNormalUniversity,Quanzhou,China,3620002QuanzhouMedicalCollege,Quanzhou,China,362000)Abstract:Thispaperproposedasemi-supervisedfuzzydimensionreductionmethodbycombiningPCAandlocalFisherDiscriminantAnalysis,foradatasetwithasmallnumberofdatawithfuzzymembershiplabelsandagreatamountofunlabeleddata.ThismethodtakesadvantagesofPCAandlocalFDAbypreservingtheglobalstructureofunlabeledsamples,andseparatinglabeledsamplesindifferentclassesfromeachother.Ourtestsshowtheusefulnessofthismethodindimensionreduction,providedthatthefuzzymembershiplabelsarecorrectlygiven.Keywords:FuzzyMembership;PCA;LocalFisherDiscriminantAnalysis;GeneralizedEigenvalueProblem将高维数据转化为低维数据,可以降低模式识别算法的计算量,避免算法陷入“维数灾难”。降维算法通过线性或非线性变换,建立从高维空间到低维空间的映射,并尽量保持数据的邻域分布信息。降维算法可以分为监督降维和无监督降维两种。无监督降维方法包括主成分分析(PrincipleComponentAnalysis,PCA)[1],局部保持投影(LocalityPreservingProjection)[2],多维尺度分析(MultidimensionalScaling)[3]等。这类算法由于缺乏足够的类别指标的指引,对于某些数据集,在降维过程可能会存在一定的盲目性[4]。监督降维方法,包括Fisher判别分析(FisherDiscriminantAnalysis,FDA)[1],局部Fisher判别分析(LocalFisherDiscriminantAnalysis,L-FDA)等[5][6]利用样本的类别属性信息进行降维,在有类别属性的样本(标号样本)足够多的情况下,这类算法往往可以取得较好的降维效果。但是在实际应用场合,获取足够多的标号样本往往是不切实际的。如果仅仅依靠少量标号样本进行降维,当选取的样本没有足够的代表性时,其效果反而不如无监督降维。此时,综合利用大量无标号样本和少量标号样本的半监督降维方法是一种可行的降维手段[4][7]。*收稿日期:基金项目:福建省教育厅资助项目(JA12273,JK2013037,JA13395);泉州市科技局项目(2012Z103)通信作者:李志伟(1965-),男,教授,从事应用数学研究.Wei2785801@qztc.edu.cn.上述降维方法处理的数据集都是具有分明类别属性的,也就是说一个数据要么属于某一类,要么不属于某一类,没有中间的过渡情况。处理具有模糊隶属度的数据的方法有很多,其中关于降维的算法包括:模糊FDA(FuzzyFisherDiscriminantAnalysis,F-FDA)[8][9],概率型FDA(Probabilisticdiscriminantanalysis)[10]和基于核函数的模糊FDA[11]等。此外模糊化方法也经常用于模式识别的场合,比如基于模糊图(FuzzyGraph)特征提取算法[12],模糊支持向量机[13]等。由此可见“模糊化”是改造经典模式识别算法是一种手段。本文综合“模糊化”和半监督学习两种思想,提出了一种基于半监督模糊局部Fisher判别的降维方法(Semi-supervisedFuzzyLocalFisherDiscriminantAnalysis,SFL-FDA)。SFL-FDA首先计算模糊化的局部组内散度矩阵和组间散度矩阵,借鉴半监督学习的思想,与PCA的总散度矩阵进行综合,构造一个广义特征值问题,并通过求解这个问题得到最佳降维方向。这种方法综合了半监督学习和模糊化方法的优点,在本文的实验中,这样的综合有助于提高降维的效果。本文的后续部分安排如下:第一节首先介绍与SFL-FDA相关的算法,第二节首先介绍了模糊FDA,并给出了它的逐对表达形式(PairwiseForm),通过对它的修改提出了模糊局部FDA算法.最后和PCA进行综合,提出了SFL-FDA降维模型。最后一节给出三个实验,验证SFL-FDA算法的有效性。1降维方法回顾本节主要介绍和数据降维相关的一些数学模型。记1,2,,dixRin是n个d维的数据样本,其中ix是dR空间的(列)向量,所有的ix将组成一个dn的数据集12,,,nXxxx。本文所研究的降维指的是,在dR空间中寻找最佳的投影(列)向量1dz,使得d维的ix转变为一维的'izx,即ix在z上的投影。如果希望将ix转化为r维数据(1)rd,则需要寻找r个列向量12,,,rzzz。记12,,,rZzzz,则ix降维之后的r维数据'iZx表示ix在Z上的r个投影。1.1主成分分析(PCA)主成分分析(PCA)是一种使用最为广泛的无监督降维方法[1]。在PCA中,总散度矩阵(TotalScatterMatrix)定义为()1()()ntiiixxxxS其中11niixxn表示样本均值。()tS还可以写成逐对形式(PairwiseForm)[5]()(),111()()2nnttijijijijSwxxxx其中逐对系数矩阵(),1.tijwn(1)PCA通过下式1()Optimalargmax,dtzRdzzIzzSz(2)求解最佳投影向量Optimalz,其中dI表示单位矩阵。1.2Fisher判别分析(FDA)线性判别分析(FDA)是一种应用广泛的,有监督的降维方法。对于一个带有分明类别属性的数据集{(,)},,2,,1iixyin,'n表示标号样本的数量,{1,2,,}icy表示样本点ix的类别属性,c表示类别的总数。“分明”是指,ix只能属于且仅能属于某一类别。FDA的组间散度矩阵(Between-classScatterMatrix)定义为'1 mmcbmmSnxxxx组内散度矩阵(Within-classScatterMatrix)定义为,11 icwniimmimmySxxxx,且其中1,,1='miiiymmnxxn且表示第m个类别的样本均值,'mn为第m个类别的样本数;iy表示ix的类别属性,求和符号的下标“,,1,inimy”表示对所有属于第m个类别的样本求和。可以证明,bS和wS的逐对形式为[5]:''(),11()()nnbbijijijijwxxxSx和''(),11( )()nnwwijijijijwxxSxx其中组间逐对系数(),1'1,1'iyijbijijnnyywnyy,(3)组内逐对系数(),1,0iyijwijijnyywyy,(4)FDA通过求解1()Optimal()argmax,dwbzRzzzzzSS(5)得到投影向量Optimalz。1.3局部Fisher判别分析(localFDA,L-FDA)在(3)式中,组间系数矩阵的元素(),bijw仅仅依赖于,ijxx的类别信息,ijyy,而与,ijxx的距离远近无关。为了区分不同的数据对(,)ijxx对降维的作用,强化样本局部的分布信息,Sugiyama在文献[5]中提出了局部Fisher判别分析法(L-FDA)。L-FDA通过修改(3)式和(4)式逐对系数(),bijw和(),wijw的定义,,,()(),,,1'1,01'iiijyijijyijlblwijijijijAnyyAnnyywwyynyy,,(6)使得距离比较远的,具有相同类别属性的数据对(通过,ijA)对降维方向的选取产生较小的影响。调节参数,ijA的定义方式有多种,Sugiyama建议采用2,=expijijijxxA其中()kiiixx,()kix表示ix的第k个近邻。实验表明7k是一个较好地选择[5]。相应的局部组间散度矩阵(LocalBetween-classScatterMatrix)lbS和局部组内散度矩阵(LocalWithin-classScatterMatrix)lwS可以写成:''(),11()()nnlblbijijijijxxxxwS和''(),11()( )nnlwlwijijijijwxxxSx和FDA一样,LFDA通过最大化组间散度平方和,同时最小化组内散度平方和来寻找最佳投影向量,即1()Optimal()argmaxdlblwzRzzSzzzS(7)2半监督模糊局部Fisher判别分析由于模糊集合比普通的集合具有更强的类别属性表达能力,很多基于分明集的方法都有基于模糊集的拓展,例如基于模糊集的FCM算法是基于分明集的K-means的拓展;基于模糊集的模糊推理理论是基于一般集合论的数理逻辑的扩展。本节将给出LFDA的模糊化方法,并将其与主成分分析结合,构造一种新的半监督模糊局部Fisher判别方法。2.1模糊Fisher判别分析(FuzzyFDA,F-FDA)线性判别分析是一种常用的监督型降维方法,主要应用于具有分明的类别属性的场合。对于一个带有模糊类别属性的数据集{(,)},,2,,1iixuin,,1,2,(,,),iiiicuuuu表示样本点ix属于各个类别的隶属度,c仍然表示类别的总数。规定,,11,10cimimmuu。定义标号样本的总体均值和类均值为''(),1111,,'nnmiimiiimxxuxnxn(8)其中'n表示标号样本的容量,',1nmiminu表示第m类的样本容量。模仿FDA中组间散度矩阵bS和组内散度矩阵 wS的形式,定义模糊组间散度矩阵(FuzzyBetween-classScatterMatrix)为'1 mmcfbmmSnxxxx将(8)式代入,则fbS可以写成如下的逐对形式'''''',,