Fisher判别法(典型判别法)1典型判别分析SAS/STAT/Candisc过程典型判别分析的思路从几何的概念来说,是将高维空间的样本点投影到低维空间,利用低维空间的变量做判别分析,从而使分析更加直观,即对原始数据进行坐标变换,寻求能使总体尽可能分开的方向。从代数的概念来说,就是根据一个分类变量和几个定量变量,通过典型判别过程得出典型变量,典型变量是定量变量的线性组合。典型判别分析得出与组有最大可能多重相关的变量的线性组合,最大的多重相关叫做第一典型相关,其线性组合称为第一典型变量1u,线性组合的相关系数称为典型系数,次大的叫做第二典型相关,其线性组合称为第二典型变量2u。Candisc过程可使用的语句为:数据集选项:DATA=SAS-data-set(SAS数据集):指定欲分析的数据集。OUT=SAS-data-set(SAS数据集):生成一个包含原始数据和典型变量得分的数据集。OUTSTAT=SAS-data-set(SAS数据集):生成一个type=corr包含各种统计量的输出数据集。典型变量选项:NCAN=n:指定将被计算的典型变量的个数。n的值必须小于或等于变量的个数。Proccandiscoptions;(必需语句)Classvariable;(必需语句)Byvariables;Freqvariable;Varvariables;Weightvariable;X不能使总体单位尽可能分开的方向u能使总体单位尽可能分开的方向旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个。Fisher判别法(典型判别法)2打印选项:BCORR:类间相关系数。PCORR:合并类内相关系数。TCORR全样本相关系数。WCORR每一类水平的类内相关系数。BCOV:类间协方差。PCOV:合并类内协方差。TCOV:全样本协方差。WCOV:每一类水平的类内协方差。BSSCP:类间SSCP矩阵。PSSCP:合并类内修正SSCP矩阵。TSSCP:全样本修正SSCP矩阵。WSSCP:每一类水平的类内修正SSCP矩阵。ANOVA:检验总体中每一个变量类均值相等的假设的单变量统计量。SIMPLE:全样本合类内的简单描述性统计量。ALL:产生以上所有的打印选项。NOPRINT:不打印。一般语句Byvariables;By语句与Proccandisc一起使用可以对由BY变量分组的观测进行独立分析。Classvariable;Class变量的值定义分析的组,类水平由有格式的Class变量的值确定。Class变量可以是数字变量也可以是字符变量。Varvariables;Var语句指定分析中包括的定量变量。如果省略Var语句,分析包括未在其他语句中列出的全部变量。程序示例:该例是Fisher的Iris数据进行典型判别分析。数据从三种刚毛弋尾花品种各采集了50各样本。测量其萼片长度、萼片宽度、花瓣长度和花瓣宽度。做典型判别分析并观察第一和第二个典型变量的散点图,是否与原始数据的结果相符。datairis;inputsepallensepalwidpetallenpetalwidspecies@@;labelsepallen='SepalLengthinmm.'sepalwid='SepalWidthinmm.'petallen='PetalLengthinmm.'petalwid='PetalWidthinmm.';cards;数据行;proccandiscdata=irisncan=2out=outcandistanceanova;classspecies;varsepallensepalwidpetallenpetalwid;procprintdata=outcan;run;procplot;plotcan2*can1=species;run;Fisher判别法(典型判别法)3输出结果:PlotofCanonicalVariablesCanonicalDiscriminantAnalysis150Observations149DFTotal4Variables147DFWithinClasses3Classes2DFBetweenClasses类水平信息:包括分类变量取值,每类的频数、频率和权重ClassLevelInformationSPECIESFrequencyWeightProportion15050.00000.33333325050.00000.33333335050.00000.333333类间的马氏平方距离PairwiseSquaredDistancesBetweenGroups)(cov)()/(12jijixxxxjiDSquaredDistancetoSPECIESFromSPECIES1231089.86419179.38471289.86419017.201073179.3847117.201070FStatistics,NDF=4,DDF=144forSquaredDistancetoSPECIESFromSPECIES12310550.1888910982550.188890105.3126531098105.312650ProbMahalanobisDistanceforSquaredDistancetoSPECIESFromSPECIES12311.00000.00010.000120.00011.00000.000130.00010.00011.0000单变量检验的统计量,当Fpr的值小于5%,则说明每个变量在类间的差异是非常显著的。UnivariateTestStatisticsFStatistics,NumDF=2DenDF=147TotalPooledBetweenRSQ/VariableSTDSTDSTDR-Squared(1-RSQ)FPrFSEPALLEN8.28075.14797.95060.6187061.6226119.26450.0001SEPALWID4.35873.39693.36820.4007830.668849.16000.0001PETALLEN17.65304.303320.90700.94137216.05661180.16120.0001PETALWID7.62242.04658.96730.92888313.0613960.00710.0001AverageR-Squared:Unweighted=0.7224358WeightedbyVariance=0.8689444Fisher判别法(典型判别法)4多元变量检验的统计量,当Fpr的值小于5%,则说明联合检验,变量在类间的差异是非常显著的。MultivariateStatisticsandFApproximationsS=2M=0.5N=71StatisticValueFNumDFDenDFPrFWilks'Lambda0.02343863199.14582880.0001Pillai'sTrace1.1918988353.46682900.0001Hotelling-LawleyTrace32.47732024580.53282860.0001Roy'sGreatestRoot32.191929201166.95741450.0001NOTE:FStatisticforRoy'sGreatestRootisanupperbound.NOTE:FStatisticforWilks'Lambdaisexact.EigenvaluesofINV(E)*HAdjustedApproxSquared=CanRsq/(1-CanRsq)CanonicalCanonicalStandardCanonicalCorrelationCorrelationErrorCorrelationEigenvalueDifferenceProportionCumulative10.9848210.9845080.0024680.96987232.191931.90650.99120.991220.4711970.4614450.0637340.2220270.2854.0.00881.0000总体中当前的典型相关及更小的典型相关为零的检验,Fpr的值小于5%时,可以认为当前的典型相关显著不为零。TestofH0:ThecanonicalcorrelationsinthecurrentrowandallthatfollowarezeroLikelihoodRatioApproxFNumDFDenDFPrF10.02343863199.145382880.000120.7779733713.793931450.0001全样本的标准化的典型系数Total-SampleStandardizedCanonicalCoefficientsCAN1CAN2SEPALLEN-0.6867795330.019958173SepalLengthinmm.SEPALWID-0.6688250750.943441829SepalWidthinmm.PETALLEN3.885795047-1.645118866PetalLengthinmm.PETALWID2.1422387152.164135931PetalWidthinmm.原始典型相关系数PlotofCanonicalVariablesCanonicalDiscriminantAnalysisRawCanonicalCoefficientsCAN1CAN2SEPALLEN-.08293776420.0024102149SepalLengthinmm.SEPALWID-.15344730680.2164521235SepalWidthinmm.PETALLEN0.2201211656-.0931921210PetalLengthinmm.PETALWID0.28104603090.2839187853PetalWidthinmm.典型变量的类均值ClassMeansonCanonicalVariablesFisher判别法(典型判别法)5SPECIESCAN1CAN21-7.6075999270.21513301721.825049490-0.72789962235.7825504370.512766605PlotofCanonicalVariablesOBSSEPALLENSEPALWIDPETALLENPETALWIDSPECIESCAN1CAN2150331421-7.67197-0.1348926428562236.800150.58090……PlotofCAN2*CAN1.SymbolisvalueofSPECIES.CAN2‚4ˆ‚‚‚‚13‚33‚32ˆ333‚1113333‚13333‚11111223‚112333‚111111123333‚11112233330ˆ111222222233333‚111122223333‚11222222233‚111122222323333‚1122‚2223‚222222-2ˆ1223‚3‚2‚‚‚‚Fisher判别法(典型判别法)6-4ˆŠƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ-10-8-6-4-2024681010CAN1