主成分分析(Principalcomponentanalysis)主成分的定义从n个观察对象的m个变量中寻找i(im)个相互独立并具有特定结构的成分,来反映原始的个数据信息的一种多元统计分析方法。nm主成分的数学模型:C=AZC:主成分向量A:正交矩阵Z:原始变量标准化转换后向量1111mnnmaaAaa主成分线性组合表达式:11111221mmcazazaz22112222mmcazazaz1122iiiimmcazazaziiiiXXzs特征根与特征向量特征根():第i个主成分的方差特征向量:各主成分对应的系数注:特征根与特征向量是根据原变量相关系数的矩阵计算出来的。12(,,,)iiimaaai主成分的贡献率主成分的贡献率每个特征根占总方差的比例,越大,表明相应的主成分反映X的信息(“总方差”)就越多。主成分的累积贡献率前i个主成分特征根之和占总方差的比例,累积贡献越大,表明前i个主成分反映了X的信息(“总方差”)就越多。iBartlett法:取有统计学差异的经验法:累积贡献率达(70%、80%、85%、)均数法:取大于或者约等于1的主成分的个数i的确定0:0iHiii上机内容:主成分计算主成分评价主成分回归1.主成分计算见教材p50例4.1SAS的步骤①数据步(data步):略②过程步(proc步)PRINCOMP(主成分计算过程)SAS中PRINCOMP过程Procprincomp选项;*var变量列表;Run;*:表示Princomp过程必须的语句。程序4.1title'主成分分析';dataexp4_1;inputx1-x6@@;cards;141328142239........9912102346;procprincomp;varx1-x6;run;2.主成分评价步骤:提取主成分(Procprincomp)用主成分做评价•第一主成分:排序法•前两个主成分:散点图•前i个主成分:综合得分法见教材P56例4.4例4.4的程序title'主成分评价';dataexp4_4;inputid$x1-x16@@;cards;教青0.771.140.191.520.770.190.570.570.190.000.000.194.560.380.380.00........工老1.951.300.000.650.000.000.000.001.300.000.000.001.953.240.650.00;procprincompout=prindata;varx1-x16;run;指定紧接着的前一个变量类型为字符型变量“Out=c”表示产生一个名为C的数据集,C包含原始数据及各观测值对应的变量个数的主成分例4.4的程序(第一主成分、前i个主成分)title'主成分评价';dataexp4_4;inputid$x1-x16@@;cards;略;procprincompout=prindata;varx1-x16;run;procprintdata=prindata;varidprin1prin2prin3prin4;run;例4.4的程序title'主成分评价';dataexp4_4;inputid$x1-x16@@;cards;略;procprincompout=prindata;varx1-x16;run;title'plotofthefirstfactorandthesecondfactor';procgplotdata=prindata;plotprin2*prin1;run;3.主成分回归步骤:提取主成分(Procprincomp)选取前i主成分做回归(Procreg)见教材p60例4.5例4.5程序(提取主成分)title'主成分回归';dataexp4_5;inputx1x2x3y@@;cards;13.09.250.013.0........49.034.82500.036.0;procprincompout=prindata;varx1-x3;run;例4.5程序(主成分回归)title'主成分回归';dataexp4_5;inputx1x2x3y@@;cards;略;procprincompout=prindata;varx1-x3;run;procregoutest=prindata;modely=x1x2x3/pcomit=1;output;run;procprintdata=prindata;run;“Outest=c”表示产生一个名为C的数据集,C包含回归模型拟合过程与参数估计值“pcomit=n”指定每个n值都做进程通讯即IPC分析作用:回归过程除了用最后n个主成分外的其余几个主成分(用了前“变量数-n”个的主成分)来做回归。并把IPC分析出相应参数输出到Outest指定的数据集c中。因子分析(factoranalysis)因子分析的定义寻找隐含在多变量数据中的无法直接观察,但又支配多个变量间相互关系的少数几个(小于原指标个数)专业上有意义的,相互间彼此独立的公因子的一种多元统计分析方法。因子分析的数学模型XLFUL:因子载荷矩阵F:公因子U:特殊因子对原变量的协方差结构进行分解:X的方差=共同度+特殊方差因子分析实质:因子模型的估计(估计出因子载荷系数);•主成分法•极大似然法•主因子法•迭代因子法确定有实际意义的的因子载荷矩阵•正交旋转•协交旋转计算因子得分因子分析的内容11(,,,)iiiklllSAS的步骤①数据步(data步):略②过程步(proc步)factor(因子分析过程)Procfactor选项;Run;Factor过程Factor过程的选项:Method/M=prinmlprinitrotate=varimaxpromaxN=nSocreres主成分分析法极大似然法迭代主因子法方差最大旋转斜交旋转保留公因子的个数,如缺省系统只保留特征根大于1的公因子数因子得分计算残差矩阵用主成分法估计因子模型见教材P68例5.31.因子模型的估计例5.3程序title'主成分因子分析';dataexp5_3;inputx1-x6@@;cards;141328142239........9912102346;procfactormethod=prinn=3;varx1-x6;run;用极大似然法估计因子模型见教材P70例5.41.因子模型的估计例5.3程序title‘极大似然法分析';dataexp5_4;inputx1-x6@@;cards;141328142239........9912102346;procfactormethod=mln=3;varx1-x6;run;方差最大正交旋转2.因子旋转