主成分分析主成分分析法是采取一种数学的降维方法,其要做的就是将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量代替原来的变量。指标样本X1X2···Xn12···mY11Y12···Y1nY21Y22···Y2n············Ym1Ym2···Ymn表1n个指标取值的一组样本数据一、主成分的计算1.对样本进行标准化处理数据标准化首先是无量纲化,因为不同指标的量纲通常是不完全相同的,为了使各指标之间具有可比性,必须消除指标的量纲。其次,数据的原始样本不一定满足E(X)=0,因此必须对原始样本数据进行标准化处理,以便使样本数据量纲为一,并且满足E(X)=0。标准化处理的计算式为:),...,2,1()(11),...,2,1(12121njYYmSnjYmYSYYXmijijjmiijjjjijij经标准化处理后可得到标准化矩阵:mnmmnnXXXXXXXXXX.....................2122221112112.计算相关系数,得到相关矩阵计算标准化后的每两个指标间的相关关系,得到相关系数矩阵R,即n个指标的协方差矩阵。即mkjkikijnnnnnnnjiXXmrrrrrrrrrrXXmR1212222111211),...,2,1,(11.....................113.计算矩阵R的特征根及相应的特征向量0.....................21222221112111nnnnnnnrrrrrrrrr于是得到n个非负特征根从而得到对应于特征根的n个单位化特征向量,构成一个正交矩阵,记为a,则aij中的i为第i个主分量,j为第j个分量。0...21nnnnnnnaaaaaaaaaa.....................2122221112114.计算主成分对于m个样本中的第k个样本,根据则可得n个主成分如下knkknnnnnnknkkXXXaaaaaaaaaZZZ...........................2121222211121121XaZkk对于全部的m个样本,则有即:整理得:式中Z0—样本主成分,X0—标准化的样本。mnnnmmnnnnnnmnnnmmXXXXXXXXXaaaaaaaaazzzzzzzzz...............................................................212221212111212222111211212221212111TTaXZ00TaXZ00二、样本主成分选择及原指标对主成分回归1.主成分选择。个主成分的累计贡献率前个主成分的贡献率;第rkniiriiniik1112.原指标对主成分的回归原指标对主成分的回归问题即为在中如何确定回归系数矩阵B的问题。将两端分别左乘变为,即得回归系数.当取前r个主成分时,为rrnnnrrnzzzaaaaaaaaaXXX...........................2121222121211121BZXaXZTaZaXTTaBZaXT三、主成分分析的应用例1某电子工业部所属的15个工厂某年份的经济效益数据如表2所示。其中1%x资金利税率2%x固定资产利税率3%x流动资金利税率4%x全员利税率5%x-成本利税率6x流动资金周转天数厂序x1x2x3x4x5x6169.87269.194.38115.7423.8574266.3126089.0193.340.0980367.26272.5489.2978.926.784468.46250.1894.2476.8724.9818539.45146.1754.0490.9517.46109624.82116.8631.5181.5910.42117730.2173.651.2339.5231.06227831.24168.3138.3762.1614.29129923.29109.4229.5929.678.23991023.192.4130.843.5712.481361118.9557.6328.2421.9117.23231128.6521.7114.359.638.26177135.127.276.388.66.46239144.6618.426.248.594.54231151.929.282.423.339.67135四、主成分分析应注意的问题由数理统计中的大数定理可知,随着样本容量的增大,它们的平均水平和离散程度将会趋于稳定,从而协方差矩阵也会趋于稳定,因此,主成分分析适宜于大样本容量的因素分析。一般来说,要求样本容量应大于指标个数的两倍(即m2n)。