主成分分析步骤和案例分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

(一)计算相关系数矩阵rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为:pppppprrrrrrrrrR212222111211nknkjkjikinkjkjikiijxxxxxxxxr11221)()())((主成分分析步骤(二)计算特征值与特征向量:①解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;0RI0,21p②分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量。i),,2,1(pieiie112pjijeijeie③计算主成分贡献率及累计贡献率▲贡献率:),,2,1(1pipkki▲累计贡献率:),,2,1(11pipkkikk一般取累计贡献率达85—95%的特征值所对应的第一、第二、…、第m(m≤p)个主成分。m,,,21④计算主成分载荷⑤各主成分的得分(主成分):(,)(,1,2,,)ijijiijlzxeijpnmnnmmzzzzzzzzzZ212222111211主成分分析方法应用实例对某农业生态经济系统做主成分分析样本序号x1:人口密度(人/km2)x2:人均耕地面积(ha)x3:森林覆盖率(%)x4:农民人均纯收入(元/人)x5:人均粮食产量(kg/人)x6:经济作物占农作物播面比例(%)x7:耕地占土地面积比率(%)x8:果园与林地面积之比(%)x9:灌溉田占耕地面积之比(%)1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011752.35452.2632.31414.4641.45527.0663100.6951.06765.6011181.54270.1218.2660.1627.47412.4894143.7391.33633.2051436.12354.2617.48611.8051.89217.5345131.4121.62316.6071405.09586.5940.68314.4010.30322.932表1某农业生态经济系统各区域单元的有关数据668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.114.4840.0025.791477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011255.42211.5511.1023.1330.013.4251699.2650.65460.7021251.03220.914.3834.6150.0115.59317118.5050.66163.3041246.47242.1610.7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011124.05228.449.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.7890.0488.46121122.7810.73149.1021313.11236.2926.7247.1620.09210.078步骤如下:(1)将表中的数据作标准差标准化,计算相关系数矩阵。x1x2x3x4x5x6x7x8x9x11-0.327-0.714-0.3360.3090.4080.790.1560.744x2-0.331-0.0350.6440.420.2550.009-0.0780.094x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924x4-0.340.6440.0710.3830.069-0.05-0.0310.073x50.3090.42-0.740.38310.7340.6720.0980.747x60.4080.255-0.7550.0690.73410.6580.2220.707x70.790.009-0.93-0.0460.6720.6581-0.030.89x80.156-0.078-0.109-0.0310.0980.222-0.0310.29x90.7440.094-0.9240.0730.7470.7070.890.291表2相关系数矩阵(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率。由表3可知,第一,第二,第三主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第一、第二、第三主成分z1,z2,z3即可。主成分特征值贡献率(%)累积贡献率(%)z14.66151.79151.791z22.08923.21675.007z31.04311.58986.596z40.5075.63892.234z50.3153.50295.736z60.1932.1497.876z70.1141.27199.147z80.04530.50499.65z90.03150.35100表3特征值及主成分贡献率(3)对于特征值=4.6610,=2.0890,=1.0430分别求出其特征向量e1,e2,e3,再用计算各变量x1,x2,…,x9在主成分z1,z2,z3上的载荷。z1z2z3占方差的百分数(%)x10.739-0.532-0.006182.918x20.1230.887-0.002880.191x3-0.9640.00960.009592.948x40.00420.8680.003775.346x50.8130.444-0.001185.811x60.8190.1790.12571.843x70.933-0.133-0.25195.118x80.197-0.10.9798.971x90.964-0.00250.009292.939上述计算过程,可以借助于SPSS或MATLAB软件系统实现。表4主成分载荷①第一主成分z1与x1,x5,x6,x7,x9呈显出较强的正相关,与x3呈显出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第一主成分z1是生态经济结构的代表。分析结果:x1:人口密度x2:人均耕地面积x3:森林覆盖率x4:农民人均纯收入x5:人均粮食产量x6:经济作物占农作物播面比例x7:耕地占土地面积比率x8:果园与林地面积之比x9:灌溉田占耕地面积之比1——0.7392——0.1233——-0.9644——0.00425——0.8136——0.8197——0.9338——0.1979——0.964②第二主成分z2与x2,x4,x5呈显出较强的正相关,与x1呈显出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第二主成分z2代表了人均资源量。分析结果:x1:人口密度x2:人均耕地面积x3:森林覆盖率x4:农民人均纯收入x5:人均粮食产量x6:经济作物占农作物播面比例x7:耕地占土地面积比率x8:果园与林地面积之比x9:灌溉田占耕地面积之比显然,用三个主成分z1、z2、z3代替原来9个变量(x1,x2,…,x9),描述农业生态经济系统,可以使问题更进一步简化、明了。③第三主成分z3,与x8呈显出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第三主成分在一定程度上代表了农业经济结构。④另外,表4中最后一列(占方差的百分数),在一定程度反映了三个主成分z1、z2、z3包含原变量(x1,x2,…,x9)的信息量多少。x1:人口密度x2:人均耕地面积x3:森林覆盖率x4:农民人均纯收入x5:人均粮食产量x6:经济作物占农作物播面比例x7:耕地占土地面积比率x8:果园与林地面积之比x9:灌溉田占耕地面积之比SPSS主成分分析应用实例1公司销售净利率(X1)资产净利率(X2)净资产收益率(X3)销售毛利率(X4)歌华有线五粮液用友软件太太药业浙江阳光烟台万华方正科技红河光明贵州茅台中铁二局红星发展伊利股份青岛海尔湖北宜化雅戈尔福建南纸43.3117.1121.1129.5511.0017.632.7329.1120.293.9922.654.435.407.0619.827.267.3912.136.038.628.4113.864.225.449.484.6411.137.308.902.7910.532.998.7317.297.0010.1311.8315.4117.166.0912.979.3514.314.3612.535.2418.556.9954.8944.2589.377325.2236.449.9656.2682.2313.0450.5129.0465.519.7942.0422.722002年16家上市公司4项指标的数据见下表。试定量分析各企业的综合盈利能力标准化原始数据进行主成分分析计算各主成分综合主成分得到综合评价指标原始变量相关性的检验KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;Bartlett球度度检验的Sig值越小于显著水平0.05,越说明变量之间存在相关关系。所的结论:符合因子分析的条件,可以进行因子分析,并进一步完成主成分分析。特征向量和累计贡献率初始特征根(InitialEigenvalues)大于1,并且累计百分比达到80%~85%以上。查看相关系数矩阵的特征根及方差贡献率见表3,由于前2个主成分贡献率≥85%、结合表4中变量不出现丢失,所以提取的主成分个数m=2。从特征值的分布图选取主成分成分(载荷)矩阵原始的特征向量综合评价对每个主成分得分进行排序用贡献率做权重对得分进行加权平均利用总的综合得分对企业进行评价案例分析2在企业经济效益的评价中,涉及的指标往往很多,为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据阵出发求主成分。在对我国部分省市自治区的独立核算的工业企业的经济效益评价中,涉及9项指标。现对数据进行简化,做主成分分析,得出影响企业经济效应的主要因素。未标准化的特征向量结果分析第一主成分:解释为生产中投入的资金和劳动所产生的效果。它是投入和产生之比。第二主成分:是把工业生产中所得总量(即工业总产值和销售收入)与局部量进行的比较。反映了“产出”对国家所做的贡献。案例分析3:某汽车制造商顾客偏好分析案例说明:某汽车制造商在竞争对手中选择17中车型,访问了25位顾客,要求他们根据自己的偏好对17种车型打分。打分范围0-9.9,9.9表示最高程度的偏好。案例分析过程图片演示1、前三个成分可以接受总方差的约75%,占全部总方差的绝对大部分,再根据碎石图判定:提取前三个成分!2、利用EXCEL的函数功能实现载荷矩阵相关系数到右图成分系数的转换!基本公式:某成分系数=相关系数/sqrt(对应成分特征值)成分矩阵和系数矩阵各成分得分3、计算各成分得分=sumproduct(成分系数

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功