主成分分析法通过研究指标体系的内在结构关系,从而将多个指标转化为少数几个相互独立且包含原来指标大部分信息(80%或85%以上)的综合指标。其优点在于它确定的权数是基于数据分析而得出的指标之间的内在结构关系,不受主观因素的影响,有较好的客观性,而且得出的综合指标(主成分)之间相互独立,减少信息的交叉,这对分析评价极为有利。例1、主成分分析用于综合评价反映地区社会经济发展的指标体系X1:国内生产总值(GDP)X2:人均GDPX3:第三产业产值占GDP比重X4:人均出口额X5:工业企业劳动生产率X6:人均社会消费品零售额X7:每万人拥有卫生技术人员数X8:每万人高等学校在校生数X9:教育经费投入占GDP比重X10:人均货运总量X11:人均邮电业务总量X12:每万人电话机装机数X13:人均固定资产投资X14:人均实际利用外资X15:地方财政收入占GDP比重X16:每万人科研机构数X17:科研经费占GDP比重对全国31个地区上述17项指标的数据进行主成分分析,应用SAS软件进行处理。数据见CD.PCRex011、求相关系数矩阵R2、计算R的特征值主成分Y1Y2Y3Y4特征根贡献率(%)累计贡献率11.113465.3765.372.665615.6881.050.91265.3786.420.70524.1590.573、求特征根所对应的单位特征向量0.5132250.203116-0.1828580.1936180.2172900.113642-0.164527-0.114637-0.509240-0.0258320.0834710.1325920.1054020.199407-0.181330-0.261367-0.2957560.0384660.2760200.2436540.2634870.1805460.2908340.2598420.2805230.0942330.2159460.2920160.2882680.2820160.2590060.2167930.2599620.212293X1X2X3X4X5X6X7X8X9X10X11X12X13X14X15X16X17Y2Y1特征向量第一主成分名次地区Y1得分Y2得分123456789101112131415北京上海天津广东辽宁福建浙江江苏海南新疆吉林黑龙江山西宁夏云南11.725710.17765.12352.74221.13250.55860.27180.18170.0795-0.3075-0.4873-0.6307-0.7467-0.7791-0.8203-3.943962.435050.125513.349070.619421.902482.315762.53147-0.79528-1.07448-1.094130.61915-1.13709-1.92281-0.483134、主成分的表达式及其含义解释5、计算主成分得分第一主成分名次地区Y1得分Y2得分16171819202122232425262728293031陕西山东青海湖北内蒙古河北甘肃重庆湖南西藏广西四川江西河南安徽贵州-0.9116-1.0207-1.1131-1.1943-1.2295-1.4456-1.8358-1.8603-1.8806-1.9085-1.9098-2.1979-2.3049-2.3383-2.4358-2.6347-2.064812.32993-1.471450.66326-0.871811.25757-1.40987-0.364390.04577-2.04139-0.420780.331260.076600.869090.45974-0.83575主成分分析在市场研究中的应用为了对常用的100种食品的生产进行经营决策,需要就消费者对食品的嗜好程度进行调查。对785名消费者进行调查,要求每个消费者对100种食品进行评价,按对食品的喜好程度评分,最受欢迎的给予最高分9分,最不受欢迎的给予最低分1分。食品生产预测(日本户田)将被调查者按性别与年龄分成10组假若你是该食品加工业决策部门的高级顾问,为了对食品生产作出合理决策,请你对调查资料进行分析,为决策者提供建议。以组为单位,在每组中每个成员都对100种食品给予评分,然后计算每组成员对每种食品评分的平均值。食品组号12345678910123..1007.85.43.93.53.08.16.05.43.81.62.84.44.03.56.27.27.57.0.........3.12.83.33.02.53.93.53.02.82.59.03.01——5组表示男性,6——10组表示女性1——5,6——10年龄从小到大排序特征向量y1y2y3X1X2X3X4X5X6X7X8X9X100.2860.3310.3230.2990.2610.3090.3440.3480.3460.3030.4430.235-0.172-0.364-0.5090.4090.2560.036-0.164-0.2670.1940.3360.4420.3750.123-0.034-0.171-0.290-0.322-0.522特征根方差贡献率累计方差贡献率6.82668.26%68.26%1.76917.69%85.95%0.757.5%93.45%iy1反映了公共平均嗜好程度,y1得分越大,表示大众越喜欢吃此食品。y2反映了年龄的作用。y2得分为正时,表示孩子喜欢吃;y2得分为负时,表示孩子不喜欢吃。y3反映性别的作用。y3得分为正时,表示男性喜欢吃;y3得分为负时,表示女性喜欢吃。主成分的含义用得分来表示食品嗜好程度可有七成把握。在充分注意到人们普遍的嗜好程度基础上,进一步考虑到青少年和老年人的嗜好程度,对食品业的开发方针作出决策时,将有85%的把握。1y特别喜欢吃的醋拌生鱼片、冰激棱一般喜欢男性喜欢女性喜欢孩子成人咖喱饭鸡蛋烩饭、炸猪排炸肉饼、火腿面包酸汤、大头鱼一般不喜欢孩子成人干咖喱、浓汤煮牛肉、生蛋饼干、带馅面包酱面条、烧鱼特别不喜欢菜粥、清汤为了较好地满足市场的需要,服装生产厂要了解所生产的一种服装究竟设计几种型号合适?这些型号的服装应按怎样的比例分配生产计划才能达到较好的经济效益?服装的定型分类问题X1:身长X2:坐高X3:胸围X4:头高X5:裤长X6:下裆X7:手长X8:领围X9:前胸X10:后背X11:肩厚X12:肩宽X13:袖长X14:肋围X15:腰围X16:腿肚对128名成年男子按16项指标进行测量。特征值贡献率累计贡献率7.032.611.630.840.770.640.580.460.360.310.240.220.170.140.070.0444%16%10%6%5%4%3%3%2%2%2%1%1%1%0044%60%70%76%81%85%88%91%93%95%97%98%99%100%特征向量y1y2y3X1身长X2坐高X3胸围X4头高X5裤长X6下裆X7手长X8领围X9前胸X10后背X11肩厚X12肩宽X13袖长X14肋围X15腰围X16腿肚0.340.270.230.340.330.290.290.190.090.150.100.240.320.180.270.160.200.14-0.330.180.200.270.19-0.370.07-0.17-0.35-0.020.11-0.37-0.27-0.360.01-0.060.140.030.03-0.030.02-0.150.63-0.53-0.20-0.31-0.020.250.140.24y1是刻画尺寸大小的因子。y2反映人的胖瘦情况,是一个体形因子。反映“长”的尺寸前面的系数为正;反映“围”的尺寸前的系数为负。y3系数多数取值很小,接近于0。只有三个系数绝对值较大。y3是反映特殊体形的因子,区分有无畸形。•区分有几种型号(分类)•各种型号的生产量(比例)要解决的问题:•样品的分类(图解样品)1、计算y1、y2的得分。2、以y1为横坐标、y2为纵坐标,描点。3、把样品按在图上的集中情况分成若干组(g组)。4、取每一组的中心(k=1,2,…,g)作为该组的代表点。相应原16个指标的尺寸:5、各种型号的比例按该组样品数/128确定。),(*2*1kkyy*22,16*11,16'16*222*121'2*212*111'1kkkkkkyryrxyryrxyryrxPracticemakesperfectWishyousuccess!