实用统计方法第一讲主成分分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

前言统计是什么?统计是什么?•统计是人类思维的一个归纳过程•站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过•而且平均每10个轿车载有12个人•于是,你认为小汽车和自行车在这个路口的运载能力为24:100•这是一个典型的统计思维过程统计是什么?•一般来说,统计先从现实世界收集数据(信息),如观测路口的交通•然后,根据数据作出判断,称为模型•模型是从数据产生的•模型也需要根据新的信息来改进•不存在完美的模型•模型的最终结局都是被更能够说明现实世界的新模型所取代统计学可以应用于几乎所有的领域:精算,农业,动物学,人类学,考古学,审计学,晶体学,人口统计学,牙医学,生态学,经济计量学,教育学,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理科学,市场营销学,医学诊断,气象学,军事科学,核材料安全管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,社会学,调查抽样,分类学,气象改善,博彩等。统计是什么?•一句话,•统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。•以归纳为主要思维方式的统计不是以演绎为主的数学。•统计可应用于各个不同学科,在有些学科已经有其特有的方法和特点;如生物统计(biostatistics)、经济计量学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(DataMining)的方法主体都是统计。你想过下面的问题吗?•当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?•大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?•疾病传播时,如何能够通过感染者入院前后的各种因素得到一个疾病传染方式的模型呢?可以想象出的统计应用例子•如何确定观众/听众是否忠实于某节目(专栏)•如何对电视节目排名次•什么因素影响一个节目的收视率•如何按照各种不同环境估计某商店的顾客人数•如何按照各种指标评价雇员•如何把地区(市县镇等)按照各种指标分类•如何确定红楼梦第几回不是曹雪芹所写•如何确定一个产品的可靠性•如何进行偏差较少的民意调查•如何根据一些财务数据发现漏税的嫌疑单位?统计的一些做法•统计可以指导我们收集数据.•当拥有来自一些变量(指标)的数据或记录,但缺乏模型来描述这些变量之间关系的情况下,可用统计方法建立模型.•在有了一定的模型时,统计可以确定手中数据是否令人信服地支持某种论点.模型也用来对未来进行预测.•统计直观的图表展示,可以使各个领域的专家容易理解统计需要的知识•数学的几乎所有内容(不一定事先知道需要什么)•用计算机做统计计算•其他(对象)领域的知识统计和数学的区别•数学思维是以演绎为主•统计思维是以归纳为主,兼有演绎•统计各领域利用几乎所有存在的数学内容.•但统计本身的数学是为具体目标服务的,自己一般不形成数学体系第一讲主成分分析PrincipalComponentAnalysis(PCA)主成分分析的基本原理主成分分析的计算主成分分析应用实例几个问题•在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,变量太多,这无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。•因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?问题的提出:事实上,这种想法是可以实现的,主成分分析方法就是综合处理这种问题的一种强有力的工具。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。一、主成分分析的基本原理•假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵npnnppxxxxxxxxxX212222111211当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111系数lij的确定原则:①zi与zj(i≠j;i,j=1,2,…,m)相互无关;②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者,或者说是对原始数据中尚未被z1解释的差异部分拥有最大的解释能力;……zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m主成分。从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的载荷lij(i=1,2,…,m;j=1,2,…,p)。因此主成分分析的关键就是确定这些系数。从数学上容易知道,从数学上可以证明,它们分别是的协方差(相关)矩阵的m个较大的特征值所对应的特征向量。P54定理2.1.1二、主成分的计算基本概念(P60)•协方差(covariance)•方差•标准差))((11),cov(1yyxxnyxinii211()1nxxiiLxxnxxxLS•相关系数(correlationcoefficient)•协方差数据矩阵的每一列对应一个变量的n个测量值,任意两列之间可以计算两变量间的协方差cov(i,j),i=j时,yxSSyxyxr),cov(),(2),cov(iSii协方差矩阵2122232cov(1,2)cov(1,3)cov(1,)cov(2,1)cov(2,3)cov(2,)cov(3,1)cov(3,2)cov(3,)cov(,1)cov(,2)cov(,3)pSpSpZSppppS相关系数矩阵pppppprrrrrrrrrR212222111211rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji.协方差矩阵与相关矩阵的关系P58两者有何区别和联系?何为标准化?为什么要标准化?计算步骤(以相关矩阵为例)•第一步:计算相关系数矩阵pppppprrrrrrrrrR212222111211•第二步:计算特征值与特征向量①解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;0RI0,21p②分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量。i),,2,1(pieiie112pjijeijeie③计算主成分贡献率及累计贡献率▲贡献率:),,2,1(1pipkki▲累计贡献率:),,2,1(11pipkkikk一般取累计贡献率达85—95%的特征值所对应的第一、第二、…、第m(m≤p)个主成分。m,,,21MATLAB的一个命令[pc,variance,t2]=princomp(X)111212122212ppnnnpxxxxxxXxxx输入数据矩阵:x1x2xp一般地,要求np。模型:1122TppzxzxCzx要求mp。zm输出变量:①pc主分量zi的系数(ci1,…,cip);注意:pcTpc=单位阵②variance是score对应列的方差向量,即相关系数矩阵R的特征值;容易计算方差所占的百分比③percent-v=100*variance/sum(variance);t2表示检验的t2-统计量(主要用于方差分析)三、主成分分析方法应用实例•例1:有3个变量X1,X2与X3(p=3),其16次(n=16)观测值见下表:相关矩阵为:相关阵R的特征值分别为2.077,0.919,0.004,前两个主成分的累计贡献率为99.866%。这说明第三个主成分所起作用非常小,可以只要两个主成分。课后练习:用MATLAB求本例中16个样本的第一、第二主成分值及其对应的载荷向量。下面,我们根据表1给出的数据,对某农业生态经济系统做主成分分析。样本序号x1:人口密度(人/km2)x2:人均耕地面积(ha)x3:森林覆盖率(%)x4:农民人均纯收入(元/人)x5:人均粮食产量(kg/人)x6:经济作物占农作物播面比例(%)x7:耕地占土地面积比率(%)x8:果园与林地面积之比(%)x9:灌溉田占耕地面积之比(%)1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011752.35452.2632.31414.4641.45527.0663100.6951.06765.6011181.54270.1218.2660.1627.47412.4894143.7391.33633.2051436.12354.2617.48611.8051.89217.5345131.4121.62316.6071405.09586.5940.68314.4010.30322.932表1某农业生态经济系统各区域单元的有关数据668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.114.4840.0025.791477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011255.42211.5511.1023.1330.013.4251699.2650.65460.7021251.03220.914.3834.6150.0115.59317118.5050.66163.3041246.47242.1610.7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011124.05228.449.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.7890.0488.46121122.7810.73149.1021313

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功