重庆大学统计建模与R软件课程报告结论及对该模型的评价1统计建模与R软件课程报告对某地区农业生态经济的发展状况作主成分分析姓名:刘杰学号:20092414学院:数学与统计学院专业:统计学上课时间:2012年2月至2012年5月重庆大学统计建模与R软件课程报告结论及对该模型的评价2摘要主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相关独立或不相关的变量。通常是选出比原始变量个数少,又能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。也就是说,主成分分析实际上是一种降维方法。关键词:主成分分析相关矩阵相关R函数目录1绪论.....................................................................................................................................21.1主成分方法简介............................................................................................................22总体主成分............................................................................................................................32.1主成分的定义与导出....................................................................................................32.2主成分的性质................................................................................................................42.3从相关矩阵出发求主成分............................................................................................62.4相关的R函数................................................................................................................73数据模拟...............................................................................................................................84结论及对该模型的评价...................................................................................................12参考文献.................................................................................................................................121绪论1.1主成分方法简介主成分分析(principalcomponentanalysis)是将多个指标化为少数几个综合指标的一种统计分析方法,由Pearson(1901)提出,后来被Hotelling(1933)发展了。主成分分析是一种通过降维技术把多个变量化成少数几个主成分的方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性组合。重庆大学统计建模与R软件课程报告结论及对该模型的评价3主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。2总体主成分2.1主成分的定义与导出设Χ是p维随机变量,并假设()μX,var()ΣX。考虑如下线性变换1122TTTppZZZaXaXaX(2.1)易见var()TiiiZaa,1,2,,,ip(2.2)cov(,)TijijZZaa,,1,2,,,.ijpij(2.3)我们希望1Z的方差达到最大,即1a是约束优化问题maxTaΣa..st1Taa的解。因此,1a是Σ最大特征值(不妨设为1)的特征向量。此时,称11TZaX为第一主成分。类似地,希望2Z的方差达到最大,并且要求1212cov(,)0TZZaΣa。由于1a是1的特征向量,所以,选择的2a应与1a正交。类似于前面的推导,2a是Σ第二大特征值(不妨设为2)的特征向量。称22TZaX为第二主成分。一般情况下对于协方差阵Σ,存在正交阵Q,将它化为对角阵,即重庆大学统计建模与R软件课程报告结论及对该模型的评价41TPQΣQ(2.4)且12p,则矩阵Q的第i列就对应于ia,相应的iZ为第i主成分。2.2主成分的性质关于主成分有如下性质:(1)主成分的均值和协方差阵。记12=PZZZZ,(),EνZ1PΛ,由于TZQX(2.5)所以有()()(),TTTEEEνZQXQXQμvar()var()TTZQXQQΣQΛ.(2)主成分的总方差由于()()()(),TTtrtrtrtrΛQΣQΣQQΣ所以11ppiiiii或11var()var()ppiiiiZX,其中ii是协方差阵Σ的第i个对角元素。由此可以看出,主成分分析把p个原始变量12,,,PXXX的总方差分解成了p个不相关变量12,,,PZZZ的方差之和。称总方差中第i主成分iZ的比例1/piii为主成分iZ的贡献率。第一主成分1Z的贡献率最大,表明它解释原始变量12,,,PXXX的能力最强,而23,,,PZZZ的解释能力依次减弱。主成分分析的目的就是为了减少变量的个数,因而一般不会使用所有的p个主成分,忽略一些较小方差的主成分,不会给总方差带来大的重庆大学统计建模与R软件课程报告结论及对该模型的评价5影响。称前m个主成分的贡献率之和11/pmiiii为主成分12,,,mZZZ的累积贡献率,它表明12,,,mZZZ解释12,,,PXXX的能力。相对于p,通常取较小的m,使得累积贡献率达到一个较高的百分比(如80%~90%)。此时,12,,,mZZZ可用来代替12,,,PXXX,达到降维的目的,而信息的损失却不多。(3)原始变量jX与主成分iZ之间的相关系数由式(1.5)知XQZ(2.6)即1122jjjjppXqZqZqZ,(2.7)所以,cov(,)cov(,)jijiiijiiXZqZZq,,,1,2,,,jip(2.8)cov(,)(,)var(var(jiijijijijjXZXZqXZ)),,,1,2,,jip.(2.9)在实际应用中,通常只对jX与iZ的相关系数感兴趣。(4)m个主成分对原始变量的贡献率前面提到的累积贡献率这个概念度量了m个主成分12,,,mZZZ从原始变量12,,,PXXX中提取信息的多少,那么12,,,mZZZ包含有jX1,2,,jp的多少信息应该用什么指标来度量呢?这个指标就是jX与12,,,mZZZ的复相关系数的平方,称为m个主成分12,,,mZZZ对原始变量jX的贡献率,记为21jm,即222111=(,)/mmjmjiijijjiiXZq.(2.10)对式(1.7)两边取方差,得到2221122jjjjjppqqq,(2.11)由于222121jjjpqqq,故jj实际上是12,,,p的加权平均。由式(1.10)~式(1.11),可以得到12,,,pZZZ对jX的贡献率为重庆大学统计建模与R软件课程报告结论及对该模型的评价6222111=(,)/1ppjpjiijijjiiXZq.(2.12)(5)原始变量对主成分的影响式(1.5)也可以写成1122+++iiipipZqXqXqX,称jiq为第i主成分在第j个原始变量jX上的载荷,它度量了jX对iZ的重要程度。2.3从相关矩阵出发求主成分当各变量的单位不完全相同,或虽单位相同,但变量间的数值大小相差较大时,直接从协方差阵Σ出发进行主成分分析就显得不妥。为了使主成分分析能够均等地对待每一个原始变量,消除由于单位不同可能带来的影响,常常将原始变量作标准化处理,即令*jjjjjXX,1,2,,.jp(2.13)显然,****12,(,,)TpXXXX的方差矩阵就是X的相关矩阵R。从相关矩阵R出发导出的主成分方法与从协方差Σ出发导出的主成分方法完全类似,并且得到的主成分的一些行之更加简洁。设***120p为相关矩阵R的p个特征值,***12,,,paaa为相应的单位特征向量,且相互正交,则相应的p个主成分为***TiiZXa,1,2,,ip。令****12(,,,)TPZZZZ,****12(,,,)pQaaa,于是**TTZQX.关于相关矩阵R的主成分有如下性质:(1)***(),var()EZ0ZΛ,其中****12(,,,)pdiagΛ.(2)*1piip.(3)变量*jX与主成分*iZ之间的相关系数为****(,)jiijiXZq,,1,2,,jip.重庆大学统计建模与R软件课程报告结论及对该模型的评价7(4)主成分***12,,,mZZZ对*jX的贡献率为22****2111(,)mmjmjiijiiiXZq.(5)22****2111(,)1ppjpjiijiiiXZq.2.4相关的R函数与主成分分析有关的函数主要有以下一些:1.princomp函数作主成分分析最主要的函数是princomp()函数,其使用格式为princomp(formula,data=NULL,subset,na.action,...)其中formula是没有响应变量的公式(类似回归分析、方差分析,但无响应变量),data是数据框。或者princomp(x,cor=FALSE,scores=TRUE,covmat=NULL,subset=rep(TRUE,nrow(as.matrix(x))),…)其中x是用于主成分分析的数据,以数值矩阵或数据框的形式给出;cor是逻辑变量,当cor=TRUE表示用样本的相关矩阵R作主成分分析,当cor=FALSE(默认值)表示用样本的协方差阵S作主成分分析;covmat是协方差阵,如果数据不用x提供,可由协方差阵提供。2.summary函数summary()函数的目的是提取主成分信息,其使用格式为summary(object,loadings=FALSE,cutoff=0.1,...)其中object是由princom