多元统计分析方法

shuyingood
2 ℃
2020-06-26

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

多元统计分析概述目录一、引言…………………………………………………………3二、多元统计分析方法的研究对象和主要内容……………31.多元统计分析方法的研究对象…………………………32.多元统计分析方法的主要内容…………………………3三、各种多元统计分析方法…………………………………31.回归分析…………………………………………………32.判别分析………………………………………………63.聚类分析………………………………………………84.主成分分析………………………………………………105.因子分析………………………………………………106.对应分析方法…………………………………………117.典型相关分析…………………………………………11四、多元统计分析方法的一般步骤……………………………12五、多元统计分析方法在各个自然领域中的应用……………12六、总结…………………………………………………………13参考文献…………………………………………………………14谢辞………………………………………………………………151一、引言统计分布是用来刻画随机变量特征及规律的重要手段，是进行统计分布的基础和提高。多元统计分析方法则是建立在多元统计分布基础上的一类处理多元统计数据方法的总称，是统计学中的具有丰富理论成果和众多应用方法的重要分支。在本文中，我们将对多元统计分析方法做一个大体的描述，并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。二、多元统计分析方法的研究对象和主要内容（一）多元统计分析方法的研究对象由于大量实际问题都涉及到多个变量，这些变量又是随机变量，所以要讨论多个随机变量的统计规律性。多元统计分析就是讨论多个随机变量理论和统计方法的总称。其内容包括一元统计学中某些方法的直接推广，也包括多个随即便量特有的一些问题，多元统计分析是一类范围很广的理论和方法。现实生活中，受多个随机变量共同作用和影响的现象大量存在。统计分析中，有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。一种方法是把多个随机变量分开分析，一次处理一个随机变量，分别进行研究。但是，这样处理忽略了变量之间可能存在的相关性，因此，一般丢失的信息太多，分析的结果不能客观全面的反映整个问题，而且往往也不容易取得好的研究结论。另一种方法是同时对多个随机变量进行研究分析，此即多元统计方法。通过对多个随即便量观测数据的分析，来研究随机变量总的特征、规律以及随机变量之间的相互关系。所以，多元统计分析是研究多个随机变量之间相互依赖关系及内在统计规律的一门统计学科。（二）多元统计分析方法的主要内容2近年来，随着统计理论研究的不断深入，多元统计分析方法的内容一直在丰富。其中，主要内容包括多元正态总体参数估计、假设检验和常用的多元统计方法。多元正态总体参数估计、假设检验是多元统计推断的核心和基础，而常用的多元统计分析方法则是具体应用。从形式上，常用多元统计分析方法可划分为两类：一类属于单变量常用的统计方法在多元随机变量情况下的推广和应用，如多元回归分析，典型相关分析等；另一类是对多元变量本身进行研究所形成的一些特殊方法。如主成分分析，因子分析，聚类分析，判别分析，对应分析等。三、各种多元统计分析方法具体来说，常用的多元统计分析方法主要包括：多元回归分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析等。下面我们对各种多元统计分析方法就行分别描述，（一）回归分析回归分析是最灵活最常用的统计分析方法之一，它用于分析一个因变量与一个或多个自变量之间的关系。特别是用于：(1)定量的描述和解释相互关系；(2)估测或预测因变量的值。回归分析方法是在众多的相关变量中，根据实际问题考察其中一个或多个变量与其余变量的依赖关系。如果只要考察一个变量与其余多个变量之间的相互依赖关系，我们称为多元回归问题。若要同时考察多个因变量与多个自变量之间的相互依赖关系，我们称为多因变量的多元回归问题。多元回归分析是研究因变量Y与m个自变量12···mxx，，，x的相关关系，而3且总是假设因变量Y为随机变量，而12···mxx，，，x为一般变量。下面我们来看一下多元线性回归模型的建立。假定因变量Y与12···mxx，，，x线性相关。收集到的n组数据（12,,,ttttmyxxx，）（t=1,2,···n）满足以下回归模型：11022···+(1,2,,)()0,(),(,)0()~(0,),ttmtmtttijtyxxtnEVarCovijN或相互独立(t=1,2,n).记C=11111(1)1mnnnmxxXxx，011212,,nmnyyyY则所建回归模型的矩阵形式为2()(),0,,nnYCEDI或2,~(0,),nnYCNI并称它们为经典多元回归模型，其中Y是可观测的随机向量，是不可观测的随机向量，C是已知矩阵，2，是未知参数，并设nm，且rank(C)=m+1。在经典回归分析中，我们讨论模型中参数01(,,,)m和2的估计和检验问题。近代回归分析中讨论变量筛选、估计的改进，以及对模型中的一些假设进行诊断等问题。4我国国内生产总值与基本建设投资额的大小有密切关系，研究发现两变量之间存在线性关系。根据甘肃省1990-2003年的国内生产总值与基本建设投资额数据，研究它们的数量规律性，探讨甘肃省基本建设投资额与国内生产总值的数量关系，原始数据见下表。年份GDP(亿元）基本建设投资(亿元)1990242.829.041991271.3933.961992317.7939.221993372.2442.891994451.6658.191995553.3562.621996714.18101.421997781.34121.741998869.75157.141999931.98187.492000983.36208.2820011072.51228.6320021161.43263.0620031304.6307.3利用excel进行分析，具体输出以下数据，平方和自由度方差F检验值回归1553189.711553189.7残差59475.667124956.3056313.3765001离差1612665.413复相关系数R=.981386594345333剩余标准差SY=70.4010340269248回归方差与剩余方差之比F=313.376500123223各个自变量的t检验值17.702443345t检验的自由度N-P-1=12F检验的自由度第一自由度=1,第二自由度=12各个自变量的偏回归平方和1553189.7各个自变量的偏相关系数0.981386594由输出结果，得以下结论：回归方程为y=232.70+3.681x其中，负相关系数为2R＝0.9814,说明回归方程拟合优度较高。而回归系数的t=17.7024,查t分布表0.025(12)2.1788t，小于t值，因此回归系数显著。查F分布表，0.05(1,12)F4.75，由下表知，F=313.37654.75，因此回归方程也显著。平方和自由度方差F检验值回归1553189.711553189.7313.3765001残差59475.667124956.3056离差1612665.413（二）判别分析判别分析是多元统计分析中用于判别样品所属类型的一种统计分析方法，是一种在已知研究对象用某种方法已经分成与若干类的情况下，确定新的样品属于哪一类的多元统计分析方法。6判别方法处理问题时，通常通常要给出用来衡量新样品与各已知组别的接近程度的指数，即判别函数，同时也指定一种判别准则，借以判别新样品的归属。所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。常用的有，距离准则、Fisher准则、贝叶斯准则等。距离判别的基本思想是：样品和那个总体距离最近，就判断它属于哪个总体。距离判别也称直观判别。已知有两个类1G和2G，比如1G是设备A生产的产品，2G是设备B生产的同类产品。设备A的产品质量高（如考察指标为耐磨度X），其平均耐磨度(1)=80，反映设备精度的方差21=0.25；设备B的产品质量稍差，其平均耐磨度2=75，反映设备精度的方差22=4。今有一产品0X，测得耐磨度0x=78，试判断该产品是哪一台设备生产的？下面考虑一种相对于分散性的距离。记0X与1G或2G的相对平均距离为210()dx或220()dx，则有：210()dx=(1)22021()(7880)0.25x=16，220()dx=(2)22022()(7875)4.00x=2.25。因为20()dx=1.54=10()dx，按这种距离准则应判0X为设备B生产的。一般的，我们假设总体1G的分布为(1)21(,)N，总体2G的分布为(2)22(,)N，则利用相对距离的定义，可以找出分界点和（不妨设(2)(1),12），令(1)(2)(1)2(2)221221212()()xxxdef，和x=(1)(2)2121def。此例中，=79，=81.6667。而按这种距离最近法则的判别法为：(1)2(2)212212(1)2(2)222212()()X()()XxxGxxxG判，当（即）判，当（即x或x）7为了区分小麦品种的两种不同的分蘖类型，用123,,xxx三个指标求其判别函数。经验样品中，第一类取11（主茎型）个样品，第二类（分蘖型）取12个样品，数据如下表所示。第一类（主茎型）1x2x3x判别归类第二类（分蘖型）1x2x3x判别归类12345678910110.713.8012.0010.783.8612.1711.002.105.7010.701.705.9010.301.806.1010.603.4010.2011.003.6010.2010.503.5010.5010.505.0011.5011234567891011121.004.2515.1621.003.4316.2521.003.7011.4021.003.8012.4021.004.0013.6021.004.0012.8021.004.2013.4021.004.3014.0021.005.7015.8021.004.7020.4021.004..6014.0021.004.5614.60280.714.0011.2511.004.5012.002(1)ix0.70913.38739.7746(2)ix0.984.2714.4842由表计算得(1)X－(2)X=(-0.2742，-0.882，-4.7096)T,X=(1)(2)2XX=(0.8462,3.8287,12.1293)xxL=(1)xxL+(2)xxL=0.56240.18210.83550.282115.516032.30140.835532.3014126.2374,111.79780.01690.007621210.01690.13810.03520.00760.03520.0170xxSL,(1)(2)11()()()2TXXXSXX=1230.846221(0.4425,0.0486,0.0468)3.8286212.1295xxx用()X对经验样本的23个样品进行判别有如下结果：第一类的11个样本中有10个判别为第一类，一个判别为第二类；第二类的12个样品全部判别为第二类，符合率为22/23=96%。例如，第一类第一个样品(1)1X=(0.71,3.80,12.00)T，则(1)1()X=0.68190,则(1)1