MBA统计学07相关和回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

统计学─从数据到结论第七章相关和回归分析§7.1问题的提出对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的反映对于企业是至关重要的,但是仅仅有满意顾客的比例是不够的;商家希望了解什么是影响顾客观点的因素,及这些因素如何起作用。类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响。§7.1问题的提出发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。§7.1问题的提出假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(X也可能是若干变量组成的向量)。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量(dependentvariable,responsevariable),而X称为自变量,也称为解释变量或协变量(independentvariable,explanatoryvariable,covariate)。建立这种关系的过程就叫做回归(regression)。§7.1问题的提出一旦建立了回归模型,除了对变量的关系有了进一步的定量理解之外,还可以利用该模型(函数)通过自变量对因变量做预测(prediction)。这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后。先看几个后面还要讨论的数值例子。§7.1问题的提出例7.1有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.txt)。这两个成绩的散点图展示在图7.1中。50名同学初三和高一成绩的散点图初三成绩110100908070605040高一成绩100908070605040有个上升趋势;即初三时成绩相对较高的学生,在高一时的成绩也较高。但对于具体个人来说,大约有一半的学生的高一平均成绩比初三时下降,而另一半没有变化或有进步§7.1问题的提出目前的问题是怎么判断这两个变量是否相关、如何相关及如何度量相关?能否以初三成绩为自变量,高一成绩为因变量来建立一个回归模型以描述这样的关系,或用于预测。§7.1问题的提出该数据中,除了初三和高一的成绩之外,还有一个定性变量(没有出现在上面的散点图中)。它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用1、2、3表示。122711N=家庭收入321高一成绩110100908070605040303925122711N=家庭收入321高一成绩与初三成绩之差3020100-10-20-30为研究家庭收入情况对学生成绩变化的影响,下面点出两个盒形图,左边一个是不同收入群体的高一成绩的盒形图,右边一个是不同收入群体的高一和初三成绩之差的盒形图。•可以看出收入高低对高一成绩稍有影响,但不如收入对成绩的变化(高一和初三成绩之差)的影响那么明显。§7.1问题的提出到底学生在高一的家庭收入对成绩有影响吗?是什么样的影响?是否可以取初三成绩(这是定量变量)或(和)家庭收入(定性变量)为自变量,而取高一成绩为因变量,来建立一个描述这些变量之间关系的回归模型呢?§7.1问题的提出例7.2这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.txt)。这里年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量观点则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量(见下页数据)。想要知道的是年龄和性别对观点有没有影响,有什么样的影响,以及能否用统计模型表示出这个关系。年龄和观点的散点图年龄8070605040302010观点(0为认可,1为不认可)1.21.0.8.6.4.20.0-.2性别(0:女,1:男)1.00.00Count120100806040200OPINION.001.00年龄和观点的散点图(左)和性别与观点的条形图;§7.2定量变量的相关如果两个定量变量没有关系,就谈不上建立模型或进行回归。但怎样才能发现两个变量有没有关系呢?最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图;每一组数据表示了两个变量x和y的样本。-3-2-1012-2-1012(a)xy-2-1012-2-1012(b)xy-2-1012-2-1012(c)xy-3-2-1012302468(d)xy不相关正线性相关负线性相关相关但非线性相关§7.2定量变量的相关但如何在数量上描述相关呢?下面引进几种对相关程度的度量。Pearson相关系数(Pearson’scorrelationcoefficient)又叫相关系数或线性相关系数。它一般用字母r表示。它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于-1和1之间。当两个变量有很强的线性相关时,相关系数接近于1(正相关)或-1(负相关),而当两个变量不那么线性相关时,相关系数就接近0。§7.2定量变量的相关Kendallt相关系数(Kendall’st)这里的度量原理是把所有的样本点配对(如果每一个点由x和y组成的坐标(x,y)代表,一对点就是诸如(x1,y1)和(x2,y2)的点对),然后看每一对中的x和y的观测值是否同时增加(或减少)。比如由点对(x1,y1)和(x2,y2),可以算出乘积(x2-x1)(y2-y1)是否大于0;如果大于0,则说明x和y同时增长或同时下降,称这两点协同(concordant);否则就是不协同。如果样本中协同的点数目多,两个变量就更加相关一些;如果样本中不协同(discordant)的点数目多,两个变量就不很相关。§7.2定量变量的相关Spearman秩相关系数(Spearmanrankcorrelationcoefficient或Spearman’sr)它和Pearson相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩(即样本点大小的“座次”)。Spearman相关系数也是取值在-1和1之间,也有类似的解释。通过它也可以进行不依赖于总体分布的非参数检验。§7.2定量变量的相关人们可能会问,上面的三种对相关的度量都是在其值接近1或-1时相关,而接近于0时不相关。到底如何才能够称为“接近”呢?这很难一概而论。但在计算机输出中都有和这些相关度量相应的检验和p-值;因此可以根据这些结果来判断是否相关(见下面例7.1的继续)。§7.2定量变量的相关例7.1(继续)得到初三和高一成绩的Pearson相关系数,Kendallt相关系数和Spearman秩相关系数分别为0.795,0.595和0.758。这三个统计量相关的检验(零假设均为不相关)全部显著,p-值都是0.000。注意这种0.000的表示并不表示这些p-值恰好等于零,只是小数点前三位是0而已。§7.3定量变量的线性回归分析对例7.1中的两个变量的数据进行线性回归,就是要找到一条直线来适当地代表图1中的那些点的趋势。首先需要确定选择这条直线的标准。这里介绍最小二乘回归(leastsquaresregression)。古汉语“二乘”是平方的意思。这就是寻找一条直线,使得所有点到该直线的豎直距离的平方和最小。用数据寻找一条直线的过程也叫做拟合(fit)一条直线。§7.3定量变量的线性回归分析例7.1(继续)根据计算,找到初三成绩和高一成绩的回归直线。计算机输出给出来截距(Constant)26.444和斜率(变量j3的系数)0.651。Coefficientsa26.4445.3964.901.000.651.072.7959.089.000(Constant)j3Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:s1a.405060708090100405060708090100J3S126.440.65yx截距=26.444;斜率=0.651§7.3定量变量的线性回归分析这个直线实际上是对所假设的下面线性回归模型的估计(这里的e是随机误差):01yxe我们得到的截距和斜率(26.444和0.651)是对0和1的估计。§7.3定量变量的线性回归分析由于不同的样本产生不同的估计,所以估计量是个随机变量,它们也有分布,也可以用由他们构造检验统计量来检验0和1是不是显著。拿回归主要关心的来说,假设检验问题是0111:0:0HH计算机输出也给出了这个检验:t检验统计量为9.089,而p-值为0.000。§7.3定量变量的线性回归分析除了对的检验之外,还有一个说明自变量解释因变量变化百分比的度量,叫做决定系数(coefficientofdetermination,也叫测定系数或可决系数),用R2表示。对于例1,R2=0.632;这说明这里的自变量可以大约解释63%的因变量的变化。R2越接近1,回归就越成功。由于R2有当变量数目增加而增大的缺点,人们对其进行修改;有一修正的R2(adjustedRsquare)。§7.3定量变量的线性回归分析此外,计算机还计算了一个在零假设下有F分布的检验统计量,它是用来检验回归拟合好坏的(零假设是因变量和自变量没有关系)。ModelSummary.795a.632.6257.22091Model1RRSquareAdjustedRSquareStd.ErroroftheEstimatePredictors:(Constant),j3a.ANOVAb4307.20614307.20682.606.000a2502.7944852.1426810.00049RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),j3a.DependentVariable:s1b.§7.3定量变量的线性回归分析和刚才简单的回归模型类似,一般的有k个(定量)自变量x1,x2…,xk的对因变量y的线性回归模型为(称为多元回归)01122kkyxxxe这里0,1,…,k称为回归系数。对计算机来说,计算多个自变量的回归和计算一个自变量的情况类似,计算机也会自动输出相应的检验结果。§7.3定量变量的线性回归分析并且用数据来拟合所选的一个模型时,并不一定所有的变量都显著(并不一定所有的系数都有意义)。软件有一种一边回归,一边检验的所谓逐步回归(stepwiseregression)方法。该方法或者从只有常数项开始,逐个地把显著的变量加入;或者从包含所有变量的模型开始,逐步把不显著的变量减去。注意不同方向逐步回归的结果也不一定相同。§7.4自变量中有定性变量的回归在例7.1的数据中,还有一个自变量是收入,但它是定性变量,以虚拟变量或哑元(dummyvariable)的方式出现。(这里收入的“低”,“中”,“高”,用1,2,3来代表)。如果要用这种哑元进行7.2节的回归就没有道理了。可以用下面模型描述:011012013,1,2,3yxxxeee代表家庭收入的哑元=时,=代表家庭收入的哑元=时,=代表家庭收入的哑元=时。§7.4自变量中有定性变量的回归注意,哑元的各个参数1,2,3本身只有相对意义,无法三个都估计,只能够在有约束条件下才能够得到估计。约束条件可以有很多选择,一种默认的条件是把一个参数设为0,比如3=0,这样和它有相对意义的1和2就可以估计出来了。对于例7.1得到28.7080.68811.066,28.7080.6884679,28.7080.688,yxyxyx(低收入家庭),.(中等收入家庭),(高收入家庭)。Parame

1 / 45
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功