第二讲相关分析与回归分析

hsf912
2 ℃
2019-12-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

相关分析与回归分析-1-第二讲相关分析与回归分析第一节相关分析1．1变量的相关性1．变量的相关性分两种，一种是研究两个变量X与Y的相关性。本节只研究前者，即两个变量之间的相关性；。2．两个变量X与Y的相关性研究，是探讨这两个变量之间的关系密切到什么程度，能否给出一个定量的指标。这个问题的难处在于“关系”二字，从数学角度看，两个变量X、Y之间的关系具有无限的可能性，一个比较现实的想法是：确立一种“样板”关系，然后把X、Y的实际关系与“样板”关系比较，看它们“像”到了什么程度，给出一个定量指标。3．取什么关系做“样板”关系？线性关系。这是一种单调递增或递减的关系，在现实生活中广为应用；另外，现实世界中大量的变量服从正态分布，对这些变量而言，可以用线性关系或准线性关系构建它们之间的联系。1．2相关性度量1．概率论中用相关系数(correlationcoefficient)度量两个变量的相关程度。为区别以下出现的样本相关系数，有时也把这里定义的相关系数称为总体相关系数。可见相关系数是判断变量间线性关系的重要指标。2．样本相关系数我们也只能根据这个容量为n的样本来判断变量X和Y的相关性达到怎样的程度。相关分析与回归分析-2-这个估计称为样本相关系数，或Pearson相关系数。它能够根据样本观察值计算出两个变量相关系数的估计值。和总体相关系数一样，如果0XY，称X和Y不相关。这时它们没有线性关系。多数情况下，样本相关系数取区间(1,1)中的一个值。相关系数的绝对值越大，表明X和Y之间存在的关系越接近线性关系。1．3相关性检验两个变量X和Y之间的相关性检验是对原假设H0：Corr(X,Y)=0的显著性进行检验。检验类型为t。如果H0显著，则X和Y之间没有线性关系。1．4计算样本相关系数Correlate\Bivariate例1数据data02，计算变量当前薪金、起始薪金、受教育年限和工作经验之间的样本相关系数。打开Correlate\Bivariate对话框，将变量salary、salbegin、educ和prevexp输入Variables，点击OK，即得表格：Correlations1.661**.633**-.252**..000.000.000474474474474.661**1.880**-.097*.000..000.034474474474474.633**.880**1.045.000.000..327474474474474-.252**-.097*.0451.000.034.327.474474474474PearsonCorrelationSig.(2-tailed)NPearsonCorrelationSig.(2-tailed)NPearsonCorrelationSig.(2-tailed)NPearsonCorrelationSig.(2-tailed)N受教育年限当前薪金起始薪金工作经验（月）受教育年限当前薪金起始薪金工作经验（月）Correlationissignificantatthe0.01level(2-tailed).**.Correlationissignificantatthe0.05level(2-tailed).*.相关分析与回归分析-3-表格中的PearsonCorrelation指样本相关系数，例如起始薪金与受教育年限的相关系数为0.633；Sig.为相关性检验结果，起始薪金与受教育年限的相关性检验结果为Sig.=0.000，在0.05和0.01的水平下，都能否定它们不相关的假设。N为观察值个数。1．5偏相关系数1．控制变量以上在计算变量X和Y的相关系数时，并没有考虑有其他变量的影响。例如：计算当前薪金(salary)与起始薪金(salbegin)的相关系数得0.890，但是当前薪金显然还受到受教育年限(educ)的影响，这个影响在计算相关系数时没有被扣除，因此0.890这个数字不完全真实。如扣除educ的影响，在计算salary和salbegin的相关系数，就更接近真实了。这个被扣除的变量就叫控制变量，这里educ便是控制变量。控制变量可以不止一个。2．偏相关系数扣除控制变量影响后得到的相关系数称为偏相关系数(partialcorrelation)，计算命令为：Correlate\Partial.例2数据data02，计算当前薪金与起始薪金在扣除受教育年限影响后的偏相关系数。在PartialCorrelations对话框中，将变量salary、salbegin输入Variables，将变量educ输入Controllingfor，然后OK，得：Correlations1.000.795..0000471.7951.000.000.4710CorrelationSignificance(2-tailed)dfCorrelationSignificance(2-tailed)df当前薪金起始薪金ControlVariables受教育年限当前薪金起始薪金其中Corrlation指偏相关系数，df自由度，Significance是对原假设H0：pCorr(X,Y)＝0检验结果得到的水平值。可见：偏相关系数值等于0.795；不能接受不相关的假设。相关分析与回归分析-4-第二节线性回归方程2．1一元线性回归方程1．相关分析是以线性关系为“样板”，讨论变量X和Y的相关程度，这一程度用相关系数表示。我们不禁要问：这个“样板”是什么？也就是把这个做“样板”的线性表达式：)1(10XbbY给出来，这也就相当于把系数b0和b1估计出来。这样，变量X和Y的关系就可以表示成为：)2(10YXbbY其中为误差，是一个随机变量。显然，相关系数绝对值越大，误差在表达式中占的比重就越小，也就是线性部分Y占的比重越大，这就有可能用线性表达式(1)近似表达变量X和Y的关系。称线性表达式(1)为变量Y对于X的（一元线性）回归方程。回归分析的主要任务是回答：1）回归方程(1)能否近似代表变量X和Y的关系。这实际是对线性部分与误差部分各占比重的估量；2）怎样估计回归方程(1)，也就是怎样估计参数b0和b1。显然，在任务2）完成前，任务1）无从开始。2．回归的基本假设解决回归分析的主要任务还是要从样本：)3(,...,2,1),,(niYXii入手。套用(2)，样本(3)可以写成：)4(,...,2,1,10niXbbYiii以下所有分析推导都从(4)出发。显然，需要用到一些数学方法。相关分析与回归分析-5-为此提出以下基本假设：假设1E(i)=0，i=1,2,…,n；假设2Var(i)=2const，i=1,2,…,n；假设3Cov(i,j)=0，ij；假设4i～N(0,2)，i=1,2,…,n。3．回归系数b0、b1的最小二乘估计这一部分内容实际是估计回归方程。作为变量X和Y实际关系的近似，自然要求回归方程(1)计算出的Y值与样本观察值具有最小误差。即把X代入(1)计算出的Y值：)5(,...,2,1,10niXbbYii与实际观察到的Yi误差最小。回归系数的估计式。通过它，可以完全确定回归方程。4．回归方程的评价确定了回归方程后，一个重要问题浮出水面：这个回归方程有多大的代表性？能否投入使用？1）平方和分解公式公式中的三个平方和分别叫做：总平方和(total)niiYYST12)(残差平方和(Residual)niiiYYSQ12)(回归平方和(Regression)niiYYSR12)ˆ(于是(9)式也可以写成：ST=SE+SR。设就是平方和分解公式。平方和分解公式指出一个事实：残差平方和SE与回归平方和SR之和是一个常量，而残差平方和SE越大，表明回归方程跟样本观察值拟合得越差，反之则越好。但从回归平方和SR看，则正好相反，即：SR越大，回归方程跟样本观察值拟合得越好。2）判决系数与复相关系数相关分析与回归分析-6-定义回归平方和SR与平方总和ST的比值称为回归方程的判决系数，用R2表示判决系数，则有：)10(2STSRR判决系数的算术平方根2R称为回归方程的复相关系数。显然：102R。判决系数或复相关系数接近1则表示回归方程与样本观察值拟合得比较好。判决系数也回答了(2)中线性部分Y所占比重的问题。3）回归方程的显著性检验原假设H0：b1=0（回归方程不显著）检验统计量：)2/(nSESRF在给定检验的显著性水平0（例如0.05）后，如果计算得统计量F对应得水平值Sig.0，则拒绝接受H0，这时称原假设H0不显著，也就是回归方程显著，这就意味着：接受回归方程近似代表变量Y和X的关系。5．回归分析命令Regression\Linear例3数据data04，计算身高(high)与体重(weight)的相关系数，并以身高为自变量，体重为因变量求线性回归方程，同时计算判决系数、检验回归方程的显著性（取检验水平0＝0.05）。打开LinearRgression对话框，将因变量体重(weight)输入Dependent，将变量身高(high)输入Independent，点击OK，得输出文件表格系列：VariablesEntered/Removedbhigha.EnterModel1VariablesEnteredVariablesRemovedMethodAllrequestedvariablesentered.a.DependentVariable:weightb.相关分析与回归分析-7-该表格是变量进入或移出回归方程的记录，它指出：进入方程的变量是high，没有变量移出方程，使用的方法为Enter（在回归方程的优化一节中会讨论）。两个注是：a.所有提供的自变量都进入方程。b.因变量是weight。ModelSummary.849a.721.7093.752Model1RRSquareAdjustedRSquareStd.ErroroftheEstimatePredictors:(Constant),higha.模型概况表格。其中RSquare是判决系数，R是复相关系数，AdjustedRSquare是校正的判决系数（容以后介绍）。注a.预测元素为：(常数)，high。即回归方程等号右端是这两部分组成。ANOVAb907.6981907.69864.480.000a351.9312514.0771259.63026RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),higha.DependentVariable:weightb.方差分析表。这部分做回归方程的显著性检验，原假设H0：回归方程不显著。表中SumofSquare一列：Regression是回归平方和，Residual是残差平方和，Total是总平方和。df是相应的自由度，MeanSquare为对应均方和，它的定义是：MeanSqare=SumofSquaredfF是统计量的值，F=RegressionMeanSquareResidualMeanSquare最后的Sig.是F值对应的显著性。由于Sig.=0.0000.05，故原假设H0为不显著，即回归方程显著。最后一个表格是系数表：相关分析与回归分析-8-Coefficientsa-84.60516.193-5.225.00085.12910.601.8498.030.000(Constant)highModel1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:weighta.其中UnstandardCoefficients（非标准化系数）给出回归方程的常数项(Constant)与变量high的系数，它们在B列中显示。因此，回归方程是：highw