1第十二章回归分析学习目标掌握简单线性回归模型基本原理。掌握最小平方法。掌握测定系数。了解模型假定。掌握显著性检验学会用回归方程进行估计和预测。了解残差分析。21.P370-14.P380-202.P372-75.P388-283.P380-186.P393-35习题3案例讨论:1.这个案例都告诉了我们哪些信息?2.通过阅读这个案例你受到哪些启发?4根据一个变量(或更多变量)来估计某一变量的方法,统计上称为回归分析(Regressionanalysis)。回归分析中,待估计的变量称为因变量(Dependentvariables),用y表示;用来估计因变量的变量称为自变量(Independentvariables),用x表示。5第一节简单线性回归模型只涉及两个变量(一个自变量和一个因变量)之间关系的回归分析称为简单回归分析(Simpleregressionanalysis)。两个变量之间的关系大约呈一条直线的简单回归分析称为简单线性回归分析(Simplelinearregressionanalysis)。6一、从一个实际问题入手用回归分析可以预测运行一条商业航空线的成本吗?如果可以,那么哪些变量与这一成本有关呢?7飞机运行成本飞机型号飞行距离乘客数量行李或货物重量天气状况……8为了减少自变量个数,我们做如下假定:飞机类别——波音737飞机飞行距离——500公里航线——可比,而且在每年的相同季节在这种条件下,可以用乘客数来预测飞行的成本吗?9表12-1是每年相同季节波音737飞机在12条500公里的不同航线不同乘客数时的飞行成本。我们用这些数据以乘客数作为自变量构造模型来预测成本。1011二、回归模型和回归方程xy10(12.1):因变量(随机变量)y:自变量(给定变量)x:参数10、:误差项(随机变量),含义为说明在中不能被和之间线性关系解释的变异性。yxy12在有关假设中,有一个假设就是的期望值或均值等于0,即0E(12.2)如果简单线性回归模型满足了这个条件,那么就意味着的均值或期望值就是一个线性函数。y描述的均值与的关系如何的方程称为回归方程(Regressionequation)。yx13在简单线性回归中1.回归方程的图形是一条直线(如图12.1所示);xyE10(12.3)14152.:的截距;0y13.:斜率(回归系数);的含义:当自变量给定一个具体变动值时,因变量平均变化的量。1xy161718三、估计回归方程估计回归方程(Estimatedregressionequation)就是用样本统计量作为参数的估计值所建立的回归方程。xbby10ˆ(12.4):的估计值yˆy:的估计值0b0:的估计值1b11920第二节最小平方法最小平方法(Leastsquaresmethod),也称最小二乘法,是将回归模型的方差之和最小化,以得到一系列方程,从这些方程中解出模型中需要的参数的一种方法。21(一)画散点图,以初步观察成本与乘客数量之间是否呈回归直线。22(二)建立估计回归方程1221ˆ10,,,ixbbyii(12.5)最小平方法运用样本数据求出和的值,使得因变量的实际观察值与其估计值之差的平方和最小,即0b1biyiyˆminˆ2iiyy(12.6)23(三)估计回归方程斜率和截距的计算公式bxxnyxyxnbaxnxyxyxbiiiiii7.127.12221221xbyb10(12.8)24250407.09307376412690.56930220.4462122221xxnyxyxnbiiii26570.1129300407.012690.56110nxbnyxbyb27(四)将和的计算结果代入式(12.5)有:1b0biixy0407.0570.1ˆ计算结果表明,在其他条件相同情况下,12条航线上波音737飞机各条航线每次飞行时每增加1名乘客,将会使飞行成本平均增加40.70元。结论:28千元419.4700407.0570.1ˆiy**Y=4.48千元二者差0.061千元或61元。29第三节一元线性回归方程的评价测定系数估计标准误差30一、测定系数回归直线与各观测数据的接近程度称为回归直线的拟合优度。度量回归直线的拟合优度最常用的指标是测定系数,(又称可决系数、判定系数)。该指标是建立在对总离差平方和进行分解的基础之上的。31离差分解图xyyxy10ˆˆˆyy{}}yyˆyyˆ),(iiyx离差分解图32离差平方和的分解两端平方后求和有)ˆ()ˆ(yyyyyy222ˆˆyyyyyyiii总离差平方和(SST){回归平方和(SSR){残差平方和(SSE){22222)()(1)()ˆ(yyyyyyyySSTSSRRiiiii(12.9)(12.10)(12.11)33决定系数的取值R2的取值范围是[0,1]。R2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。在一元线性回归中,相关系数r的平方等于判定系数,符号与自变量x的系数一致。因此可以根据回归结果求出相关系数。34(一)残差残差(Residualerror)是因变量的观察值y和因变量的估计值之间的偏差。iyˆiiyyˆ例如,上面的例子,705ixi,元061.0419.448.4ˆ55yy(12.12)35表12-3残差计算表36(二)误差平方和残差平方的总和称为误差平方和(Sumofsquaresoferror,SSE)。2ˆiiyySSE(12.13)SSE的值是用估计回归方程估计样本中因变量的值时所产生误差的一种测度。37(三)总离差平方和因变量的值与其均值之间离差的平方和称为总离差平方和(Totalsumofsquares,SST)。2yySSTi(12.14)38(四)回归平方和因变量的值与其估计值之间离差的平方和称为回归平方和(Sumofsquaresduetoregression,SSR)。2ˆiiyySSR(12.15)39例如;飞行成本案例中各种有关数据计算如下表12-4计算表40由表12-4计算结果可知,SSE=0.31434,SSR=2.79775,SST=3.11209,则899.011209.379775.22SSTSSRr41这就是说,在一条商业航线上一架波音737飞机飞行成本的方差中有89.9%可以被乘客数目说明或预测,换句话说,飞行成本Y的方差中不能由X或回归方程解释的有10.1%。42二、估计标准误估计标准误:是对各观测数据在回归直线周围分散程度的一个度量值,它是对误差项ε的标准差σ的估计。估计标准误反映了用估计的回归方程拟合因变量Y时平均误差的大小。各观测数据越靠近回归直线,sy就越小,回归直线对各观测数据的代表性就越好。与R2不同的是,估计标准误是一个有单位的平均数。MSEnSSEnyysiiy22)ˆ(2(12.16)43在飞行成本的案例中:sse=0.31414n=12千元1773.01031434.02nSSEsy【统计分析】计算结果表明,在12条商业航线上,每架波音737飞机在飞行500公里和其他条件相同情况下,其飞行成本与它们的平均飞行成本平均相差117.3元。44三、利用测定系数计算相关系数样本相关系数21rbrxy的符号(12.17)例如,在飞行成本的例子中,899.02r0407.01b95.0899.02rrxy45计算结果表明,波音737飞机在相同季节12条航线上,乘客数量与运行成本之间存在线性高度的正相关关系。46●测定系数与相关系数的联系与区别两种系数都可以用来测量线性相关关系的强弱;两种系数的取值范围不同:测定系数在0~1之间,相关系数在-1~+1之间。两种系数的作用范围不同:相关系数只能用来测定双变量之间的线性相关关系的强弱,测定系数除了可以测量双变量之间线性相关关系的强弱外,还可以用来测量非线性相关关系的强弱和多变量时的相关。因此,测定系数的应用范围比相关系数更广泛。47第四节模型假定在进行回归分析时,为了建立适当的模型来说明因变量和自变量之间的关系,需要做出一些假定。简单线性回归的假定模型是:xy1048要确定假定模型是否恰当,就需要进行显著性检验。显著性检验建立在以下有关假定的基础上:关于回归模型中误差项的假定(1)误差项是一个随机变量,它的均值或期望值为0,即0E(12.18)49xyE10x2(2)对于所有值,误差项的方差()相等,即22221n(3)误差项值是相互独立的。jiEji0(12.19)(12.20)50(4)误差项是一个服从正态分布的随机变量niNi,,,,,210~2(12.21)51第五节回归分析中的显著性检验回归分析中的显著性检验包括两方面的内容:一是对单个自变量回归系数的显著性检验(t检验);二是对整个回归方程(所有自变量回归系数)显著性的整体检验(F检验)在一元线性回归模型中,由于只有一个解释变量X,因此,对β1=0的t检验与对整个方程的F检验是等价的。52一、单个回归系数显著性的t检验第1步:提出假设。一般为对于一些具体问题也可能需要进行单侧检验。第2步:确定检验的统计量。可以证明在回归模型的基本假设成立时,如果零假设正确,则有0:0:1110HH(12.22)53nxxssyb221(12.23)54第3步:计算检验统计量的样本观测值。第4步:进行决策:根据显著性水平a和自由度df=n-2确定检验统计量的临界值,tta时拒绝H0;55例如,已知在飞行成本的例子中,1773.0ys。,,12737649302nxx004314.012930737641773.02221nxxssiiyb0407.01b56查表(P453)=2122/05.0t228.257由于t=9.43,表明t值落在拒绝域。因此,总体斜率的假设被拒绝,说明X与Y之间线性关系是显著的。即12条航线上,波音737飞机在飞行500公里和其他条件相同情况下,其乘客数量与飞行成本之间的线性关系是显著的。228.2102/05.0t0158单个回归系数的显著性检验的几点说明为什么要检验回归系数是否等于0?如果总体中的回归系数等于零,说明相应的自变量对y缺乏解释能力,在这种情况下我们可能需要中回归方程中去掉这个自变量。我们也可以对常数项进行t检验,但大部分情况下我们并不关心常数项的检验结果。通常情况下即使常数项在模型中不显著,我们也会在模型中保留常数项,去掉常数项可能会对模型带来不利影响。59第1步:提出假设。在一元回归为第2步:确定检验统计量:)2,1(~)2/(1/nFMSEMSRnSSESSRF二、方程整体显著性的F检验显著)两个变量间的线性关系不显著)两个变量间的线性关系(0:(0:1110HH(12.24)60MSE:均方误差(Meansquareerror)是残差平方和(SSE)除以自由度(n-2)所得的一个平均数,它是残差项方差的一个无偏估计量。2nSSEMSE(12.25)61例如,在飞行成本的例子中SSE=0.31434,(n-2)=(12-2)=10,则031434.01031434.02nSSEMSE62MSR:均方回归(Meansquareregression