第10章线性回归分析10.1回归分析的概述10.2一元线性回归10.3一元线性回归模型的检验10.4回归方程在估计和预测中的应用回归:退回regression平均身高10.1.1回归分析法产生的历史第一节回归分析的概述父亲们的身高与儿子们的身高之间关系的研究1889年道尔顿(F.Gallton)和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式下图是根据1078个家庭的调查所作的散点图(略图)yx160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定回归分析法产生的历史从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。后人将此种方法普遍用于寻找变量之间的规律xyubxay516.033.84ˆ回归分析法产生的历史10.1.2回归分析的相关概念回归分析通过一个变量x或一些变量(x1,x2,x3…)的变化解释另一变量y的变化.即根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法。回归方程回归模型反映自变量和因变量之间数学联系的表达式。某一类回归方程的总称。自变量(independentvariable):解释变量。给定的或可以控制的、用来解释、预测应变量的变量。因变量(dependentvariable):被解释变量。由自变量来解释其变化的变量。XYXY••••••••1、根据理论和对问题的分析判断,区分自变量和因变量;2、设法找出适合的数学方程式(即回归模型)描述变量间的关系;3、对回归模型进行统计检验;4、统计检验通过后,利用回归模型,根据解释变量去估计,预测因变量。10.1.3回归分析的内容和步骤根据变量的多少分为:一元回归多元回归只有一个自变量和一个因变量的回归自变量数目在两个或两个以上根据建立的回归模型形式分为:线性回归非线性回归从所拟合的回归模型来看,一变量表现为其它变量的线性组合。从所拟合的回归模型来看,一变量表现为其它变量的非线性组合10.1.4回归分析的分类理论和方法具有一致性;无相关就无回归,相关程度越高,回归越好;相关系数和回归系数方向一致,可以互相推算。联系:10.1.5回归分析与相关分析的联系与区别相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。区别:10.1.5回归分析与相关分析的联系与区别在回归分析中,如果两个变量之间存在相关关系,并且一个变量的变化会引起另一个变量按某一线性关系变化,则两个变量间的关系可以用一元线性回归模型描述。第二节一元线性回归第二节一元线性回归10.2.1一元线性回归模型Y与X具有统计关系而且是线性建立回归模型Yi=β0+β1Xi+εi(i=1,2,···,n)其中,(Xi,Yj)表示(X,Y)的第i个观测值,β0,β1为参数,β0+β1Xi为反映统计关系直线的分量,εi为反映在统计关系直线周围散布的随机分量εi~N(0,σ2)。即,E(εi)=0,且对于所有的x值,ε的方差σ2都相同。对于任意Xi值有:⑴Yi服从正态分布⑵E(Yi)=β0+β1Xi;⑶⑷各Yi间相互独立,Yi~N(β0+β1Xi,σ2)。22)(iY10.2.1一元线性回归模型最小二乘法Y与X之间为线性关系选出一条最能反映Y与X之间关系规律的直线10.2.2一元线性回归方程Yi=β0+β1Xi+εiβ0和β1均未知根据样本数据对β0和β1进行估计β0和β1的估计值为b0和b1建立一元线性回归方程XbbYˆ1010.2.2一元线性回归方程回归方程原理图10.2.2一元线性回归方程一般而言,所求的b0和b1应能使每个样本观测点(Xi,Yi)与回归直线之间的偏差尽可能小,即使观察值与拟合值的误差平方和Q达到最小。令2110)]([niiiXbbYQQ达到最小值b0和b1称为最小二乘估计量微积分中极值的必要条件niiiXbbYbQ1100)]([2niiiiXXbbYbQ1101)]([2令偏导数为0niiniiYXbnb1110iniiniiniiYXXbXb112110解方程10.2.2一元线性回归方程21211211)())(()())((iniiniiiiiniiniiiXXnYXYXnXXYYXXb XbYb10(10-1)(10-2)10.2.2一元线性回归方程niiYnY11niiXnX11其中10.2.3最小二乘估计量b0,b1的特性1,02(1)b0,b1分别是的无偏估计;(2)和的最小二乘估计b0和b1为“方差最小”线性无偏估计;(3)的无偏估计为:012)ˆ(122nyyniii在实际中,方差是未知的,因此,可用估计量来估计。2)ˆ(ˆ122nyyniii210.2.3最小二乘估计量b0,b1的特性2【例】工业总产值与能源消耗量的数据如表所示,试建立工业总产值对能源消耗量的线性回归方程。序号能源消耗量(十万吨)x工业总产值(亿元)y135242382534024442285493265231754378594096241106440【分析】因为工业总产值与能源消耗量之间存在高度正相关关系(),所以可以拟合工业总产值对能源消耗量的线性回归方程。97.0r55086,37887,625,916,162xxyyxn由计算表知解:设线性回归方程为xbby10ˆ计算表序号能源消耗量(十万吨)x工业总产值(亿元)yx2y2xy1352412255768402382514446259503402416005769604422817647841176549322401102415686523127049611612754372916136919988594034811600236096241384416812542106440409616002560合计4953222547510796165665142.6169167961.0166257961.091655086166259163788716102221xbybxxnyxxynb即线性回归方程为:xy7961.05142.6ˆ计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。练习:在某班中随机抽取了10名学生,搜集他们的身高和体重情况,获得数据如表所示,根据这些数据绘制出的散点图如图示。利用最小二乘法,求一元线性回归方程。学生身高x体重yA15847B16050C16248D16455E16662F16860G17052H17261I17470J1766510名学生的身高与体重散点图4045505560657075158160162164166168170172174176178身高(X)体重(Y)解:(1)由散点图,易看出变量x与y之间的关系近似可看作是线性关系,根据表中的数据,求得所需的数据值列入下表。(2)计算b1和b01596.1231670788.1570788.116702792201057016709554610)())((102101210121011011011xbybxxnyxyxnbiiiiiiiiiiixxbby0788.11586.123ˆ10所以回归直线方程为:学生身高x体重yx2y2xyA158472496422097426B160502560025008000C162482624423047776D164552689630259020E1666227556384410292F1686028224360010080G170522890027048840H1726129584372110492I1747030276490012180J176653097642251144016705702792203303295546第三节一元线性回归模型的检验从总体中随机抽取一个样本,根据样本的n对X与Y的资料导出线性回归模型,由于受到抽样误差的影响,它所确定的变量之间的线性关系是否显著,以及按照这个模型用给定的自变量X估计因变量Y是否有效,必须通过统计检验才可作出结论。统计检验应包括两方面的内容:一是回归方程的显著性检验,即反映回归模型=对样本观测值的拟合程度如何;二是回归系数的显著性检验,即检验变量y与变量x之间是否能用线性关系来描述;以下介绍三种检验的方法:yˆx10第三节一元线性回归模型的检验(1)回归模型的拟合程度的测度变量y的各个观测点聚集在回归直线=周围的紧密程度,称为回归直线对样本数据点的拟合程度,常用判定系数(可决系数)r2来表示。yˆx10总平方和分解由于YYYYYYiiiiˆˆniininiiiiYYYYYY121122)ˆ()ˆ()(niiiiYYYY10)ˆ)(ˆ(并且可得:总平方和分解总平方和分解图总平方和分解总离差平方和niiYYSSTO12)(它表示没有X的影响,单纯考察数据中Y的变动情况。回归平方和niiYYSSR12)ˆ(表示各的变动程度,该变动是由于回归直线中各Xi的变动所引起的,并且通过X对Y的线性影响表现出来。iYˆ总平方和分解误差平方和niiiYYSSE12)ˆ(表示各Yi围绕所拟合的回归直线的变动程度SSTO=SSR+SSE总平方和分解22)(1ynySSTO222)()(xxnyxxynSSRSSRSSTOSSE总离差平方和回归平方和误差平方和等价转化为:可作如下解释:因变量的总变化量(由SSTO表示)可分成两部分之和,其中一部分是由自变量所引起的变化(由SSR刻画),另一部分是随机误差所引起的变化(由SSE刻画)。变量y的各个观测值点与回归直线越靠近,SSR在SSTO中所占的比重越大,可见,比值SSR/SSTO的大小,能反映回归模型拟合程度的优劣。总平方和分解10名学生的身高与体重散点图4045505560657075158160162164166168170172174176178身高(X)体重(Y)yyˆyyyyˆyyˆ2)(yySSTO2)ˆ(yySSE2)ˆ(yySSR误差平方和回归平方和总离差平方和SSTO自由度ƒT为n-1SSE自由度ƒE为n-2SSR自由度ƒR为1自由度的分解自由度的分解可以表示为n-1=1+(n-2)ƒT=ƒR+ƒE自由度的分解回归均方与误差均方1SSRMSR2nSSEMSE回归均方误差均方判定系数判定系数SSTOSSESSTOSSESSTOSSTOSSRr12判定系数说明:r2称为“判定系数”,显然,0≤r2≤1。当r2接近于1时,回归平方和SSR在总的平方和SSTO中所占的比重大,说明自变量对因变量的影响较大;反之,当r2接近与0时,回归平方和SSR在总的平方和SSTO中所占的比重小,说明自变量对因变量的影响较小。综上所述,r2越接近与1,说明模型越有效,r2越接近与0,说明模型越无效。应该注意