统计分析与SAS软件第五章线性回归分析.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

一、一元线性回归二、一元线性回归方程三、回归关系的显著性检验四、置信区间五、多元线性回归六、回归诊断第五章线性回归分析生产实践中,常常能找到一个变量与另外一个变量之间的关系:小麦的施肥量与产量、水稻的株高和穗长、冬天的温度与来年病虫害的发生程度等等。回归分析就是找出合适的回归方程,从而用一个变量来预测另一个变量。一元线性回归:最简单的回归关系,即一个变量y在一个变量x上的回归关系,称x为自变量,y为因变量(或称响应变量、依赖变量)第一节一元线性回归如果两个变量x,y之间存在线性回归关系,则有回归模型:总体:yi=+xi+ia称为回归截距b称为回归系数i称为随机误差样本:yi=a+bxi+i回归方程:=a+bxyˆ第一节一元线性回归回归参数的计算——最小二乘法期望拟合的线性回归方程与试验资料的误差最小,拟合的误差也称作离回归平方和或残差,可以利用数学中求极值的方法解出a和b而使得误差平方和为最小。2112)(ˆiininiiibxayyyQ误差平方和:第二节线性回归方程分别求Q对a和b的偏导数,令其等于0:0)(2)(2xbnaybxayaQ0)(2)(22xbxaxyxbxaybQ整理得正规方程组:yxbnaxyxbxa22112)(ˆiininiiibxayyyQ第二节线性回归方程解正规方程组:)1(yxbna)2(2xyxbxa(3)式各项乘:x)5(//)(2nyxnxbxa(1)式除以n得:(/)/(3)abxnyn(2)-(5)式得:nyxxynxxb/]/)([22即:))(()(2yyxxxxb)4()/(/xbynxbnya于是:于是:xxySSSPxxyyxxb/)(/))((2线性回归方程便已求出为:bxayˆ第二节线性回归方程对此统计假设有两种检验方法:检验线性回归关系是否存在,就是检验建立回归模型的样本是否来自存在回归关系的总体,即H0:=0vsHA:≠0只有在此检验结果为显著时,用a估计,用b估计,用估计y才是有意义的。yˆF检验法和t检验法注:df1=1,df2=n-2的一尾F值等于df=n-2的两尾t值的平方第三节回归关系的显著性检验如果在模型yi=+xi+i中,=0,这就意味着不管xi为什么值,yi都不发生实质性变化;换言之,x和y之间没有显著的回归关系。1.F检验法利用下图说明F检验法的基本原理。y当自变量为,对应的因变量的实测值为,因变量的预测值为。于是的离均差可分解为两个部分:xyyˆyy离均差随机误差回归引起的偏差yyyyyyˆ)ˆ(yyyyˆ)ˆ(yyxyyxyˆ第三节回归关系的显著性检验对数据资料所有点的求和得:对于任一个点有:)ˆ()ˆ()(yyyyyy两边平方得:222)ˆ()ˆ)(ˆ(2)ˆ()(yyyyyyyyyy222)ˆ()ˆ)(ˆ(2)ˆ()(yyyyyyyyyy)()(ˆxxbybxxbybxay证明:上式右边的中间项为0:])[(ˆbxxbyyyy)]())[(()ˆ)(ˆ(xxbyyxxbyyyy])())([(2xxbyyxxb)()ˆ(xxbyy即)()()ˆ(xxbyyyy即第三节回归关系的显著性检验222)ˆ()ˆ()(yyyyyy误差平方和eQSS回归平方和rUSS的总平方和yTSSy于是:的总平方和便分解为两个部分:y第三节回归关系的显著性检验0][)ˆ)(ˆ(xxxyxySSSSSPSPbyyyy对所有点求和得:变异来源自由度平方和均方F值回归误差1n-2UQ总变异n-1T05.0F2Us2es2Us2es检验结论:若FF0.05,则存在显著的线性回归关系。利用方差分析表第三节回归关系的显著性检验2.t检验法其中回归系数其标准误:bsbt22ˆ22ebxxyyQsnnsSSSSxx第三节回归关系的显著性检验H0:=0vsHA:≠0选择t统计量:b研究光照强度与净光合强度的关系光照强度X净光合强度Y一级计算:300700100015002200300040005000600070001402603003804104925806907408302230700482214367000027807641949200010xyxyxyn实例:回归系数b:094868.049431004688460xxySSSPb回归截距a:955.1903070094868.02.482xbya实例:变异来源自由度平方和均方F值回归误差184447841081044478413513295.3211.26总变异945559505.0F01.0FF检验结论:回归关系达极显著,可得线性回归方程用光照强度估测净光合强度是合理的。xy094868.0955.190ˆ1、F检验法实例:P161108102102494210000.005229ebxxQsnsSSSS实例:P16114.18005229.0094868.0bsbt2、t检验0.050.010.01210282.3063.355||18.143.355edfntttt,,结论:回归关系极显著,可得线性回归方程用光照强度来预测净光合强度是合理的。实例:t检验ˆ190.9550.094868yx第四节预测值的置信区间ysty05.0ˆ211yexxxssnSS因此由x预测y时,y的95%置信区间为:由x预测y时,y有一定的误差,其标准误差为:实例:由x预测y的预测区间67.384942100030702500101176.362ys第一步:计算当x=2500时,y的点估计值:第二步:求y的标准误差:125.4282500094868.0955.190ˆy实例:由X预测Y的预测区间95.33867.38036.2125.428ˆ05.0ysty0.05ˆ428.1252.03638.67517.30yyts第三步:求y的置信区间:第四步:结论有95%的把握预测当树冠的光照强度为2500时,净光合作用的强度在338.95到517.30之间。第五节多元线性回归分析一、多元线性回归分析概述上面讨论的只是两个变量的回归问题,其中因变量只与一个自变量相关。但在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类多自变量的回归问题为多元回归分析。这里着重讨论简单而又最一般的线性回归问题,这是因为许多非线性的情形可以化为线性回归来做。多元线性回归分析的原理与一元线性回归分析完全相同,但在计算上却要复杂得多。01122mmyxxx一、多元线性回归分析概述多元线性回归模型多元线性回归方程mmxbxbxbby22110ˆ第五节多元线性回归分析式中β0β1β2…βm为(偏)回归系数式中b0b1b2…bm为(偏)回归系数的估计值根据最小二乘法原理,的估计值应该使)(mbi,1,2,,0i),,2,1,0(mii二、参数估计方法——最小二乘准则由求极值的必要条件得:min)]([)ˆ(122211012nimimiiiniiixbxbxbbyyyQ),,2,1(0)ˆ(20)ˆ(2110mjxyybQyybQnajiiijniii第五节多元线性回归分析采用矩阵形式:Y=XB+E二、参数估计方法——最小二乘准则解得:nmnnmmmxxxxxxxxxxxxX213233122221112111111nyyyY21mbbbbB210YXXXB')'(1第五节多元线性回归分析n2101、回归方程的假设检验三、假设检验原假设H0:β1=β2=…=βm=0F统计量为://(1)UmFQnm回归平方和:自由度:m2)ˆ(yyUi误差平方和:自由度:n-m-12)ˆ(iiyyQ第五节多元线性回归分析2、回归系数的假设检验统计量为t:ibiSbt其中:C(i+1)(i+1)为矩阵(X’X)-1的(i+1)(i+1)元素Q为误差平方和,自由度:df=n-m-1)1)(1(iiybcSSi第五节多元线性回归分析原假设H0:βi=01)t检验1mnQSy2、回归系数的假设检验统计量为:1//1/)1)(1(2mnQcbmnQUFiiii其中:Ui为xi对y的回归平方和,Q为误差平方和C(i+1)(i+1)为矩阵(X’X)-1的(i+1)(i+1)元素自由度:df1=1df2=n-m-1第五节多元线性回归分析原假设H0:βi=02)F检验四、回归模型的选择由于自变量较多时,不是每一个自变量的回归关系都显著,对回归不显著的自变量不能简单的进行剔除。尤其时自变量之间存在严重的线性关系时,自变量之间相互影响,很难对自变量的去留做出抉择。为了获得最优回归方程,就需要对自变量进行筛选。第五节多元线性回归分析常用的自变量的筛选方法:第五节多元线性回归分析1、向前引入法(Forward)按显著性程度,逐个将回归模型外自变量引入回归模型,直到没有显著的自变量引入为止。2、向后剔除法(Backward)对全回归模型中不显著的自变量依次剔除,直到回归模型中剩余自变量都显著为止。3、逐步筛选法(Stepwise)逐个引入最显著的自变量,同时对模型中不显著的自变量进行剔除,直到没有引入和剔除为止。五、回归模型的判别准则1.R2决定系数AdjR2矫正的决定系数n为观测数,p为含截距的参数个数,i为截距数决定系数的值越大,越接近于1模型拟合越好。第五节多元线性回归分析总平方和回归平方和TrSSSSR222_11niAdjRRnp五、回归模型的判别准则2.PRESS统计量——预测残差平方和其中ri为残差,hi为杠杆率PERSS统计量用来比较不同方法所建立的回归模型的优劣,PRESS的值越小,模型越好。21iihrPRESS1''iiihXXXX第五节多元线性回归分析五、回归模型的判别准则3.Cp统计量其中k为参数个数,n为观测数ESS(k)为含k个参数的误差平方和ESS(T)为全回归的误差平方和Cp统计量的值越小,回归模型越好。第五节多元线性回归分析nkmnTESSkESSCp)1(2)1()()(一、残差(Residual)分析残差:指实测值和预测值之间的差。iiiyyrˆ)(iiirVarre第六节回归诊断标准化残差:学生化残差:)()1(iiiirVarhre学生化残差使残差具有优良的可比性残差图:以观测值(x或y)为横坐标,残差为纵坐标第六节回归诊断******************************************************************************************************************1.回归模型合适2.应改为曲线模型3.方差非齐性4.观测值不独立方差非齐性时,可用加权最小二乘法回归,或者对因变量的数据进行适当的变换,如:第六节回归诊断),(),(),(0Y10lnY0YZYZYYZ观测值不独立时(共线性):说明自变

1 / 44
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功