第6章统计回归模型6.2节一元线性回归分析6.2.1回归模型的概念如果因变量y与自变量x之间没有确定性的函数关系,但是有一定的关联性,又有众多的随机因素影响着它们之间的关系,那么可以建立回归模型,1,2,,yin(6.2.1)来研究这类问题.回归模型(6.2.1)式有三个基本假设:(1)将因变量y视作随机变量,即当自变量x在定义域内取某个固定值时,因变量y的观测值是随机的,并且服从一定的概率分布;6.2.1回归模型的概念(2)y,即当自变量x在定义域内取某个固定值时,由因变量y的所有可能的观测值所构成的总体的平均值,又假设μ是x的函数,一般的,可以记为1(;,,)kfx,所包含的k个待定参数1,,k称为回归系数;(3)ε=y−μ,即因变量y的观测值偏离平均值的程度,称为随机误差,假设ε服从正态分布2(0,)N,相互独立,同方差(即2是与自变量的取值、第几次观测都无关的常数).6.2.1回归模型的概念建立回归模型之后,可以根据收集到的x和y的样本数据(,)(1,2,,)iixyin,按照最小二乘法求出回归系数1,,k的估计值1,,kbb,使得误差平方和22111(;,,)nniiikiiyfx在11(,,)(,,)kkbb达到最小值,1,,kbb称为回归系数1,,k的点估计.6.2.1回归模型的概念求出1,,kbb之后,记1(;,,)iiikeyfxbb,称为残差;21niie称为残差平方和,简记为RSS(也可记为SSE或Q);记2RSS()snk,称为剩余方差,而s称为剩余标准差(记作RMSE),2s是2的点估计.对于自变量x在定义域内的任意值0xx,记001ˆ(;,,)kfxbb,称0ˆ为当自变量0xx时对平均值001(;,,)kfx的点估计,又称0ˆ为当自变量0xx时对观测值000y的点预测.6.2.2一元线性回归分析的原理1.模型假设一元线性回归模型的模型假设是:假设因变量y的观察值是自变量x的线性函数加上随机误差,即01yx(6.2.2)并假设随机误差ε服从正态分布2(0,)N,相互独立,同方差.请注意(6.2.2)式当中的x的线性函数01x应理解为当自变量x在定义域内取某个固定值时,由因变量y的所有可能的观测值所构成的总体的平均值.6.2.2一元线性回归分析的原理2.最小二乘点估计对于线性回归模型01yx,根据样本数据(,)(1,2,,)iixyin,1和0的最小二乘点估计为1xyxxbss(6.2.3)01bybx(6.2.4)其中1niixxn,1niiyyn,21()nxxiisxxn,1()()nxyiiisxxyyn6.2.2一元线性回归分析的原理2.最小二乘点估计可以证明(6.2.3)式和(6.2.4)式与1.7.2小节的(1.7.3)式211111110122221111,nnnnnnniiiiiiiiiiiiiiiinnnniiiiiiiixyxxynxyxybbnxxnxx是等价的.可以证明0b和1b分别是0和1的无偏估计,即()(0,1)jjEbj.6.2.2一元线性回归分析的原理2.最小二乘点估计(6.2.3)式和(6.2.4)式的好处是统计意义更加明显:由(6.2.3)式可知自变量x的样本方差0xxs,即ix不全相等,也就是说,能够用一元线性回归分析来处理的样本数据应该是在两个或者两个以上不同的自变量处观测得到的;由(6.2.4)式可知回归直线01ybbx必定经过样本均值点(,)xy.6.2.2一元线性回归分析的原理2.最小二乘点估计根据样本数据(,)(1,2,,)iixyin计算得到回归系数的最小二乘点估计0b和1b之后,定义:01ˆiiybbx,称为预测值;定义ˆiiieyy,称为残差;记RSS=21niie,称为残差平方和;记2RSS()snk,称为剩余方差,2s是2的点估计;s称为剩余标准差(常被记作RMSE).6.2.2一元线性回归分析的原理3.决定系数如果只知道因变量y的n次观测值12,,,nyyy,而不知道自变量x的观测值,那么只有样本均值y能够合理的作为iy的预测值,预测误差为iyy;如果已知自变量x和因变量y的n次观测值(,)(1,2,,)iixyin,那么由回归模型01yx,iy的预测值为01ˆiiybbx,预测误差为ˆiiyy.因此,使用自变量x将预测误差从iyy变为ˆiiyy,相差ˆˆiiiiyyyyyy.6.2.2一元线性回归分析的原理3.决定系数可以证明:222111ˆˆnnniiiiiiiyyyyyy(6.2.5)根据(6.2.5)式,可以定义以下三种平方和:(1)总平方和(TSS)21TSSniiyy(2)残差平方和(RSS)21ˆRSSniiiyy(3)回归平方和(FSS)21ˆFSSniiyy由(6.2.5)式,有恒等式TSS=RSS+FSS(6.2.6)6.2.2一元线性回归分析的原理3.决定系数总平方和TSS表示没有使用自变量x的观测值,仅由因变量y的观测值来预测y而产生的误差平方和,注意总平方和只与因变量y的观测值有关,而与自变量x无关;残差平方和RSS表示使用自变量x和因变量y的观测值,由一元线性回归模型预测y而产生的误差平方和;回归平方和FSS表示由于使用一元线性回归模型而使误差平方和下降的降幅.6.2.2一元线性回归分析的原理3.决定系数定义决定系数为2FSSTSSR.2R就是由于使用一元线性回归模型而使误差平方和下降的降幅占总平方和的比例.由(6.2.6)式,有21RSSTSSR,201R所以2R越接近1,一元线性回归模型的拟合精确程度就越高;特别的,当21R时,回归直线01ybbx恰好经过所有的数据点,残差ie都等于0(1,2,,)in.6.2.2一元线性回归分析的原理4.对自变量显著性的t检验对于回归模型01yx,如果能由样本数据(,)(1,2,,)iixyin推断出拒绝原假设01:0H而采纳备择假设11:0H,则可以认为在回归模型当中,自变量x对因变量y的影响是显著的,也就是说y的观测值的平均值与x存在线性关系.反之,如果由样本数据推断出接受原假设01:0H,则可以认为在回归模型当中,自变量x对因变量y的影响是不显著的,也就是说y的观测值的平均值与x不存在线性关系,一元线性回归模型不适用于该样本数据.6.2.2一元线性回归分析的原理4.对自变量显著性的t检验由样本数据(,)(1,2,,)iixyin计算得到的1b,定义1211()bniissxx,可以证明111()bbs服从t分布t(n−2),因此有以下t检验的方法:给定显著性水平α(默认值为α=0.05),则回归系数1的100(1−α)%置信区间为11(2)(2)1[2]1[2][,]nnbbbtsbts,其中(2)[2]nt为分布t(n−2)的12分位数,即如果随机变量ξ服从t(n−2),则(2)[2]12Prnt.6.2.2一元线性回归分析的原理4.对自变量显著性的t检验判断显著性的方法:如果回归系数1的置信区间不包含零点,就拒绝原假设01:0H而采纳备择假设11:0H,说明在一元线性回归模型当中,自变量x对因变量y的影响是显著的;如果回归系数1的置信区间包含零点,就接受原假设01:0H,说明在一元线性回归模型当中,自变量x对因变量y的影响不显著.6.2.2一元线性回归分析的原理5.对截距显著性的t检验对于一元线性回归模型01yx和样本数据(,)(1,2,,)iixyin,给定显著性水平α(默认值为α=0.05),则截距0的100(1−α)%置信区间为00(2)(2)0[2]0[2][,]nnbbbtsbts其中0b为0的点估计,02211()bniixssnxx.6.2.2一元线性回归分析的原理5.对截距显著性的t检验如果截距0的置信区间不包含零点,就拒绝原假设00:0H而采纳备择假设10:0H,说明截距对因变量y的影响显著;如果截距0的置信区间包含零点,就接受原假设00:0H,说明截距对因变量y的影响不显著,此时可以考虑从一元线性回归模型取消截距0,但是会导致不能进行模型显著性的F检验.所以在实际应用中,不管截距0的置信区间包不包含零点,一元线性回归模型都可以保留截距.6.2.2一元线性回归分析的原理6.一元线性回归模型显著性的F检验回归模型01yx的显著性检验,就是由样本数据(,)(1,2,,)iixyin检验假设:原假设01:0H;备择假设11:0H拒绝原假设01:0H而采纳备择假设11:0H,意味着回归模型是显著的;采纳原假设01:0H,意味着回归模型是不显著的.在实际应用中,不显著的回归模型是不应该采用的.6.2.2一元线性回归分析的原理6.一元线性回归模型显著性的F检验一元线性回归模型显著性的F检验方法:定义F统计量为2FSSFs,则F服从F分布F(1,n−2).给定显著性水平α(默认值为α=0.05),如果(1,2)[]nFF,则拒绝原假设01:0H而采纳备择假设11:0H.其中(1,2)[]nF为分布F(1,n−2)的1−α分位数,即如果随机变量ξ服从F(1,n−2),则(1,2)[]1PrnF6.2.2一元线性回归分析的原理6.一元线性回归模型显著性的F检验很多科学计算软件采用F统计量的p值来检验一元线性回归模型的显著性.设随机变量ξ服从F(1,n−2),则定义F统计量对应的p值为Pr()pF,即F统计量是分布F(1,n−2)的1−p分位数.给定显著性水平α(默认值为α=0.05),如果pα,则拒绝原假设01:0H而采纳备择假设11:0H.可见p越小,即F统计量越大,回归模型就越显著.6.2.2一元线性回归分析的原理6.一元线性回归模型显著性的F检验注6.2.1对于一元线性回归模型,对原假设01:0H和备择假设11:0H的F检验和t检验是等价的,即模型的显著性的F检验和自变量的显著性的t检验是等价的.请注意对于多元线性回归模型,F检验和t检验一般是不等价的.注6.2.2决定系数2R与一元线性回归模型的显著性有很密切的关系.6.2.2一元线性回归分析的原理6.一元线性回归模型显著性的F检验注6.2.2(续)由样本数据(,)(1,2,,)iixyin,定义样本的相关系数为1122211()()()()niiixynniiiixxyyrxxyy容易验证11xyr,并且22xyrR.样本的相关系数xyr用来度量x的n次观测值12,,,nxxx和y的n次观测值12,,,nyyy之间的线性相关性.6.2.2一元线性回归分析的原理6.一元线性回归模型显著性的F检验注6.2.2(续)对于x和y的所有可能的观测值的组合所构成的总体而言,可以定义x和y之间的相关系数ρ,样本的相关系数xyr就是ρ的点估计,并且由xyr可以进行以下假设检验:原假设0:0H;备择假设1:0H.接受原假设0:0H意味着x和y之间不存在线性关系;拒绝原假设0:0H而采纳备择假设1:0H意味着x和y之间存在线性关系.6.2.2一元线性回归分析的原理6.一元线性回归模型显著性的F