第3章回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第4章多元线性回归分析本章提要回归分析是研究1个因变量与多个自变量之间的依赖关系①。例如某地区农作物的产量或品质(如水果的含糖量)可能依赖于土壤的酸碱度、营养元素和微量元素含量等指标,又如区域内Au的矿化可能依赖于其它地球化学指标,如Cu、Fe、As、Bi、S、F、Cl等的含量,但由于自然现象的复杂性,这种依赖关系并不是完全确定的,而只是统计意义上的。回归分析就是用来揭示这一统计规律性的方法。因变量y与自变量x1,x2,…,xp之间的这种关系可表示为y=f(x1,x2,…,xp)+称为回归模型,其中p为自变量数,为误差部分,一般可假定服从均值为0,方差为2的正态分布,即有~N(0,2)。4.1多元线性回归1.多元线性回归模型因变量y与自变量x1,x2,…,xp之间最简单的依赖关系是线性关系yxxxyppˆ22110(4.1)称为p元线性回归模型,而ppxxxy22110ˆ称为回归方程,0,1,…,p为未知参数,其中0为常数项,j(j=1,2,…,p)称y对xj的偏回归系数。回归方程的几何意义是以一个超平面来拟合空间数据,见图文框4.1。为建立多元线性回归方程,首先要对所研究的自变量和因变量进行抽样分析,第i个样品的p个变量的分析价值为xi1,xi2,…,xip,相应的应变量值为yi。则根据回归模型,有iiiippiiiyxxxyˆ22110,i=1,2,…,n,若记,111,122111121npnppnxxxxxxXyyyypp2110,①本书不涉及多个因变量的回归分析,有兴趣的读者可参考张尧庭、方开泰(1982)文字框4.1线性回归方程的几何意义●●iyˆiyˆ●●●yiiyˆx1x2x3(注意X与前面数据矩阵的差异),则(4.4)式可用矩阵表示为Xy(4.2)多元线性回归分析的问题是从已知的数据矩阵y和X出发,如何求得参数的估计值,并对估计误差作出推断。假设1,2,…,p相互独立,且均服从同一正态分布N(0,2),这就意味着y服从n元正态分布,且IVXE2)()(yy(4.3)I为nn的单位阵。2.参数的最小二乘估计以b=(b0,b1,…,bp)’为的估计值,则称ppxbxbxbby...ˆ22110(4.4)为y关于x1,x2,…,xp的经验线性回归方程,以此可求出各样品的回归值ippiiixbxbxbby...ˆ22110回归值与实际观测值之间的误差平方和(也称残差平方和))记为niiiyyQ12)ˆ((4.5)最小二乘法要求选取b=(b0,b1,…,bp)’使得误差平方和达到最小。将(4.4)代入上式得2122110])...([niippiiixbxbxbbyQ(4.6)欲求其最小值只需Q对系数b0,b1,…,bp求导数并令其为零,得0])...([20])...([20])...([21221101122110122110ipniippiiiiniippiiiniippiiixxbxbxbbyQxxbxbxbbyQxbxbxbbyQ(4.7)它可进一步简化并以i代替ni1,得到iiiippipiiipiiipiipiiiipipiiiiiiiiiiipipiiiiyxbxbxxbxxbxyxbxxbxxbxbxybxbxbxnb)(...)()()()(...)()()()(...)()(222110112211210122110(4.8)这是一个求解b0,b1,…,bp的线性方程组,或表示成矩阵的形式yXbXX(4.8’)可以证明矩阵XX是非奇异的,逆矩阵存在,于是可得到解yXXXb1)((4.9)另一种常用的表达式是从(4.8)式中消去b0。(4.8)式的第1个方程可改写为yxbxbxbbpp...22110这表明回归平面经过原数据点的重心。或为)...(22110ppxbxbxbyb(4.10)代入(4.8)中其余各式以消去b0,可得pypppppyppyppsbsbsbssbsbsbssbsbsbs.........22112222212111211111或Sb=sy(4.11)其中系数矩阵ppppppppjkssssssssssS212222111211)(,pbbbb21,pyyyyssss21(4.12)S即为自变量的协方差阵nikjikijnikikjijjkxxnxxnxxxxns111))((1而sy=(sjy)为变量j与因变量之间的协方差向量nijiijniijijjyyxnyxnyyxxns111))((1这里b中不含b0项,要注意区别于前面定义的b。若记C=(cjk)为S=(sjk)的逆矩阵,即C=S-1,则由方程(4.11)可得piscbpkkyjkj,...,2,1,1(4.13)求出b1,…,bp后,可由(4.10)求出b0。误差平方和也可改写为21222111])(...)()()[(nipippiiixxbxxbxxbyyQ(4.14)3.回归方程的显著性检验对于任意给定的一组观测数据(xi1,xi2,…,xip;yi),(i=1,2,…,n),我们都可以按照上一节的方法建立起回归方程。但实际问题很可能因变量y与自变量x1,x2,…,xp之间根本不存在线性关系,这时建立起来的回归方程的效果一定很差,即回归值iyˆ事实上不能拟合真实的值yi。即使整个回归方程的效果是显著的,在多元的情况下,是否每个变量都起着显著的作用呢?因此还需对各个回归系数进行显著性检验,对于回归效果不显著的自变量,我们可以从回归方程中剔除,而只保留起重要作用的自变量,这样可以使回归方程更简练。为此,我们来研究回归系数的统计特征。由前面方程(4.9)知,b是因变量y的线性函数,因此b服从正态分布,且有XXXXyEXXXyXXXEbE111)()()(])[()(所以,最小二乘估计b是b的无偏估计,其协方差矩阵为21121111)(])[()(])[()()(])[()(XXXXXIXXXXXXyVXXXyXXXVbV所以有))(,(~21XXNb由(4.13)式还可以得到各bj的方差2)(jjjcbD即有),(~2jjjjcNb(4.15)对于残差平方和niiiyyQ12)ˆ(,可以证明有2)1()(pnQE所以我们可以得到误差j(也是因变量yj的)方差2的无偏估计,记为2ys1ˆ22pnQsy(4.16)多元线性回归效果的好坏可以从因变量y的总离差平方和syy被回归值说明了多少来衡量。y的总离差平方和syy可以分解为两部分niiniiiiniiiniiiiniiyyyyyyyyyyyyyyyys121121212)ˆ()ˆ)(ˆ(2)ˆ()]ˆ()ˆ[()(可以证明交叉乘积项niiiiyyyy1)ˆ)(ˆ(=0(作为练习请读者自证之),于是有QUsyy(4.17)其中nipippiiniippiiniixxbxxbxxbyxbxbxbbyyU12222111122211012)](...)()([)...()ˆ((4.18)称为回归平方和,它反映了自变量的变化对y的贡献,其自由度为p。Q即残差平方和(见4.6式),自由度为n–p-1。给定了一组数据后,因变量y的总离差平方和syy是确定了的,不依赖于回归方程中回归系数的选取。(4.15)式说明syy由两部分组成。显然,U值越大、Q值越小,回归效果也就越好。定义yyyysQsUR12(4.19)称R为复相关系数,显然10R,且R值越接近于1,回归效果越好。但R值与自变量数p和样品数n有关,当n相对于p不很大时常有较大的R值。为了检验回归效果的好坏,引进统计量)1/(/pnQpUF(4.20)以检验假设0...:210pH(4.21)当假设H0为真时,各自变量对因变量y没有什么影响,也即回归方程无显著意义;反之,如不能认为全部i=0,则认为回归方程是显著的。当H0为真时,可以证明,统计量F服从自由度为p和n-p-1的F分布,由F分布表查出F(p,n-p-1),当计算所得的F>F(p,n-p-1)时,则拒绝H0而认为回归效果显著。为置信度,一般取0.05,即计算所得的F>F(p,n-p-1)的概率只有5%,因而是不大可能发生的小概率事件,而一旦发生,可怀疑假设H0的正确性。4.各回归系数i的显著性检验上面只对回归方程中全部自变量的总体效果进行检验,现在进一步考察各自变量xj的重要性。如果某个自变量的i=0,则该变量不起作用,因此我们对来每自变量xj作检验假设:pjHj...,,2,1,0:0(4.22)由(4.15)知),(~2jjjjcNb,因此)1,0(~Ncbjjjj但实际上是未知的,得用其无偏估计sy代替(见4.16式)。在假设(4.22)为真时,scbtjjjj(4.23)服从自由度为n-p-i的t分布。对于给定的显著性水平,求出t分布的临界值)1(*2/pntt,即有P(|t|≥t*)=1-,则当由(4.23)计算得到的t值|t|≥t*时拒绝H0而认为bj与零有显著差别。也可用统计量)1/(/222pnQcbscbFjjjyjjjj(4.24)在假设(4.22)下Fj服从自由度为1和n-p-1的F分布,当计算所得的Fj大于临界值F(n-p-1)时认为变量xj是显著的。5.回归的置信区间建立起回归方程后,我们可以用自变量的一组值x0=(x01,x02,…,x0p)来得到回归值0ˆy,称为回归预测。现在来估计预测的误差,由前面已知,y0服从正态分布,其方差的无偏估计为sy,对于给定的置信度a,其置信度区间为)ˆ,ˆ(2/02/0yyszyszy其中2/z是相应于2/1的正态分布的分位数,例如文字框4.2t分布、2分布与F分布与正态分布一样,t分布、2分布与F分布是在统计分析中最常用的统计分布。1.t分布设随机变量xj相互独立且服从同一正态分布N(,),则随机变量niixnx11服从正态分布)/,(nN。若已知,而未知时,需要用的估计s来代替。定义1/nsxt称自由度为(n-1)的学生氏分布,因为Gosset用笔名Student发表,其分布密度函数为tntnnntfn,11121212)(2/2,其中为伽玛函数,属于一类称之为特殊函数的成员之一。t分布的概率密度曲线见左图。Matlab中有t分布的概率密度函数和累积概率函数分别为tpdf(X,n)和tcdf(X,n),n为自由度。2.2分布设p个相互独立的随机变量xj(j=1,…,p)服从均值为0,均方差为的同一分布(若均值非零,则可考虑随机变量xij’=(xij-j),则随机变量pjjxy12服从自由度为p的2分布(Chi-squaredistribution),记y~2(p

1 / 10
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功