第十一章多元线性回归和相关分析第一节多元回归分析依变量依两个或两个以上自变量的回归,称为多元回归或复回归(multipleregression)主要内容:1、确定各个自变量对依变量的综合效应和单独效应,即建立由各自变量描述和预测依变量反应量的多元回归方程;2、对上述综合效应和单独效应的显著性进行测验,建立最优多元回归方程;评价各自变量对依变量的相对重要性。一、多元回归方程1、多元回归的线性模型和多元回归方程式一个m元线性回归总体的线性模型为:yj=0+1x1j+2x2j+…+mxmj+j其中,j~N(0,2)一个m元线性回归样本观察值的组成为:yj=b0+b1x1j+b2x2j+…+bmxmj+ej同理一个m元线性回归方程可给定为:b0是x1、x2、…、xm都为0时y的点估计值;b1是by1.23…m的简写,它是在x2,x3,…,xm皆保持一定时(取常量),x1每改变一个单位时对y的效应,称为x2,x3,…,xm不变时,x1对y的偏回归系数(partialregressioncoefficient)。2、多元回归统计数的计算多元线性回归资料的数据结构如下表:m个自变量与依变量y的回归方程为:根据最小二乘法原理,b0、b1、b2、……bm应使全部观察值y与回归估计值的偏差平方和为最小,即使根据微分学中的极值原理,分别对b0、b1、b2、……bm偏导,并令其为0,即该方程组称为正规方程组,可尽一步化为Nb0+b1x1+b2x2+b3x3+……+bmxm=yb0x1+b1x12+b2x1x2+b3x1x3+……+bmx1xm=x1yb0x2+b1x1x2+b2x22+b3x2x3+……+bmx2xm=x2y…………b0xm+b1x1xm+b2x2xm+b3x3xm+……+bmxm2=xmy写成矩阵形式:AbB系数矩阵偏回归系数矩阵常数项矩阵即Ab=B系数矩阵A=XX,n组数据的称为结构矩阵或数据矩阵这样一来,正规方程组的矩阵形式是(XX)b=XY或Ab=B其中b=(b0,b1,b2,…bm)是正规方程组中的未知数。在系数矩阵满秩的条件下(这个条件在一般情况是容易满足的),A的逆阵存在,因而b=A-1B=(XX)-1XYC=A-1=(XX)-1称为相关矩阵(例11.1)通过12个北方春玉米杂交种的测定数据(见表11.3),研究在相同密度下每穗粒数(X1,粒)、百粒重(X2,g)、株高(X3,cm)与每公顷玉米籽粒产量(Y,kg/hm2)的关系。试建立每穗总粒数、百粒重、株高对每公顷玉米产量的多元线性回归方程;解:用矩阵法求解多元线性回归方程①写出结构矩阵或数据矩阵X及依变量列矩阵Y②利用公式A=XX,B=XY,求得系数矩阵A和常数项矩阵B③求系数矩阵A的逆矩阵C④求解偏回归系数矩阵b=(b0、b1、b2、…、bm)′即b0=–2829.29147072,b1=14.94880992,b2=238.15014040,b3=–15.29653995⑤写出线性回归方程式中:自变量X1对应的偏回归系数b1=14.9,表明在百粒重(X2)、株高(X3)保持平均水平(=Σx2/n=403/12=33.55g;=Σx3/n=3401/12=283.4cm)时,每穗总粒数(X1)每增加1(粒),将使每公顷玉米籽粒产量(Y)平均增加14.9(kg);同理,b2=238.2,表明在每穗总粒数(X1)、株高(X3)保持平均水平(=Σx1/n=6177/12=514.8粒;=283.4cm)时,百粒重(X2)每增加1(g),将使每公顷玉米产量(Y)平均增加238.2(kg);b3=–15.3,表明在每穗总粒数(X1)、百粒重(X2)保持平均水平(=514.8粒;=33.55g)时,株高(X3)每增加1(cm),将使每公顷玉米产量(Y)平均减少15.3(kg)。如果此回归关系是真实的(见下文),则该方程可用于描述表11.3的资料。但是,推断的量值处在观察值区间之内,才是可信的。X1的区间是[455.0,594.5],X2的区间是[24.1,40.3],X3的区间是[268,294]。二、多元线性回归的假设检验1、多元回归方程的假设检验检验m个自变量综合对Y的效应是否显著,即检验各自变量的总体偏回归系数j(j=1,2,…,)是否同时为零。①总变异平方和及自由度分解。自由度dfY=n–1SSY=UY/12···m+QY/12···mdfY=dfU+dfQ其中,离回归平方和(或剩余平方和)=YY–b(XY)自由度dfQ=n–(m+1)它与自变量X无关,仅反映除依变量与m个自变量间存在线性关系以外的其他因素包括试验误差所引起的变异。回归平方和=b(XY)–(1Y)2/n自由度dfU=m。它是由m个自变量Xj的不同引起的,即是依变量Y受m个自变量综合线性影响所引起的变异②F检验若F≥F(m,n–m–1),那么我们可以在显著水平下,认为多元线性回归方程是成立的,是有显著意义的。反之,FF,则认为该多元线性回归方程没有意义。这里应注意两个问题;第一,多元线性回归方程显著,不排斥有更合理的多元非线性回归方程的存在;第二,多元线性回归方程显著,也不排斥其中存在着与依变量Y无线性关系的自变量,所以,要准确地评定各自变量对Y是否有真实回归关系,还必须对偏回归系数的显著性做出假设检验,进而发现和删除不显著的偏回归系数对应的自变量。2、偏回归系数的假设检验检验自变量Xj对Y的作用是否显著,亦即检验假设H0:j=0。①F检验法叫做Y在Xi上的偏回归平方和。可以检验bj来自j=0的总体的概率。②t检验法服从df=n–(m+1)的t分布其中sbj为偏回归系数估计标准其中cjj为高斯乘数,是相关矩阵C中主对角线上的元素。sY/12···m称为多元线性回归方程的估计标准误或离回归标准误:它的大小反映了回归平面与实测点的偏离程度,即回归估计值与实测值y偏离的程度。离回归标准误sY/12···m愈小,表明各个观察点愈靠近回归平面,则由回归方程估计Y的精确度愈高;反之,离回归标准误sY/12···m愈大,由回归方程估计Y的精确度愈低,可见,sY/12···m是回归精确度的量度。[例11.2]对表11.3资料做多元线性回归方程及偏回归系数的假设检验;(1)回归方程的假设检验;①无效假设H0:1=2=3=0;对应假设HA:1、2、3至少有一个不为0。②确定显著水平,=0.01③计算总变异平方和SSY,离回归平方和QY/12···m、回归平方和UY/12···m及相应自由度UY/123=b(XY)–(1Y)2/n=SSY–QY/12···m=7354748.0625–973413.0342=6381335.0283dfU=m=3④计算F值⑤推断:FF0.01(3,8)=7.591,说明P(H0)0.01(实际P=0.0007)应被否定,三元线性回归方程成立,表11.3的X1、X2和X3与Y有真实的三元线性回归关系。将结果填于表11.4。(2)偏回归系数的假设检验①无效假设H0:j=0;对应假设HA:j≠0。②确定显著水平,=0.01③计算各偏回归平方和Uj及自由度Y依X1的偏回归平方和及自由度:df1=1Y依X2的偏回归平方和及自由度:df2=1Y依X3的偏回归平方和及自由度:df3=1④计算F值⑤推断:F1、F2均F0.01(1,8)=11.26;说明H0:1=0、2=0应被否定,即每穗总粒数(X1)、百粒重(X2)对每公顷玉米产量(Y)的偏回归都是极显著的。F3=0.851,说明H0:3=0应被接受,即株高(X3)对每公顷玉米产量(Y)的偏回归不显著。将结果与三元回归方程的假设检验结果一并做成方差分析表于表11.4。综合二元回归方程及偏回归系数假设检验结果,表11.3的X1和X2与Y有真实的二元线性回归关系;每穗总粒数(X1,粒)、百粒重(X2,g)对每公顷玉米产量(Y,kg)的偏回归也都是极显著的。二元线性回归方程=–6012.3+13.9x1+219.6x2为表11.3资料的最优多元线性回归方程。第二节多元相关和偏相关在M=m+1个变量中,m个变量的综合和一个变量的相关,叫做多元相关或复相关(multiplecorrelation);而在其余M-2个变量皆固定时,指定的两个变量间的相关,叫做偏相关(partialcorrelation)一、多元相关1、多元相关系数[例11.3]由表11.3资料(X3已删除,不参加分析),计算依变量Y(每公顷玉米籽粒产量)与自变量X1(每穗总粒数)和X2(百粒重)的二元相关系数,并与各自变量Xj与依变量Y的简单相关系数作比较;①在〔例11.1〕中,已算得SSY=7354748.0625,UY/12=6277801.4540,二元相关系数:②另由表11.3资料,可算得Y与X1、X2的简单相关系数:可见二元相关系数RY·12比简单相关系数r1Y、r2Y都大。2、多元相关系数的假设测验[例11.4]由表11.3资料(X3已删除,不参加分析),进行二元相关系数假设检验①计算F值:②推断:FRF0.01(2,9)=8.02,表明RY·12极显著(实际P=0.0002)。若用查R值法,则由df2=n–m–1=9与M=m+1=2+1=3,查附表9得R0.01(9,3)=0.800,因为RY·12=0.9239R0.01=0.800,故P0.01,二元相关系数RY·12极显著,与F检验法结论完全一致。假设检验结果表明:每公顷玉米籽粒产量(Y)与每穗总粒数(X1)、百粒重(X2)之间存在极显著的二元线性相关关系。二、偏相关1、偏相关系数的计算①由简单相关系数rij构建相关系数矩阵R:②求相关系数矩阵R的逆矩阵C:③由下式计算偏相关系数rij·:[例11.5]计算表11.3资料的偏相关系数在例11.3中已算得自变量X1与X2;以及依变量Y与自变量X1、X2的简单相关系数:r12=–0.63741402;r1Y=0.03690710;r2Y=0.68778314。①将Y看作X3,构建相关系数矩阵:2、偏相关系数的假设检验t检验法:令总体偏相关系数为ij.,则由可测验H0:ij.=0对HA:ij.≠0,该t具有=n-M查r值法由df=n–M及变量个数2,查附表9,得r0.05和r0.01,将偏相关系数的绝对值|rij·|与r0.05和r0.01进行比较,即可做出统计推断。若|rij·|≥r,则P≤,偏相关系数rij·在水平上显著;若|rij·|r,则P,偏相关系数rij·在水平上不显著。[例11.6]检验例11.5所得偏相关系数的显著性。①提出假设H0:ij·=0,对HA:ij·≠0,②确定显著水平,=0.01由df=n–M=12–3=9及变量个数2,查附表9,得r0.05(9)=0.602,r0.01(9)=0.735。因为各偏相关系数的绝对值|rij·|r0.01,故P0.01,上述三个偏相关系数均极显著。结论:当X2(百粒重)保持一定时,X1(每穗总粒数)和Y(每公顷玉米籽粒产量)呈极显著正相关;当X1保持一定时,X2和Y亦呈极显著正相关,但当Y保持一定时,X1和X2呈极显著负相关。三、偏相关和简单相关的关系从表11.6可以看出:简单相关系数和对应的偏相关系数在数值及相关程度上相差很大,甚至有时连符号都可能相反。简单回归系数和偏回归系数也存在类似的情形:造成这些不同情况的关键在于自变量之间的相关。除非r12=0,和r2Y=0,否则偏相关(回归)系数r1Y·2(b1)决不会和简单相关(回归)系数r1Y(bY/1)相同。同样,除非r12=0,和r1Y=0,否则偏相关(回归)系数r2Y·1(b2)决不会和简单相关(回归)系数r2Y(bY/2)相同。本例中r