多多元元线线性性回回归归分分析析——内内容容提提要要11..多多元元线线性性回回归归的的数数学学模模型型【【模模型型的的理理论论假假设设】】设pxxx,,,21是)2(p个自变量(解释变量),y是因变量,则多元线性回归模型的理论假设是ppxxxy22110,),0(~2N,其中,p,,,,210是1p个未知参数,0称为回归常数,p,,,21称为回归系数,),0(~2N为随机误差.【【模模型型的的建建立立】】求p元线性函数ppxxxEy22110的经验回归方程ppxxxyˆˆˆˆˆ22110,其中,yˆ是Ey的统计估计,pˆ,,ˆ,ˆ,ˆ210分别是,,,,,210p的统计估计,称为经验回归系数.【【模模型型的的数数据据结结构构】】设对变量向量yxxxp,,,,21的n次观测得到的样本数据为),,,,(21iipiiyxxx,)1(,,2,1pni.为了今后讨论方便,我们引进矩阵nyyyy21,npnppxxxxxxX1221111111,pˆˆˆˆ10,n21于是,多元线性回归模型的数据结构为Xy称为多元样本回归方程,其中npXrank1)(,),(~21nnnnION且各个i相互独立.由于矩阵X是样本数据,X的数据可以进行设计和控制,因此,矩阵X称为回归设计矩阵或资料矩阵.注注释释对对多多元元线线性性回回归归模模型型理理论论假假设设的的进进一一步步说说明明::⑴⑴条条件件npXrank1)(表表明明,,X是是一一个个满满稚稚矩矩阵阵,,即即矩矩阵阵X列列向向量量((解解释释变变量量))间间线线性性无无关关,,样样本本容容量量的的个个数数应应当当大大于于解解释释变变量量的的个个数数..反反该该假假设设时时,,称称模模型型存存在在多多重重共共线线性性问问题题..⑵⑵条条件件),(~21nnnnION且且各各个个i相相互互独独立立表表明明,,系系统统受受到到零零均均值值齐齐性性方方差差的的正正态态随随机机干干扰扰,,系系统统自自变变量量之之间间不不存存在在序序列列相相关关,,即即0)(iE,,jijiji,0,),cov(2,,,,2,1,nji..当当jiji),var()var(时时,,称称回回归归模模型型存存在在异异方方差差..当当jiji,0),cov(时时,,称称回回归归模模型型存存在在自自相相关关..当当模模型型违违反反上上述述假假设设后后,,就就不不能能使使用用最最小小二二乘乘法法估估计计回回归归系系数数..解解决决方方法法将将在在后后面面介介绍绍,,先先介介绍绍模模型型符符合合假假设设时时的的参参数数估估计计方方法法..22..模模型型参参数数的的最最小小二二乘乘估估计计【【参参数数估估计计的的准准则则】】定义离差平方和),,,(10pQniiiyEy12))((niippixxyi12110)(,求pˆ,,ˆ,ˆ10使得),,,(min)ˆ,,ˆ,ˆ(10,,,1010ppQQp,称pˆ,,ˆ,ˆ10称为模型参数p,,,21的最小二乘估计,称ippiiixxxyˆˆˆˆˆ22110为因变量),,2,1(niyi的回归拟合值,简称回归值或拟合值.称iiiyyeˆ为因变量),,2,1(niyi的残差.【【参参数数估估计计的的算算法法】】当满足元线性回归模型理论假设的条件时,模型参数p,,,21的最小二乘解为yXXXTT1ˆ.可以证明)ˆ(E,12)()ˆcov(XXT,),(~ˆ2jjjjcN,pj,,2,1,其中ppijTcXX1)(.由此可见,Tp)ˆ,,ˆ,ˆ(ˆ10是Tp),,,(10的无偏估计.协方差阵)ˆcov(反映出估计量ˆ的波动大小,由于)ˆcov(是2右乘一个矩阵1)(XXT,所以ˆ的波动大小可以由抽样过程中进行控制.同一元线性回归分析一样,在多元线性回归中,样本抽样要尽可能的分散.33..回回归归方方程程的的显显著著性性检检验验⑴⑴多多元元回回归归方方程程显显著著性性的的整整体体性性检检验验检验解释变量pxxx,,,21全体对因变量y是否有显著影响,方法是F检验,亦称方差分析.【【显显著著性性检检验验基基本本定定理理】】令niiyySST12)(─总偏差平方和,自由度1nfT.niiyySSR12)ˆ(─回归平方和,自由度pfR.niiiyySSE12)ˆ(─残差平方和,自由度1pnfE.则有①①SSESSRSST.②②)1(~22pnSSE且2)1()(pnSSEE.③③SSE与Tp)ˆ,,ˆ,ˆ(ˆ10相互独立.【【显显著著性性检检验验基基本本方方法法──FF检检验验((方方差差分分析析))】】检检验验假假设设0:H021p.检检验验统统计计量量及及其其分分布布在0H为真时,SSR与SSE相互独立,)(~22pSSR,于是检验统计量)1,(~)1/(/pnpFpnSSEpSSRF.检检验验的的显显著著性性概概率率FpnpFPp)1,(.决决策策准准则则在显著性水平下,当p时拒绝0H,即认为回归方程有显著意义.①①当01.0p时,称回归方程高度显著,标记为**;②②当05.001.0p时,称回归方程显著,标记为*;③③当05.0p时,称回归方程不显著,不做标记.检检验验结结果果的的报报告告((方方差差分分析析表表))方差来源偏差平方和自由度F值p值显著性回归SSRpfRERfSSEfSSRF//FFPppnp)1,(残差SSE1pnfE总计SST1nfT此外,与一元线性回归分析类似,可用可决系数SSTSSRR2来测定回归方程对各个观测点的拟合程度,]1,0[2R,2R的值越大(小)表明回归直线对各个观测点的拟合程度越高(低).⑵⑵多多元元回回归归方方程程中中每每个个自自变变量量对对因因变变量量影影响响显显著著性性检检验验检验解释变量jx对因变量y影响的显著性.检检验验假假设设0:jH0j(pj,,2,1).检检验验统统计计量量及及其其分分布布在0H为真时,检验统计量)1,1(~)1/(ˆ2pnFpnSSEcFjjjj检检验验的的显显著著性性概概率率jFpnFPp)1,1(.决决策策准准则则在显著性水平下,当p时拒绝jH0,即认为解释变量jx对因变量y影响显著.若存在不显著的变量,取}{min1jpjkFF,从回归方程中剔除自变量kx.设从原回归方程ppkkkkkkxxxxxyˆˆˆˆˆˆˆ1111110中剔除自变量kx后,重新建立的回归方程中为ppkkkkxxxxy*1*11*11*1*0ˆˆˆˆˆˆ,则可以证明,新回归方程的系数与原回归方程的系数有如下关系:kkkkjjjccˆˆˆ*),,,2,1(kjpj,kjjjxy**0ˆˆ.对于新建立的回归方程,必须对每一个余下的变量再次进行检验,直至余下变量全部显著为止.44..最最优优回回归归方方程程的的选选择择⑴⑴最最优优回回归归方方程程选选择择标标准准①①因因子子完完备备的的原原则则回归方程中包含所有对因变量有显著影响的自变量.②②模模型型从从简简的的原原则则回归方程中所包含的自变量的个数尽可能的少.③③充充分分拟拟合合的的原原则则回归方程的剩余方差达到最小.⑵⑵最最优优回回归归方方程程选选择择方方法法((逐逐步步回回归归法法))①根据问题所属专业领域的理论和经验提出对因变量可能有影响的所有自变量.②计算每一个自变量对因变量的相关系数,按其绝对值从大到小排序.③取相关系数绝对值最大的那个自变量建立一元线性回归模型,检验所得回归方程的显著性,若检验表明回归效果显著则转入④,若检验表明回归效果不显著则停止建模.④进行变量的追加、剔除和回归方程的更新操作:若检验表明回归效果显著,则按相关系数绝对值由大到小的顺序逐一将相应的自变量引入回归方程;每引入一个新的自变量,对新回归方程中每一个自变量都要进行显著性检验.若检验表明回归效果不显著,则剔除对因变量影响最小的自变量,更新回归方程;对更新后的回归方程中的每一个自变量仍要进行显著性检验、剔除、更新,直到回归方程中的每一个自变量都显著为止,再引入前面未曾引入的自变量.以此类推,直到无法剔除已经引入的自变量,也无法引入新的自变量为止.注注释释①①逐逐步步回回归归法法不不能能保保证证得得到到真真正正的的最最优优回回归归方方程程,,但但此此法法是是计计算算量量较较小小、、预预测测效效果果较较好好、、有有工工具具软软件件支支持持、、应应用用最最多多欧欧德德一一种种方方法法..②②逐逐步步回回归归法法受受检检验验的的显显著著性性水水平平αα影影响响较较大大,,αα较较大大将将会会有有较较多多的的自自变变量量引引入入回回归归方方程程,,αα较较小小将将会会导导致致一一些些重重要要的的自自变变量量被被剔剔除除..55..利利用用回回归归方方程程对对系系统统进进行行预预测测⑴⑴点点预预测测设预测点为Tpxxxx),,,(002010,则ppxxxy002201100ˆˆˆˆˆ是对ppxxxEy002201100的点估计,亦是对0002201100ppxxxy,),0(~20N的点预测.⑵⑵区区间间预预测测可以证明)1(~ˆ00pntsyyt其中12pnSSEs(剩余方差),pipjijjjiicxxxxn1100))((11,),,2,1(11pixnxnkkii.于是,点预测的误差为spnt)1(2/1,即在0x处的区间预测为))1(ˆ,)1(ˆ(2/102/10spntyspnty即1})1(ˆ)1(ˆ{2/1002/10spntyyspntyP.当n较大,),,2,1(0pixxii时,可取1以此来简化计算.多多元元线线性性回回归归分分析析——案案例例及及MMAATTLLAABB解解决决【案例】设某种水泥在凝固时所释放出的热量Y(卡/克)与水泥中的下列四种化学成分有关:1x─32OAl3CaO的成分(%),2x─2SiO3CaO的成分(%),3x─3232OFeOAl4CaO的成分(%),4x─2SiO2CaO的成分(%).共观测了13组数据(见下表):序序号号xx11xx22xx33xx44YY1234571111172629563152615886605220473378.574.3104.387.695.96789101112131131221111105571315447406668917221842398226442226341212109.2102.772.593.1115.983.8113.3109.4试用逐步回归法求出Y对1x、2x、3x和4x的最优回归方程.注释数据保存在hald.mat文件中,ingredients为解释变量,heat为因变量.1、MATLAB逐步回归法建模的交互式图形环境介绍【函数名称】stepwise【函数功能】创建多元线性回归分析的逐步回归法建模的交互式图形环境.【调用格式】stepwise(