§2.4逐步回归分析一、因子数目与最优方程在回归分析中,对已知样本,依变量的离差平方和是固定的,当选择不同的因子数目p,随着因子数的增加,残差平方和Q总是有所下降,或相同的因子数选择不同的因子时,残差平方和也会发生变化。由表2.4,有下列结论:rxy,rxi,xj均为r,SSyy=1rxy=r,rxi,xj=r/2,SSyy=1二、因子数与因子选择在建立预报方程时,总希望:①将预报量的影响因子尽量都考虑到,②随机误差尽量小,即建立的方程中,所有引入因子的方差贡献都显著,而没有引入方程的因子方差贡献都不显著,这时的方程称为最优回归方程。逐步回归的目的就是用最少的步骤建立最优方程根据不同的因子数及相同数目不同因子,共得15个不同的回归方程,其效果指标见下表可认为第(5)个方程是因子方差贡献都显著,残差估计小的“最优”方程。是我们希望得到的方程,但这过程繁琐。三、逐步回归方案建立回归方程时,希望方程中的自变量回归平方和的方差贡献都是显著的,但是在方程建立之前,自变量的方差贡献是无法预先分析的,这样,在选择自变量时,就需要多次建立回归方程的过程,另外,有些自变量中相互之间有良好的线性相关,当其中一个自变量在方程中,其他自变量在方程中的方差贡献就变得不显著了,就需要重新检验方差贡献,每次都需要重新计算回归系数,工作量十分大,为尽可能简单的从若干自变量中选取一些方差贡献显著的自变量建立回归方程,采用逐步回归分析方法。(双重检验的逐步回归)基本思路:根据各自变量在回归方程中的方差贡献的大小,每次引入一个在所有尚未进入方程的自变量中方差贡献最大,而且达到显著水平的自变量建立回归方程,同时计算引进新变量后,在原方程中的自变量对依变量的方差贡献,把那些由于新变量的进入而变得方差贡献不显著的自变量从方程中剔出,建立新的方程;这样,逐步引进方差贡献最显著的变量,并剔出变得不显著的变量,直至,方程中所有的变量均为方差贡献显著,而未进入方程的变量的方差贡献均不显著。最后建立一个最优的方程。由资料计算相关矩阵引进检验引进变换剔出检验剔出变换建立最优方程YFYF该逐步回归方案要用到求解线性方程组的求解求逆紧凑方案(*)求解非齐次线性方程组的求解求逆紧凑方案)()()()()()()()()(kiaaaakiaaalkklkjliklijlkklkjlij1(B.1)44230040014105410100040048003200519001014103200380018100013............)(A其中中间一列就是方程组的解,后三列组成的矩阵就是系数阵的逆矩阵。一般规律是,当左边一列被消去成为0,1结构时,并始终保持0,1,而右边对应的列(原为0,1)变为非0,1型,可考虑将该列移到左边对应的列,以紧凑矩阵单元。),(),(),(),()()()()()()()()()()(kjkiaakjkiakjiaaaakjkiaaalkkliklkklkklkjliklijlkklkjlij11(B.2)对系数矩阵A采用下式变换,可在求解的同时,获得逆矩阵对上例的系数增广矩阵:34344377447100)(A4142204021201270404070101............)(A2881381209503330571009504760333003330333033302...........)(A5410423004001410519004004800320018101410320038003............)(A依次消去各列得四、逐步回归一般步骤:1、计算相关矩阵设有依变量η,ξ1,ξ2,…ξp的样本容量为n的一组观测值:pnppnnxxxxxxyyy211121121yyypyypyppppyprrrrrrrrrrrrR21211112110)(计算相关系数矩阵(标准化正规方程组)容易证明:作L步变换后,yylyylssrQ)()(jjyyjjssssbb2、引进因子及检验规定一个引进变量的F检验置信限,在所有对依变量方差贡献达到显著标准的自变量中,选择方差贡献最大者逐次引入方程。a)计算各自变量xi在一元回归中的方程中的方差贡献,可以证明,采用标准化正规方程组时有:*1FpissVssrrUUUyyiyyiiiyii...][)()()()()()(11020011)()(max111ikVV)()()()()()()(,)()()(11011111111112111kyykyykyyyykkkVrnVssVssnssVQpnUF找出方差贡献最大者计算统计量若*,11FFk则认为xk1在一元回归方程中方差贡献显著,对矩阵R(0)作变换:),(),(),(),()()()()()()()()()()(111111110110101101101010011011kjkiaakjkiakjiaaaakjkiaaakkikkkkkjkikijkkjkij}][{maxmax)()()()(12112122iiiykiikikrrVV)()()()(22122k21,3FkyykVrnV计算b)检验余下的变量在二元回归方程中的方差贡献,若显著,则作引进变换。3、重复步骤,一般来说,若已经进行了L步矩阵变换,引进了了l个自变量,则下一步有下列情况:(a)检查由于第l个变量的进入(即刚引入的变量),是否使得原方程中的自变量的方差贡献变得不显著?。*给出剔出贡献显著性水平,规定,一般**12FF*2F**12FF1)计算已在方程中的变量的方差贡献)....,(][)()()(ljkirrVjliiliyli212)...,(}min{)()(ljkiVVjlilk21)()(,)(lyylkkrlnVF12找出方差贡献最小的xk2)计算统计量若*,22FFk则作剔除变换),(),(),(),()()()()()()()()()()(kjkiaakjkiakjiaaaakjkiaaalkkliklkklkklkjliklijlkklkjlij11(b)若无需从l个变量中剔除任何变量,则继续选择方差贡献最大并达到显著标准的变量引进方程1)计算未引入方程的自变量在l+1元方程中的方差贡献:)...,(][)()()(ljkirrVjliiliyli21212)找出最大者xk,}max{)()(11lilkVV3)计算统计量)()()(,))((11111lklyylkkVrlnVF若*,11FFk则作引进变换),(),(),(),()()()()()()()()()()(kjkiaakjkiakjiaaaakjkiaaalkkliklkklkklkjliklijlkklkjlij11(c)若无变量可引进或剔除方程,则逐步回归结束,klklkkjliyiiyyixbxbybljkirssssb....)...,(,)(110210421.**FF取,4k*)()()(,.).()(.)(110118226745012136745011FVrnVFkyykk认为X4贡献显著,作引入变换),(),(),(),()()()()()()()()()()(444414440110101101101010011011jiaajiajiaaaajiaaakkikkkkkjkikijkkjkij第4行第4列主对角线其他)(0R11,F*1F§2.5非线性回归分析依变量与自变量服从联合正态分布时,回归方程具有线性的形式,但此条件并不处处满足,许多条件下,因变量与自变量具有非线性的关系,例气压与高度;风速与高度:更多的在物理上无法分析,在样本散布图上呈现非线性。HAeP)ln(ln*0zzUUz在非线性回归问题中,无论是回归模型的选择,还是回归系数的计算,都比线性回归复杂,在实际工作中,只有当回归效果较线性回归有明显改善时才值得采用。一、函数变换法利用函数关系式将非线性关系转换为线性形式1、确定回归曲线的形式Ⅰ)运用有关物理原理,从理论上确定回归回归曲线。Ⅱ)根据样本作依变量与自变量的相关散布图,有样本散布特征,画出一大致的经验曲线,将此曲线与一些函数曲线相比较,选择相似者作为回归模型2、对因变量和自变量分别作适当函数变换,使之成为的形式。xbay2211xcebxbayln3.通过线性回归分析,计算变换后的回归系数,并进行回原变换。**对多元的情况,分别作相关散布图和函数变换。例***对由样本散布图得到不同的经验曲线时,由相关比yyyyssQssUR1*注意,Q不可再由联立正规方程组获得,要由原始定义式计算,因为所以,R*不是复相关系数2)ˆ(iiyyQmin)ˆ(2iiyy二、多项式展开法若y与x相关,但相关形式未知,设其为,由于函数G(x)总可以用一个x的多项式来逼近:因此一般一元非线性回归模型可用m阶多项式展开来逼近:)(xGy33221xbxbxbaxG)(mmxbxbxbxbbxyEy332210)/(ˆ''''ˆ,,mmmmxbxbbyxxxxxx1102221令将数据(yi,xi),转换为(yi,xi,xi2….,xim),进行多元线性回归即可。阶数m可通过逐步回归方式调整三、Gauss-Newton迭代法对函数形式已知,但不易转换为线性时。已知非线性回归方程曲线的一般模型可写为:bmaxyBXfbbXfyˆ),(),,(ˆ例如1')(kxxX1其中X为自变量向量:B=(b1….bm)’为待定非线性回归系数niyXii1),(设有n组观测值先给bk一个初始值,记为bk(0),并记初值与真值之差为βkmkbbbbkkkkkk10000)()()()(,即确定bk的问题化为确定修正值βK的问题,将f(X,B)在B(0)附近作Taylor展开,并略去二次以上的项))(()()(000xxxfxfxfmmiiiimiibfbffBXfbbXfy)()()(),(),(ˆ00101001)()()()(),(00000ikBBXXkkiiiDbfbfBXffi式中B(0)给定后,均可计算得到(2.5.2)(2.5.1))()()(ˆ)()()()()()()()(010000000bbxabaaxxaaxxfybibibibiii)()()()()(ˆ0001010mimiiiDDfy如)(')(')()()()()()()(,,min)]([)(min)],([001100200010102immiiiiiimimiiiiiiDxDxfyyDDfyQBXfyQi记min)]([)(')(')()(201010mimiixxydQmymmmmmymmkaaaaaaaamkQ)()()()()()(,....,)(00220111010212011110)(''',0ikikyjikikjyxaxxa求解方程组可得βk(0)(k=1…m)令)()()(001kk