回归分析(3)多元逐步回归

lzp369
3 ℃
2020-06-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

§2.5多元逐步回归算法原理多元回归模型首先将实际问题所提取的全部变量引入方程，然后再根据变量的显著性检验把方程中不重要的变量逐一剔除，建立新方程。缺点：（1）首先在实际问题中，要提取合适的变量来建立回归方程本身不是一件很容易的事情，变量间可能存在高度的相互依赖性会给回归系数的估计带来不合理的解释；（2）其次变量的一次性引入方程，易导致计算量增大，运算效率降低，精度不够等问题。为了得到一个稳健的、可靠的回归模型，这就需要给出一种方法，使得能从影响的因素中自动根据某种准则将对贡献大的变量（或者说对重要的变量）引入方程，不重要的变量从方程中剔除。最终在观测数据基础上建立最优的回归方程。yyyixix§2.5多元逐步回归算法原理§2.5.1逐步回归算法的形成思路逐步回归算法基本思路根据各自变量的重要性，每一步选一个重要的变量进入回归方程。第一步是在所有可供挑选的变量中选出一个变量，使它组成的一元回归方程比其他变量有更大的回归平方和。第二步是在剩下的自变量中选这样一个变量，它与已选入方程的那个变量所组成的二元回归方程，比其他任一变量与已先选入方程的变量所组成的二元回归方程，有更大的回归平方和。l如此继续下去，假设已经进行到步，那第步是在未选的变量中选出这样一个变量，它与已选入回归方程的变量组成元回归方程，比其他余下的任何一个变量组成的元回归方程，有更大的回归平方和。逐步回归不仅考虑到按贡献大小逐一挑选重要变量，而且还考虑到较早选入回归方程的某些变量，有可能随着其后一些变量的选入而失去原有的重要性，这样的变量也应当及时从回归方程中剔除，使回归方程中始终只保留重要的变量。1lll§2.5.1逐步回归算法的形成思路如引入方程后，再引入，也许由的引入而的重要性反而变得不重要，应及时剔除。假设已有个自变量引入回归方程，即已知回归方程是：此时该方程相应的总离差平方和记为21,xx5x5x1xlllxbxbxbby22110ˆ),,,(),,,(2121llxxxQxxxUSSS剩回总（2.14）§2.5.1逐步回归算法的形成思路§2.5.2引入自变量的依据现在在已有的个自变量所组成的回归方程中再引入一个自变量，不妨记为，于是引入了一个自变量的回归方程可表示为现在用式（2.15）减去式（2.14），并注意到式（2.14）与式（2.15）总离差平方和不变，可得l),,2,1(mllixiix),,,(),,,,(2121ililxxxxQxxxxUS总（2.15）),,,,(),,,(),,,(),,,,(21212121illlilxxxxQxxxQxxxUxxxxU令于是称为自变量对因变量的方差贡献。也就是，如果越大，则对的影响就越大，对回归方程就越显重要，应该引入。但是应大到什么程度，自变量才可被引入方程呢？这就需要给出的引入标准（或称引入门坎值）。),,,(),,,,(),,,(212121lillixxxUxxxxUxxxV),,,(21lixxxV),,,(21lixxxVixyyix),,,(21lixxxVixix统计理论表明，用统计量可以检验自变量是否可以引入方程。式中，是样本容量，是已进入方程的自变量个数。对于给定水平，查分布表，可得临界值。如果，则表明可引入方程；)2,1(~)2/(),,,,(1/),,,(21211lnFlnxxxxQxxxVFilliiixnlmlli,,2,1F进FF进FFi1ix如果，则说明自变量不重要，不能引入方程。需要说明的是，实际问题可能有多个，由于每次只能引入一个变量进入方程，因此在算法上，我们是选最大的值所对应的变量考虑引入，即，先求然后将它与比较，如，相应的自变量入选；如，引入变量的步骤就到此为止。进FFi1ixix进FFi1iF1)(max)(1milFFiki记进F进FFik)()(ikx进FFik)(§2.5.3剔除自变量的依据设已有个自变量引入回归方程，即已知回归方程为此时该方程的总离差平方和可表示为现在已有的个自变量中剔除一个自变量，不妨剔除，于是可得剔除自变量后的回归方程，记为lttxbxbxbby22110ˆ),,,(),,,(2121llxxxQxxxUSSS剩回总llixi,,2,1,ixlliiiixbxbxbxbby1111110ˆ（2.17）（2.16）),,,,,,(),,,,,,(11211121liiliixxxxxQxxxxxUS总),,,,(),,(),,,(111121liillixxxxUxxUxxxViVixy该方程的总离差平方和记为由式（2.16）与式（2.17）可得这里仍然称为对的方差贡献。越大说明对的影响越大，即对越重要，当然在方程中就不能被剔除，反之亦然。然而应小到什么程度，自变量才考虑从方程中被剔除呢？这就需要给出的剔除标准（或称剔除门坎值）。和前面所介绍的引入标准一样，可用统计量来检验方程中哪个自变量可被考虑剔除出方程。iVixyixyixiVixix)1,1(~)1/(),,(1/),,,(1212lnFlnxxQxxxVFlliiixli,,2,1对于给定的水平，查分布表得临界值。如果，则应从方程中剔除；如果，则不应从方程中剔除。同样需要说明的是，实际问题可能有多个，由于每次只能从方程中剔除一个变量，因此在算法上，我们选最小的值所对应的变量考虑剔除，即先求F出FFi2ixix出FFi2出FlnF)1,1(出FFi2iF2然后将与比较，如时，就应从回归方程中剔除变量；如，则方程中没有变量被剔除，转入是否可以引入新变量的讨论。)(21minikiliFF记)(ikF出F出FFik)()(ikx出FFik)(§2.6逐步回归的计算步骤前面已经讲过，“引入”或“剔除”变量的依据是根据自变量对因变量的方差贡献的大小决定。当开始进行逐步回归时，第一步、第二步只考虑“引入”。至于以后各步，则应首先考虑能否剔除，如果已断定不能剔除时，再考虑“引入”。当既不能引入又不能剔除时，则逐步回归的变量挑选即告结束。在下面的介绍中，我们只给出逐步回归的计算方法而不去讨论它的数学原理。ixy§2.6.1数据准备回归分析的原始数据包括两部分，一部分是自变量及因变量的观测值。我们称为模型数据值。另一部分是只有自变量的观测值，因变量的取值未知，称预测数据部分。模型数据用来求回归方程的参数，在模型显著时，再用以对预测部分作的预测计算。mxxx,,,21yyy1．输入模型原始数据nnmnnmmyxxxyxxxyxxxX21222221111211其中，为样品个数，为自变量个数。nm该变换使变换后的数据各变量均值为0，离差平方和为l。2．作如下预处理变换（1）求各变量均值（2）求(3）作变换niijjmjxnx1)1,,2,1(1)1,,2,1()(12mjxxlnijijj)1,,2,1;,,2,1(*mjnjlxxxjjijij这一步与多元回归中叙述的内容相同。为了使计算有更好的效果，可把正规方程组式（2.10），改为mymmmmmymmymmrbrbrbrrbrbrbrrbrbrbr22112222212111212111（2.18）§2.6.2建立正规方程组式（2.18）中，是相关系数，即ijrnkjjknkiiknkjjkiikjjiiijxxxxxxxxSSSr12121)()())((ymji,,,2,1,（2.19）新方程组与式（2.10）中有如下关系：ibib),,2,1(/miSSbbiiyyii方程组式（2.18）中左端的系数项定为矩阵，即零步矩阵。在计算技巧上为了方便，把扩充为)0(R)0(RyyymyymymmmmymymrrrrrrrrrrrrrrrrR2121222221111211)0(（2.20）§2.6.3逐步计算假设已计算了步（包括步），在回归方程中已引入了个变量，这时初始的阵已经变换为l0ll)0(R)()()(2)(1)()()(2)(1)(2)(2)(22)(21)(1)(1)(12)(11)(lyylymlylylmylmmlmlmlylmlllylmlllrrrrrrrrrrrrrrrrR)1(liV1liV（2.21）),,2,1(lkixi)(2)()1()(liiliylirrV1．首先对已引入方程变量计算方差贡献，即步的从中选出最小的，记为，计算)1(liV)1(liV)1(min,liV12lF)()1(min,)1(2)1(lyylilrlnVF（2.22）如果乃事先规定的变量剔除门坎值），则将贡献最小的变量从回归方程中剔除。2．对作消去变换，消去运行公式为*2*2)1(2(FFFlkx),(/),(/1),(/),(/)()()()()()()()()()1(kjkirrkjkirkjkirrrrkjkirrrlkkliklkklkklkjliklijlkklkjlij（2.23）如果不存在应被剔除的变量，则进行引入变量的计算，转入下一步。3．对未引入方程的变量计算其方差贡献，从中选出最大的，即，计算如果为事先规定引入变量的门坎值），则将该方差贡献最大的变量引入回归方程。4．对进行消去运算，运算所遵循的公式仍为式（2.23），消去运算得到的结果为。5．重复1～4的步骤，直到既无变量引入又无变量剔除为止。)1(liV)1(max,liV)1(max,)()1(max,)1(1)2(lilyylilVrlnVF（2.24）*1*1)1(1(FFFl)(lR)1(lR§2.6.4计算最终结果1．引入方程变量的系数（设到步结束）式中，乃引入变量和因变量的标准差，乃引入变量的离差平方和。2．常数项llirSSrbliyiiyyliyiyi,,2,1,)()(yi,ixyiiSix0bliiixbyb0（2.25）（2.26）3．回归值与偏差值，偏差（2.27）4．复相关系数和剩余标准差最后还可根据进行的区间估计。至于回归方程的检验与多元回归相同。RyS)(1lyyrRyylyyySlnrS1)(ySyˆFliikikxbby0ˆkkyyˆ（2.28）（2.29）