SAS讲义-第三十二课多元线性回归分析

灰少年
0 ℃
2020-08-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第三十二课多元线性回归分析一、多元回归模型表示法通常，回归模型包括k个变量，即一个因变量和k个自变量（包括常数项）。由于具有N个方程来概括回归模型NtXXXYtktkttt,,2,1,22110(32.1)模型的相应矩阵方程表示为：错误！未定义书签。(32.2)式中NkkNNkkNXXXXXXXYYYY2110121211121,,111,(32.3)其中：Y为因变量观察的N列向量，X为自变量观察的N×(k+1)矩阵，为末知参数的(k+1))列向量，为误差观察的N列向量。在矩阵X表达式中，每一个元素Xij都有两个下标，第一个下标表示相应的列（变量），第二个下标表示相应的行（观察）。矩阵X的每一列表示相应的给定变量的N次观察的向量，与截矩有关的所有观察值都等于1。经典的线性回归模型的假设可以阐述如下：模型形式由(32.1)给定；矩阵X的元素都是确定的，X的秩为(k+1)，且k小于观察数N；为正态分布，E()=0和IE2，式中I为N×N单位矩阵。根据X的秩为(k+1)的假定，可以保证不会出现共线性。如果出现完全共线性，矩阵X的一列将为其余列的线性组合，而X的秩将小于(k+1))，关于误差的假设是最有用的假设，因为用它可以保证最小二乘法估计过程的统计性质。除了正态性外，我们还假定每一个误差项的平均值为0，方差为常数，以及协方差为0。假若我们按Y的分布来表示假设(3)，则可写成下式：),(~2IXNY(32.4)二、最小二乘法估计我们的目的是求出一个参数向量使得残差平方和最小，即ˆˆˆ12NttESS(32.5)式中，YYˆˆ(32.6)ˆˆXY(32.7)其中ˆ表示回归残差的N列向量，而Yˆ表示Y拟合值的N列向量，ˆ表示为估计参数的(k+1)列向量，将式(32.6)和式(32.7)代入式(32.5)，则得：ˆˆˆ2ˆˆXXYXYYXYXYESS(32.8)为了确定最小二乘法估计量，我们求ESS对ˆ进行微分，并使之等于0，即0ˆ22ˆXXYXESS(32.9)所以)(ˆ1YXXX(32.10)被称为“交叉乘积矩阵”的XX矩阵能够保证逆变换，这是因为我们假设X的秩为(k+1),该假设直接导致了XX的非奇异性。最小化的二阶条件是，XX是一个正定矩阵。最小二乘法残差有一个有益的特性，即0ˆˆˆXXYXXYXX(32.11)这个结果说明自变量和残差的交叉乘积的总和为O，这个公式在一些推导中是非常有用的。现在可以考虑最小二乘估计量的性质。首先可以证明它们是无偏估计量。因为XXXXXXXYXXX111ˆ(32.12)设式中XXXA1，且是常数，这样AEAEE(32.13)根据式(32.13)，可以看到，只要遗漏变量都是随机分布的，与X无关，并且具有0均值，则最小二乘法估计量将是无偏的。1211])ˆ)(ˆ[()ˆ(XXXXXEXXXEVar(32.14)我们看到，最小二乘法估计量为线性和无偏估计量。事实上，ˆ为的最佳线性无偏估计量，也就是说它在全部无偏估计量中方差最小，这就是著名的高斯－马尔可夫定理。为了证明高斯－马尔可夫定理，我们需要证明，任何其他线性估计量b的方差比ˆ的方差大。请注意ˆ=AY。为了不失去一般性，我们可写成：)()()(CAXCAYCAb(32.15)假如b是无偏的，则1CXICXXXXXbE(32.16)式(32.16)成立的一个必要和充分的条件是0CX，这样就可以研究矩阵)(bVar。由于)(CAb，所以有]))(][([])()[(}])][(){[(]))([()(CACAECACAECACAEbbEbVar(32.17)由于CCCXXXXXCXXXXXXXCCCAACAACACA1111因为0CXCX，所以CCXXCACA1，即CCVarCCXXbVar212)ˆ(][)((32.18)我们可以看出，CC为一半正定矩阵。该矩阵的二次型为0，只有当C（所有元素为0）时才出现。当0C时，另外的估计量b就是普通最小二乘法估计量，这样，我们的定理就得到证明。三、2的估计和t检验为了计算估计参数的方差-协方差矩阵，我们需要给出2的估计量，该估计量自然选为1ˆˆ2kNs(32.19)证明2s为2的一个无偏估计量，虽很单调冗长，但不困难。因此，12XXs是Var(ˆ)的估计。当2为已知时，可用正态分布假设检验。当用2s近似2时，我们不得不用t假设检验。为此，我们利用以下的统计结果：若2已知，则2ˆˆ服从2分布，具有N－k－1个自由度；错误！未定义书签。服从2分布，具有N－k－1个自由度；错误！未定义书签。，当i=0，1，2,…，k时，服从正态分布，平均值为0，方差为iv2，其中vi为1XX的第i个对角线元素；错误！未定义书签。和iiˆ相互独立。由此得出：)1(~ˆkNtvstiiikN(32.20)该式为t分布，具有(N-k-1)个自由度。这就使我们能按照与前面所述相同的方式确定各个回归参数的置信区间。假如t值的绝对值相当大，就可以在适当选定的置信水平上否定原假设，参数的1置信区间可由下式得出：iivst2/ˆ(32.21)其中2/t为与%显著水平有关的t分布临界值。四、R2和F检验我们可将Y的总变差分成两部分，一部分代表已说明变差，另一部分代表末说明变差。为了简化公式推导过程，首先我们假定Y变量具有0平均值，即Y=0，则有ˆˆˆˆˆˆˆˆ)ˆˆ()ˆˆ()()()(21XXXXXXYYYYYYYYTSSiiNii(32.22)由于0ˆX和0ˆX，所以ESSRSSXXTSSˆˆˆˆ(32.23)式中TSS为总平方和，RSS为回归（已说明）平方和，ESS为残差（未说明）平方和，归纳成回归方差分析表，见表32.1所示。表32.1回归方差分析表变异来源source离差平方和SS自由度df均方MSF统计量FP概率值P回归RRSSkkRSSMSR/MSEMSRFkNk/1,P误差EESS1kN)1/(kNESSMSE总变异TTSS1N从而，YYXXYYTSSESSRˆˆˆˆ112(32.24)若因变量不具有0平均值，我们必须改进一下2R的定义。这样，NiiiiYNYy11由此可以得出：NiiNYNYYyy12(32.25)和yyNYNXXTSSRSSRNii122ˆˆ(32.26)注意到一个数学上的事实：随着模型中增添新的变量，2R必定会增加，从而只要给模型增添越来越多的新因素，就可能使得2R人为地增大。在一元回归时已经指出2R较大常指模型与数据拟合得较好，在多元回归时很容易错误地去寻找一个极大化2R的回归模型。我们应该知道一个好的多元回归模型，应具有合理个数的有意义自变量的简单模型。为了解决这个问题，提出了修正2R，使得只有当新增变量确实对因变量有所作用时修正2R才会增加。我们定义2R为修正的2R，它是校正拟合优度对自由度的依赖关系，如下式如示：)1(11111122RkNNNTSSkNESSR(32.27)现在就可以考虑对回归系数集的统计检验。最通常利用的检验是021k,这个联合假设的检验。合适的F统计量为：kkNRRkNRkRFkNk11)1/()1(/22221,(32.28)为F分布，具有k和N－k－1自由度。较大的F值，可使我们否定原假设。五、reg回归过程在SAS/STAT中有多个进行回归的过程，如reg、glm等，常用于进行一般线性回归模型分析的为reg过程。1.procreg过程Reg过程一般由下列语句控制：procregdata=数据集集名/选项列表;model因变量=自变量名列/选项列表；var变量列表；outputout=数据集名/选项列表;plot绘图表达式/选项列表；print关键字列；weight变量；freq变量；by变量；restrict方程1，方程2，…；test方程1，方程2，…；run;其中model语句是必需要有的，其他语句都是可选的。2.procreg语句中的选项列表。outest=SAS数据集——将有关模型的参数估计和选择的统计量输出到指定的SAS数据集中。outsscp=SAS数据集——要求把平方和及叉积矩阵输出到type=sscp的数据集中。all——屏幕输出所有内容。usscp——对用在该过程中的所有变量输出平方和及叉积矩阵。noprint——不在屏幕输出任何内容。3.model语句中的选项列表。1)确定变量筛选办法的选择项。selection=none|forward|backward|stepwise|maxr|minr|rsquare|cp|adjrsq依次表示全部变量进入法none、前进法forward、后退法backward、逐步筛选法stepwise（前进法与后退法的结合）、最大R2增量法maxr、最小R2增量法minr、R2选择法rsquare、Mallow'sCp选择法cp、修正R2选择法adjrsq。2)其他选择项见表3.2所示是可在model语句中选用的其他选项。表32.2model语句中的其他选项acovxpxspecpcorr1slentry＝detailsaiccovbistbpcorr2slstay＝lackfitsbccorrbpcliscorr1start＝collinss1mserclmscorr2best＝collinointss2ssebjpadjrsqinclude＝influencevifseqbdwrmsegmsepstop＝partialtolallpcspnointsigma＝noprintbic其中一些选择项的意义如下：acov——存在异方差时，输出参数估计量的渐近协方差阵的估计。spec——进行关于方差异性的检验。slentry|sle=显著性水平——规定入选变量进人方程的显著性水平。slstay|sls=剔除水平——规定从方程中剔除变量的显著性水平。include＝n——强迫前n个自变量进入模型。start＝s——以含有model语句中前3个自变量的模型开始，进行比较、选择过程（仅用于maxr或minr方法）。stop＝s——当找到最佳的s个变量模型之后，逐步回归便停止(仅用于maxr或minr方法)。p——要求计算各观测点上因变量的预测值。r——作残差分析，同时给出因变量的预测值。cli——给出各自变量x0所对应的因变量y0的95％置信上、下限。clm——给出各自变量所对应的因变量预测值（均数）Eyi＝μi的95％置信上、下限。noint——指明回归方程不带截距项（常数项）。stb——要求输出标准回归系数。covb——要求输出回归系数估计的协方差（阵）估计。corrb——要求输出回归系数估计的相关