1第六章回归分析目录回归分析§6.1REG过程§6.2线性回归6.2.1线性回归模型的数学表示6.2.2回归参数的估计6.2.3回归方程的假设检验6.2.4自变量的选择6.2.5多重共线性识别及处理6.2.6回归诊断6.2.7综合实例返回2回归分析—多元线性回归回归分析是研究变量间的依赖关系一种方法本章目录3回归分析—多元线性回归提纲REG过程回归分析的基本内容回归分析实例本章目录4回归分析—多元线性回归•REG过程的调用格式:PROCREGDATA=SAS数据集选项1;MODEL因变量=自变量名表/选项2;PLOTY变量*X变量/选项3;OUTPUTOUT=数据集名关键字=变量名….;RUN;必选项1REG过程本章目录5回归分析—多元线性回归1REG过程•选项1中常用选择项有:GRAPHICS高分辩率的图形方式OUTEST=SAS数据集保存回归分析的结果COVOUT=SAS数据集存入估计的协方差阵OUTSSCP=SAS数据集保存离差阵RIDGE=值给出岭回归中的K值,其方式有M、MTON、MTONBYI、M1,M2TOM3NOPRINT不打印输出本章目录6回归分析—多元线性回归1REG过程•选项2中常用选择项有:CLI每个个体预测值的95%上、下限CLM每个观测因变量期望值的95%上、下限R每个个体的预测值、残差及标准误P每个个体的观测值、预测值、残差等(若选择CLICLMR,则无需选择它)I计算(X'X)-1XPX计算X'XX'Y本章目录7回归分析—多元线性回归1REG过程•选项2中常用选择项有:VIF方差膨胀因子,它表示由于共线性的存在而使参数估计值的方差增大的情况.STB标准化偏回归系数CORRB参数估计的相关阵COVB参数估计的协方差阵COLLIN要求进行共线性分析INFLUENCE要求分析观测值对参数估计和预测值的影响本章目录8回归分析—多元线性回归1REG过程•选项2中常用选择项有:SELECTION=•BACKWARD后退法SLSTAY=值(缺省值为0.1)•FORWARD向前法SLENTRY=值(缺省值为0.5)•STEPWISE逐步回归法SLSTAY=值SLENTRY=值(缺省值均为0.15)•RSQUARER2选择法•ADJRSQ修正.R2选择法•CPMallousCp统计量•MAXRR2最大增量法•MINRR2最小增量法本章目录9回归分析—多元线性回归1REG过程•选项3中常用选择项有:OVERLAY多个图在一个图上表示SYMBOL=用某一符号表示图形HPLOTS=N在同一页水平方向作N幅图VPLOTS=N在同一页垂直方向作N幅图本章目录10回归分析—多元线性回归1REG过程•常用的统计关键词有:P(PRIDICTED)预测值R(RESIDUAL)残差L95M期望值的95%下限U95M期望值的95%上限L95个体预测值的95%下限U95个体预测值的95%上限STDP期望值的标准误本章目录11回归分析—多元线性回归1REG过程•常用的统计关键词有:STDI预测值的标准误STUDENT学生化残差RSTUDENT去掉某观测后的学生化残差COOKDCOOKD值H杠杆值PRESS当去掉第I个观测值后拟合模型的第I个观测的残差除以1-H;DFFITS预测值的标准影响力.本章目录12回归分析—多元线性回归2线性回归2.1线性回归的数学表示因变量y自变量为pxxx,,,21满足线性关系exxypp110(I)次观测,对进行n所得的n组数据为),,2,1(,,,,21nixxxipii它们均满足(I)式pxxx,,,21y本章目录13回归分析—多元线性回归2线性回归2.1线性回归的数学表示因变量y自变量为pxxx,,,21满足线性关系exxypp110(I)次观测,对进行n所得的n组数据为),,2,1(,,,,21nixxxipii它们均满足(I)式pxxx,,,21y本章目录141111101exxypp2221102exxyppnnppnnexxy110),,,,(111211yxxxpnyyy21yp10βnpnppxxxxxx1221111111Xneee21e),,,,(222221yxxxp),,,,(21nnpnnyxxx回归分析—多元线性回归2线性回归2.1线性回归的数学表示本章目录15因此(I)式可写成如下矩阵形式:eXβy(II)0e)(EnCovIe2)(此为多元线性回归方程。回归分析—多元线性回归2线性回归2.1线性回归的数学表示本章目录16yX'X)(X'β1ˆ最小二乘法解回归分析—多元线性回归2线性回归2.2回归参数的估计本章目录17回归分析—多元线性回归2线性回归2.2回归参数的估计若对进行标准化,即,其中,,则得到的回归系数即标准化回归系数。标准化回归系数表示当其他自变量固定时,每变化一个单位,因变量平均变化个单位。因此反映了自变量对因变量的影响大小。另外的正号反映了与间是正相关关系,负号则为负相关关系pXXX,...,,21iiiiSXXxpi,,1njjiixX1212)(ijinixxS'iY'i'iixY'iixYix本章目录18回归分析—多元线性回归2线性回归2.3回归方程的假设检验—模型的检验对于任一组观测数据,我们都可按上述方法建立回归方程,那么它们是否具备建立线性回归方程的条件呢?这就需要进行回归方程的显著性检验。即检验假设,也就是所有回归系数都等于零。如果检验的结果是拒绝,即接受其备择假设,说明至少有一个回归系数,从而说明变量线性依赖于某个变量;若检验的结果是接受,则说明所有变量对变量的线性关系是不重要的。0β:0H0H0iYiX0HpXXX,...,,21本章目录19回归分析—多元线性回归2线性回归2.3回归方程的假设检验—模型的检验方差来源平方和自由度均方F值值概率p模型回归SSppSSMS回归回归EMSMSF回归回}{1,回FFPppnp误差剩余SSE1pn1pnSSEMSE剩余总和总TSS1n对回归方程的显著性检验是通过方差分析得到。首先将因变量的离均差平方和分解为由回归和误差引起两部分,然后构造F统计量来进行统计推断的本章目录20y1'yy'y)(12niiyyTSS总')1,...,1,1(1其中y1'yX''βySSˆ回归yX''βyy'ˆ剩余SSE剩余回归总SSESSTSS总回归TSSSSR2复决定系数回归分析—多元线性回归2线性回归2.3回归方程的假设检验—模型的检验其中:本章目录21回归分析—多元线性回归2线性回归2.3回归方程的假设检验—回归系数的检验回归方程显著性检验是从总体上对自变量与因变量之间是否存在线性关系进行了考察,若检验的结果是拒绝原假设,则接受其对立假设,也就是说至少存在某个变量的回归系数不为零,因此还需对每个变量的回归系数进行逐个检验,即对某个固定的检验:),...,2,1(,pii0:0iiH本章目录22回归分析—多元线性回归2线性回归2.3回归方程的假设检验—回归系数的检验考虑统计量,则服从自由度为的T-分布。其中,的标准误为,其估计为。通过计算和,若或中任一个不比大,则拒绝,认为该变量的回归系数显著地不为零。反之则认为该变量与因变量之间没有显著的线性关系。iiictt)1(pn)1(2pnSSE剩余iiiicVar)(iic|}|{11ttPppn|}|{12ttPppn1p2p2iH0本章目录23回归分析—多元线性回归2线性回归2.3回归方程的假设检验—预测与置信区间将变量的一组观测值代入回归方程,即得到变量的预测值。因此预测是一件很简单的事,只要确定了一个非常有效的回归方程即可。有时我们还需要对预测值进行区间估计,下面给出因变量的期望值和预测值的区间估计。pXXX,...,,21Y)(iyEiy本章目录24例回归分析—多元线性回归2线性回归2.3回归方程的假设检验—预测与置信区间]ˆ)(ˆ,ˆ)(ˆ[221221iipniipnhthtβxβxii预测值的置信区间为:1iy]ˆ)1()(ˆ,ˆ)1()([221221iipniipnhthtβxβxii)(iyE1的置信区间为:X'X)X(X'H1),...,,1(1ipixxix'xX)(X'xi1iiihni,...,2,1本章目录251.熟悉SAS中的REG过程2.掌握回归分析的过程回归分析—多元线性回归2线性回归小结与作业SAS中的REG过程回归分析的基本内容小结作业本章目录26自变量的选择回归分析—多元线性回归2线性回归2.4自变量的选择本章目录27选择自变量的准则选择自变量进入回归模型的方法(SAS实例)提纲提纲回归分析—多元线性回归2线性回归2.4自变量的选择本章目录28选择自变量的准则选择自变量的准则选择自变量进入回归模型的方法1.引言因变量y自变量为pxxx,,,21满足线性关系exxypp110(I)次观测,对进行n所得的n组数据为),,2,1(,,,,21nixxxipii它们均满足(I)式pxxx,,,21y回归分析—多元线性回归2线性回归2.4自变量的选择本章目录29选择自变量的准则选择自变量的准则选择自变量进入回归模型的方法1111101exxypp2221102exxyppnnppnnexxy110),,,,(111211yxxxpnyyy21yp10βnpnppxxxxxx1221111111Xneee21e),,,,(222221yxxxp),,,,(21nnpnnyxxx回归分析—多元线性回归2线性回归2.4自变量的选择本章目录30选择自变量的准则选择自变量的准则选择自变量进入回归模型的方法因此(I)式可写成如下矩阵形式:eXβy(II)0e)(EnCovIe2)(此为多元线性回归方程。全模型回归分析—多元线性回归2线性回归2.4自变量的选择本章目录31选择自变量的准则选择自变量的准则选择自变量进入回归模型的方法y1'yy'y)(12niiyyTSS总')1,...,1,1(1其中y1'yX''βySSˆ回归yX''βyy'ˆ剩余SSE剩余回归总SSESSTSS总回归TSSSSR2复决定系数yX'X)(X'β1ˆ最小二乘法解回归分析—多元线性回归2线性回归2.4自变量的选择本章目录32选择自变量的准则选择自变量的准则选择自变量进入回归模型的方法剩回总qqqSSESSTSS总回qqqTSSSSR2),,,(21pxxx选出),,,(21qiiixxxqqqeβXyy'X)X'(Xβq1qqqˆ选模型现在从个变量中选出个变量,同样考虑上述过程:pq)(pq回归分析—多元线性回归2线性回归2.4自变量的选择本章目录33选择自变量的准则选择自变量的准则选择自变量进入回归模型的方法2.从拟合的角度考虑的准则:)1()1(112,2qadjqRqnnR总剩总回qqqqqTSSSSETSSSSR12nq--观测个数--模型中参数个数其中:①修正决定系数准则:(最大)回归分析—多元线性回归2线性回归2.4自变量的选择本章目录34选择自变量的准则选择自变量的准则选择自变量进入回归模型的方法2.从拟合的角度考虑的准则:②均方误差