第三讲回归分析1.实验目的1、掌握线性回归系统建模的基本方法。2、学会使用SAS系统对线性回归模型进行参数估计、统计推断及残差分析等。2.实验要求1、数据的初步分析:数字特征、经验分布、相关分析。2、残差分析、回归分析。3.实验原理3.1、线性回归模型及模型参数2,的最小二乘估计设Y是一可观测的随机变量,它受到1p个非随机因素121,,,pXXX和随机误差的影响。假定它们有如下线性关系:1122110,,ppXXXY(1)其中:k是待估参数,),0(~2N,则称(1)式为线性回归模型。对总体),,,,(121YXXXp进行n次(pn)独立观测,得样本:niyxxxipiii,,2,1),,,,(1,2,1,令:111111111npnpxxxxXTnyyY)(1Tp)(10Tn)(1则的最小二乘估计:)()min(min)ˆ(XYXYSTT可得正规方程:TTXXXY若pXrank)(,则有YXXXTT1)(ˆ,代入(1)式,并略去误差项得经验回归方程:0112211ˆ,,ppYXXX令yyeˆ称为残差向量,可得:)()(2pneeET,令eepnT1ˆ2是2的无偏估计。3.2、回归模型检验原理①线性回归关系的显著性检验为检验Y与121,,,pXXX之间是否存在显著的线性回归关系,即检验假设:01211:0:0(11)piHHip至少有某个构造如下检验统计量:MSRFMSE当0H为真时,(1,)FFpnp;给定显著性水平,由F分布得临界值(1,)Fpnp(即F分布的上侧分位数),计算F的观测值0F,若0(1,)FFpnp,接受0H,否则拒绝0H。在SAS中,对显著性检验问题,其输出结果通常是检验的p值。对上述线性回归关系的显著性检验问题,检验的p值为00{}HpPFF,若p值小于显著性水平,拒绝0H,否则接受0H。②回归参数的显著性检验回归关系显著并不意味着每个自变量iX对Y的影响都显著,我们希望从回归方程中剔除那些对Y的影响不显著的的自变量,从而建立一个较为简单有效的回归方程。若某个自变量kX对Y无影响,那么它的系数0k,因此检验kX的影响是否显著等价与检验假设:01:0:0kkHH。若令1ˆ()()TSMSEXX,^()ks为ˆ()S的主对角线上的第k个元素的平方根,则可得到^^()()kkktnps;当0H为真时,^^()()kkttnps,记t的观测值为0t,则检验准则为:002002(),(),ttnpHttnpH若则接受若则拒绝③残差分析在回归分析中,我们通常假定),,2,1(nii是独立同正态分布的随机变量,有零均值和常值方差2,因此,若拟合的回归模型适合于所给的数据,那么残差),,2,1(nii应该基本上反映误差的这些特性。利用残差的这些特性反过来考察原模型的合理性就是残差分析的基本思想。a)残差正态性的频率检验回归模型中标准化残差),,2,1(niMSEei可近似认为是取自标准正态总体的样本,理论上属于),,2,1(niMSEei有68%在(-1,1)内,87%在(-1.5,1.5)内,95%在(-1,1)内,如果残差在某个区间内的频率与上述理论频率有较大的偏差,我们有理由怀疑ie(从而i)的正态假设的合理性。b)残差正态性的QQ图检验QQ图是做正态性检验的直观方法,将残差),,2,1(nii按由小到大的排列,以残差为纵坐标、正态期望为横直角坐标系中画出正态QQ图。c)相关系数检验法通过计算残差和正态期望之间的相关系数判断它们之间关系的强弱,若相关系数接近1,则说明残差为正态性。d)时序残差图分析以观测时间(或观测值序号)为横坐标,的散点图时序残差图。拟合好的模型的时序残差图中的点应落在以时间轴为中轴线的带状区域,且无明显的趋势性,否则说明回归方程的形式或对误差等方差的存在一定问题。(1)以拟合值Yˆ为横坐标的残差图分析若模型适当,以拟合值Yˆ为横坐标的残差图(2)以自变量为横坐标的残差图分析以每个jX的各观测值ijx为点的横坐标,以残差为纵坐标。同样满意的残差图呈现水平带状。3.3、逐步回归的原理与步骤逐步回归的基本步骤就是依次拟合一系列回归方程,后一个回归方程在前一个的基础上增加或删除一个自变量,其增加或删除某个自变量的准则是用残差平方和的增加或减少量来衡量,一般采用如下的偏F检验统计量,设模型已经有1l个自变量,记1l个自变量的集合为A,当不再A中的自变量加入到模型当中时,偏F检验统计量一般形式为:()()(,)~(1,1)(,)(,)1kkkkSSRXASSEASSESXFFnlSSEAXMSEAXnl()()(,)kkSSRXASSEASSESX称为额外回归平方和。F统计量描述了误差平方和的增加或减少量,所以偏F检验统计量是逐步回归方法中增加或删除变量所用的基本统计量。4.相关SAS知识SAS中提供的关于回归最常用的过程是REG过程。语法格式如下:Procregoptions1;Modeldependent=regressors/options2;Outputout=SASdatasetkeyword=name……;PlotY轴变量*X轴变量……/options3;(当要画的是统计量时须使用keyword.来表示,如:residual.*predicted.)相关说明:在关键词“Model”之后,应指明因变量,等号之后依次列出回归变量(自变量),每个变量之间用空格隔开,“options2”部分提供了最优模型的选择方法和其他拟和结果,主要包括三个主要部分:(1)①FORWARD:向前选择最优模型方法。自变量进入模型的控制水平用语句SLENTRY=level表示,默认情况下level=0.5。②BACKWARD:向后删除法。保留自变量在模型中的控制水平由语句SLENTRY=level给出,默认情况为level=0.1。③STEPWISE:逐步回归法,选取自变量和保留自变量的控制水平语句由SLENTRY=level1和SLSTAY=level2,默认情况为level1=level2=0.15。④RSQUARE:利用2pR准则选择最优模型。⑤ADJRSQ:修正的2pR(2aR)准则选择最优模型法。⑥CP:利用pC准则选择最优模型法。注意:在SAS系统中,这6中方法不能同时并用,即在“options2”部分只能写其中的一种。(2)对模型选取细节的选项①DETAILS:此选项仅对最优模型选取方法中的FORWARD、BACKWARD和STEPWISE有效,它要求打印出每一步引入和删除的自变量及相关信息。例如一个自变量选入模型时的偏F值,模型的2R值和一个自变量被删除时模型2R值以及有关参数估计的信息。②NOINT:取消回归模型的常数项。(3)对估计细节内容的选择①CORRB:打印出估计的参数的相关系数矩阵。②COVB:打印出估计的参数的协方差矩阵。③P:打印出因变量的拟合值,同时还包括因变量的观测值合拟和残差。④R:打印出有关残差及用于性分析的量,包括:拟合值的标准差、残差、学生化残差及Cook距离。OUTPUT语句中的“keyword=name……”部分指定下列的一些或全部的内容:PREDICTED(P)=name;因变量的拟合值RESIDUAL(R)=name;残差STUDENT=name;标准化残差L95M=name;因变量的期望值的95%置信区间的下限U95M=name;因变量的期望值的95%置信区间的上限L95=name;因变量真值的95%置信区间的下限U95=name;因变量真值的95%置信区间的上限COOKD=name;cook距离H=name;杠杆量PRESS=name;用来估计第i组观测值对拟合值的影响DFFITS=name;用来估计第i组观测值对参数估计的影响(3)“options3“部分包含以下内容:①symbol=‘字符’:规定绘图中的符号;②overplay:允许多个散点图重叠输出到一张图上。5、举例[例题1]某公司在各地区销售一种特殊的化妆品.该公司观测了15个城市在某季度内该化妆品的销量Y以及各城市适合使用该化妆品的人数X1和人均收入X2,得数据如表3.2所示(见教材94页).假设误差服从正态分布),(2,0N,试建立Y与X1,X2之间的线性回归方程并讨论相关的统计推断问题.SAS程序如下:goptionsvsize=10cmhsize=15cm;datasell;inputyx1x2;cards;1622742450120180325422337538021312052838678623471692653782819830081923302450),0(2N11619521375553256025243040202323724427144236266010315720882123702605;run;procgplotdata=sell;ploty*x1='A'y*x2='B';run;procregdata=sell;modely=x1x2/noint;outputout=sell1p=pr=rstudent=stdr;**输出预测值,残差和标准化残差;plotresidual.*predicted.;*/画关于预测值的残差图;plotresidual.*x1;/*画关于变量x1的残差图*/plotresidual.*x2;/*画关于变量x2的残差图*/procprintdata=sell1;run;结果分析:(1)所建模型线性的显著性分析由运行结果知,F=5679.47,(prF)0.0001比0.05远远要小,且R-Square=0.9989非常接近于1,说明线性关系显著。(2)模型参数的显著性分析由程序运行结果知变量x1和x2的系数1和2是显著的,但常数项0不显著,可考虑将常数项删除。要删除常数项,只需要将上述程序中model语句改为:modely=x1x2/noint即可。改进后的程序运行结果如下:由此可见,删除常数项后,模型的F值为38545.4,R-Square=0.9998,比原来的模型要好!6.【本次实验】题目见数据分析教材例题3.4某医科大学儿科医院研究某种代乳粉的营养价值时,用大白鼠做试验,得大白鼠进食量(克)和增加体重(克)间关系的原始数据如下所示,试做直线回归分析。x820780720867690787934679639820y165158130180134167186145120158解:程序:goptionsvsize=10cmhsize=15cm;datadairufen;inputyx;cards;165820158780130720180867134690167787186934145679120639158820;run;procgplotdata=dairufen;ploty*x='A';run;procregdata=dairufen;modely=x;outputout=dairufenlp=pr=rstudent=stdr;由运行结果知,F=60.20,(prF)0.0001比0.05远远要小,且R-Square=0.8827比较接近于1,说明线性关系显著。从程序运行结果知变量的系数1是显著的,但常数项0不显著,可考虑将常数项删除。要删除常数项,只需要将上述程序中model语句改为:modely=x/noint即可。改进后的程序运行结果如下:程序;goptionsvsize=10cmhsize=15cm;datadairufen;inputyx;cards;1658201587801307201808671346901