学号:班级:姓名:实验五回归分析SAS过程(2)实验目的:1.会对实际问题建立有效的多元回归模型,能对回归模型进行残差分析;2.掌握SAS输出结果用于判别回归方程优良性的不同统计量,能对回归模型进行运用,对实际问题进行预测或控制.实验要求:编写程序,结果分析.实验内容:1.误差的正态性检验有几种方法,何时认为误差项服从正态分布?答:1.学生化残差2.残差正态性的频率检验3.残差的正态QQ图检验判断若散点),()()(iirq),,2,1(ni大致在一条直线上相关系数:1)()())((1)(12)(1)()(niiniiiiiqqrrqqrr认为ir),,2,1(ni来自正态分布,接受误差正态性检验.2.回归方程的选取的穷举法中,评价回归方程优良性的准则有哪些?根据准则何时方程最优?答:1)修正的复相关系数准则或均方残差准则()(2pRa或pMSE准则)2)pC准则3)预测平方和准则(pPRESS准则)拟合所有可能的121M个回归方程,画出pC图:),(pCp,在pC图中选取最接近参考直线pCp的点所对应的回归方程为最优方程.学号:班级:姓名:3.简述逐步回归方法的思想和步骤.基本思想:逐个引入自变量建立回归方程,每次引入对Y影响最显著的自变量,并对方程中旧变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中,既不漏掉对Y显著影响的变量,又不包含对Y影响不显著的变量.添加或删除某个自变量的准则是用残差平方和的相对减少或增加来衡量.步骤:(1)修正的复相关系数准则、pC准则选择模型(2)预测平方和准则选择PRESSp最优回归方程(3)最优模型的拟合检验4.做2.62.8(选作)2.9注意:可以选课外综合题目。2.6程序:dataexamp2_6;inputx1x2y;cards;8.37010.38.66510.38.86310.210.57216.410.78118.810.88319.711.06615.611.07518.211.18022.611.27519.911.37924.211.47621.011.47621.411.76921.312.07519.112.97422.212.98533.813.38627.413.77125.7学号:班级:姓名:13.86424.914.07834.514.28031.714.57436.316.07238.316.37742.617.38155.417.58255.717.98058.318.08051.518.08051.020.68777.0;run;procregdata=examp2_6;modely=x1-x2;outputout=ap=predictr=residh=hstudent=r;run;datab;seta;dropx1-x2;run;procprintdata=b;run;proccapabilitygraphicsnoprintdata=a;/*对数据集a调用capability过程,高分辨图,不打印输出*/qqplotr/normal;/*作student数据的正态QQ图*/run;goptionsreset=all;/*将图形的设置恢复为默认状态*/procgplotdata=a;/*对数据集a作出画高分辨的散点图或曲线图*/plotresid*predict;/*画纵坐标为残差、横坐标为yi散点图*/symbolv=doti=none;/*散点表示符号圆点•,不画连线*/run;学号:班级:姓名:/*此处至Quit是计算学生化残差对应的标准正态分布的分位数*/procsortdata=a;byr;/*按r排序*/prociml;/*调用iml矩阵分析模块,计算数据*/usea;/*打开数据集a*/readallvar{r}intorr;/*读入集a中变量r(学生化残差)各观测值到矩阵rr中*/doi=1to31;/*此循环计算*/qi=probit((i-0.375)/54.25);q=q//qi;/*矩阵qi上下连接而成,即得54*1阶矩q=(q(1),q(2),,q(30))T*/end;rq=rr||q;/*表示矩阵rq=(rrq)*/createcorrelvar{rq};/*创建数据集correl,变量为r、q*/appendfromrq;/*从矩阵rq读取数据()*/quit;/*iml过程结束*/proccorrdata=correl;/*计算学生化残差与对应的标准正态分布的分位数的相关系数*/run;学号:班级:姓名:(a)学生化残差的正态QQ图学号:班级:姓名:(b)拟合值yˆ的残差图结果分析:1)由学生化残差的正态QQ图可知,其点明显不在一条直线上;2)求得有序学生化残差与相应正态分布的分位数的相关系数=0.94091与1相差较大.因此,若拟合线性回归模型,则误差分布与正态分布有较大的偏离;3)Y拟合值的残差图也表明Y与21,XX不满足线性关系,且两个拟合值还为负数.由此知,直接假定体积与直径和树干高度之间的线性回归关系是不恰当的.(2)对因变量Y作Box-Cox变换第一步:确定变换参数鉴于(1)中的残差分析结果,我们对Y作Box-Cox变换学号:班级:姓名:0,ln0,1)(YYY.对不同的值,由式);()(ZSSE,并利用SAS系统prociml过程计算);()(ZSSE的值.由图2.5给出了);()(ZSSE随的变化曲线.求变换参数的程序:prociml;n=31;t=1;useexamp2_6;readallvar{x1x2y}intom;doi=1ton;t=t#m[i,3];end;prod=t##(1/n);j=j(n,1,1);xx=j||m[,1:2];h=xx*inv(xx`*xx)*xx`;dolamb=-0.5to0.5by0.01;iflamb=0thenzlamb=prod#log(m[,5]);elsezlamb=(m[,3]##lamb-j)/(lamb#(prod##(lamb-1)));sse=zlamb`*(i(n)-h)*zlamb;lsse=lsse//(lamb||sse);end;tt=prod#log(m[,3]);sse0=tt`*(i(n)-h)*tt;lsse[30,1]=0;lsse[30,2]=sse0;index=lsse[:,];minlsse=index[1,2];lambda0=lsse[minlsse,1];printlambda0;createplotdatavar{lambdasse};appendfromlsse;z=(m[,3]##lambda0-j(n,1,1))/lambda0;outm=m[,1:2]||z;学号:班级:姓名:createtransvar{x1x2z};appendfromoutm;quit;procprintdata=trans;run;画)()()()()();(ZHIZZTSSE图goptionsreset=all;procgplotdata=plotdata;plotsse*lambda;symbolv=pointi=spline;run;由结果给出了);()(ZSSE随的变化曲线.学号:班级:姓名:由图可知,);()(ZSSE在0.31时达到最小,因此,在Box-Cox变换式中取0.31.记变换后的因变量为Z,即0.3110.31YZ第二步:对Z关于4321,,,XXXX拟合线性回归模型XZ,利用残差分析考察模型的合理性并作出拟合结果建立回归模型XZ,作残差分析程序如下:procregdata=trans;modelz=x1-x2;outputout=cp=predict1r=resid1student=r1;run;goptionsreset=all;proccapabilitygraphicsnoprintdata=c;qqplotr1/normal;run;goptionsreset=all;procgplotdata=c;plotresid1*predict1;symbolv=doti=none;run;回归模型XZ及残差分析结果输出:学号:班级:姓名:对Z关于12,XX拟合线性回归模型,求出残差iˆ及学生化残差(1,2,,31)iri.做出学生化残差的正态QQ图以及Z的拟合值的残差图如图所示.(a)学生化残差的正态QQ图(q,r)学号:班级:姓名:(b)Z的拟合值zˆ的残差图由图知,线性回归关系高度显著且复相关系数的平方和为20.9776R,即线性部分描述了Z的绝大部分变化量.由此得拟合的回归方程为122.848300.419400.04051ZXX回归模型01122ZXX残差的相关系数检验有序学生化残差与相应正态分布的分位数的相关系数=0.96990与1比较接近.因此变换效果比以前好了。2.9(1)程序如下:dataexamp2_9;学号:班级:姓名:inputx1x2x3y;cards;50512.34836462.35740482.26641441.87028431.88949542.93642502.24645482.45452622.92629502.17729482.48943532.46738552.24734512.35153542.25736492.06633562.57929461.98833492.16055512.44929522.37744582.952学号:班级:姓名:43502.360;run;procregdata=examp2_9;modely=x1-x3;outputout=ap=predictr=residh=hstudent=r;run;datab;seta;dropx1-x3;run;procprintdata=b;run;proccapabilitygraphicsnoprintdata=a;/*对数据集a调用capability过程,高分辨图,不打印输出*/qqplotr/normal;/*作student数据的正态QQ图*/run;goptionsreset=all;/*将图形的设置恢复为默认状态*/procgplotdata=a;/*对数据集a作出画高分辨的散点图或曲线图*/plotresid*predict;/*画纵坐标为残差、横坐标为yi散点图*/symbolv=doti=none;/*散点表示符号圆点•,不画连线*/run;学号:班级:姓名:/*此处至Quit是计算学生化残差对应的标准正态分布的分位数*/procsortdata=a;byr;/*按r排序*/prociml;/*调用iml矩阵分析模块,计算数据*/usea;/*打开数据集a*/readallvar{r}intorr;/*读入集a中变量r(学生化残差)各观测值到矩阵rr中*/doi=1to23;/*此循环计算*/qi=probit((i-0.375)/54.25);q=q//qi;/*矩阵qi上下连接而成,即得54*1阶矩q=(q(1),q(2),,q(30))T*/end;rq=rr||q;/*表示矩阵rq=(rrq)*/createcorrelvar{rq};/*创建数据集correl,变量为r、q*/appendfromrq;/*从矩阵rq读取数据()*/quit;/*iml过程结束*/proccorrdata=correl;/*计算学生化残差与对应的标准正态分布的分位数的相关系数*/run;学号:班级:姓名:学号:班级:姓名:(a)学生化残差的正态QQ图(b)拟合值yˆ的残差图结果分析:1)由学生化残差的正态QQ图可知,其点基本在一条直线上;2)求得有序学生化残差与相应正态分布的分位数的相关系数=0.96428与1相学号:班级:姓名:差较小.因此,若拟合