线性回归分析和方差分析报告

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

线性回归分析和方差分析报告信计12徐文豪2110902039本报告以教材第二章课后习题2.4和第三章课后习题3.6为主体,给出对应的解答、sas代码和结果分析。2.4某公司管理人员为了了解某化妆品在一个城市的月销售量Y(单位:箱)与该城市中适合使用该化妆品的人数1X(单位:前人)以及他们人均月收入2X(单位:元)之间的关系,在某个月中对15个城市做了调查,得上述各量的观测值如下表所示:162274245012018032542233753802131205283867862347169265378281983008192330245011619521375553256025243040202323724427144236266010315720882123702605假设Y与1X,2X之间满足线性回归关系01122iiiiyxx,1,2,,15i其中(1,2,15)ii独立通分布于2(0,)N。(1)求回归系数012,,的最小二乘估计和误差方差2的估计,写出回归方程并对回归系数作解释。解:首先将数据导入sas,sas语句如下:datasale;inputyx1x2;cards;162274245012018032542233753802131205283867862347169265378281983008192330245011619521375553256025243040202323724427144236266010315720882123702605;run;然后调用reg过程,sas语句如下:procregdata=sale;modely=x1x2;run;运行结果如下:由此得到012,,的最小二乘估计分别为3.45261,0.496,0.0092,24.7403,回归方程为123.452610.4960.0092yxx1显示当人均月收入固定时,使用化妆品的人数上升一人,月销售量增加0.496个单位;2显示当使用化妆品的人数固定时,人均月收入增加一元,月销售量增加0.0092个单位。(2)求出方差分析表,解释对线性回归关系显著性检验的结果,求复相关系数的平方2R的值并解释其意义。解:由(1)的结果,方差分析表如下:由结果可知,线性回归关系显著性检验的p值小于0.001,则有线性回归关系显著。该sas语句同时也得到了复相关系数2R的值为0.9989,由于2R越大,线性函数值占Y的比率越大,即Y与121,,,pXXX的线性关系越显著,因而结果显示月销售量与使用化妆品的人数及人均月收入有明显的线性关系。(3)分别求出1和2置信度为95%的置信区间。解:由公式^^12()()kktnps,15n,3,p要求出1和2的置信区间,首先应该求出0.975(12)t,使用tinv函数,sas语句如下:dataget_p;y=tinv(0.975,12);run;procprintdata=get_p;run;得到0.975(12)2.179t。又由(1)的结果得到参数估计表如下:综合得到:对1:0.4962.1790.00605,即置信区间为(0.4796,0.5124)。对2:0.00922.7190.000968,即置信区间为(0.006568,0.01183)。(4)对0.05,分别检验人数1X及收入2X对销量Y的影响是否显著,利用与回归系数有关的一般假设检验方法检验1X和2X的交互作用(即12XX)对Y的影响是否显著。解:由(3)得到的参数估计表得到假设10和20检验的p值均小于0.0001,因而1X和2X对Y的影响显著。为检验1X和2X的交叉项对Y的影响,先构造全模型:01122312YXXXX利用观测数据拟合该模型得到()56.72083SSEF,11Ff又由(2)得到的方差分析表得到()56.88357SSER,12Rf由此得到检验统计量的观测值为0(56.8835756.72083)/(1211)0.034456.72083/12F检验p值为000()((1,12)0.0344)0.85596HpPFFPF0p远大于一般显著性水平,因此认为1X,2X的交叉项对Y的影响是不显著的,即模型中没有必要引入交叉项。(5)该公司欲在一个适宜使用该化妆品的人数01220x,人均月收入022500x的新的城市中销售该化妆品,求其销量的预测值及其置信度为95%的置信区间。解:点估计可直接根据回归方程123.452610.4960.0092yxx给出,得到估计值0135.5726y。而置信度为0.95的置信区间为^100.97500(12)([1()])TTytMSExXXx其中^0135.2726y,0.975(12)2.719t,2.17722MSE,X为设计矩阵,解得置信区间为(128.7703,141.7749)。(6)求Y的拟合值,残差及学生化残差。根据学生化残差正态性的频率检验及正态QQ图检验说明模型误差项的正态性假定是否合理,有序学生化残差与相应标准正态分布的分位数的相关系数是多少?做出各种残差图,分析模型有关假定的合理性。解:根据回归方程,可直接得到Y的拟合值,结果如下:在reg过程中由sas语句modely=x1x2/r得到残差和学生化残差,结果如下:做频率检验得到,学生化残差中有100.667(0.68)15在区间(-1,1)内,有130.867(0.87)15在区间(-1.5,1.5)内,有151(0.95)15在区间(-2,2)内,由此可见学生化残差落在上述各区间的频率与(0,1)N分布的相应概率相差均不大,因此对所给数据没有理由拒绝模型误差服从正态分布的假定。为进行正态QQ图检验,调用capability过程,得到结果如下:从上图可以看出,点()()(,)iiqr大致在一条直线上,又调用corr过程得到相关系数为0.99363,非常接近1,由此我们认为模型中误差项正态分布的假定是非-2.0-1.5-1.0-0.500.51.01.52.0-2-1012StudentizedResidual正态分位数常合理的。以因变量Y为横坐标的残差图如下图所示:以自变量1x为横坐标的残差图如下图所示:以自变量2x为横坐标的残差图如下图所示:时序残差图如下图所示:以上四个残差图,绘点均在大致在一带状区域内且不呈现任何明显的趋势,再一次说明了模型中误差项正态分布的假定是非常合理的。3.6为研究两种形式的铁离子(3Fe和2Fe)在不同剂量下在动物体内的存留量是否有显著不同,进行了如下试验:将108只小白鼠随机地分为6组,每组均为18只,其中3组分别给以三种不同剂量(高剂量,中剂量和低剂量)的三价铁3Fe;另3组给以相应剂量的二价铁2Fe。经过一段时间后,测量各小白鼠体内两种铁离子的残留量关于最初服用剂量的百分比,其数据如下所示:0.71002.20002.25002.20004.04002.71001.66002.93003.93002.69004.16005.43002.01003.08005.08003.54004.42006.38002.16003.49005.82003.75004.93006.38002.42004.11005.84003.83005.49008.32002.42004.95006.89004.08005.77009.04002.56005.16008.50004.27005.86009.56002.60005.54008.56004.53006.280010.01003.31005.68009.44005.32006.970010.08003.64006.250010.52006.18007.060010.62003.74007.250013.46006.22007.780013.80003.74007.900013.57006.33009.230015.99004.39008.850014.76006.97009.340017.90004.500011.960016.41006.97009.910018.25005.070015.540016.96007.520013.460019.32005.260015.890017.56008.360018.400019.87008.150018.300022.820011.650023.890021.60008.240018.590029.130012.450026.390022.2500(1)由SAS系统procanova过程的“means”语句(或其他方法)求出各组合水平上的观测值的样本均值和标准差。各水平组合的标准差(从而样本方差)差异是否明显?你认为假定误差的等方差性是否合理。解:将离子因素令为变量element,将剂量因素令为变量dose,将残留量令为变量rest,存入数据集后调用anova过程,SAS语句如下:procanovadata=origin;classelementdose;modelrest=elementdoseelement*dose;meanselementdose;run;运行结果如下:从图中可以看出各水平组合的标准差差异明显,因而假定误差的等方差性不合理。(2)对观测数据作自然对数变换,再进行(1)中的分析。此时,各组合水平上的标准差是否一致。解:用log函数对rest作对数变换,sas语句如下;dataorigin_log;setorigin;rest_log=log(rest);droprest;run;对变换后的数据,调用anova过程,同(1)可得:此时,各组合水平的标准差已经趋于抑制了。(3)对变换后的数据进行方差分析,建立方差分析表。在显著性水平0.05下,因素的交互效应是否显著?各因素的影响是否显著?解:调用anova过程,得到方差解析表如下:从结果知道,交互效应的检验p值为0.3143,对显著性水平0.05,交互效应不显著,此时可直接利用各因素的检验p值分析其对因变量的影响。又element和dose的p值均小于0.05,因而这两因素的影响显著。(4)根据(3)中的分析,分别求各因素在不同水平上的均值的置信度为95%置信区间以及两两均值之差的置信度不小于95%的Bonferroni同时置信区间,并解释其结果。解:调用anova过程,且在means中选择/tclm,得到各因素在不同水平上的置信度为95%置信区间,结果如下:调用anova过程,且在means中选择/boncldiff,得到各因素两两均值之差的置信度不小于95%的Bonferroni同时置信区间,结果如下:由此结果知,在至少95%的置信度下可断言在剂量一定的情况下,3Fe在人体内的存留量高于2Fe;而在元素相同的情况下,高剂量的存留量高于中剂量,中剂量的存留量高于低剂量。

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功