逐步回归分析案例

leo_zxh
2 ℃
2019-12-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

逐步回归分析案例：逐步回归分析在自变量很多时，其中有的因素可能对应变量的影响不是很大，而且x之间可能不完全相互独立的，可能有种种互作关系。在这种情况下可用逐步回归分析，进行x因子的筛选，这样建立的多元回归模型预测效果会更较好。逐步回归分析，首先要建立因变量y与自变量x之间的总回归方程，再对总的方程及每—个自变量进行假设检验。当总的方程不显著时，表明该多元回归方程线性关系不成立；而当某—个自变量对y影响不显著时，应该把它剔除，重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量，并建立“最优”回归方程。回归方程包含的自变量越多，回归平方和越大，剩余的平方和越小，剩余均方也随之较小，预测值的误差也愈小，模拟的效果愈好。但是方程中的变量过多，预报工作量就会越大，其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中，选择适宜的变量数目尤为重要。逐步回归在病虫预报中的应用实例:以陕西省某地区1984~1995年的烟蚜传毒病情资料、相关虫情和气象资料为例（数据见DATA6.xls），建立蚜传病毒病情指数的逐步回归模型，说明逐步回归分析的具体步骤。影响蚜传病毒病情指数的虫情因子和气象因子一共有21个，通过逐步回归，从中选出对病情指数影响显著的因子，从而建立相应的模型。对1984~1995年的病情指数进行回检，然后对1996~1998年的病情进行预报，再检验预报的效果。变量说明如下：y：历年病情指数x1：前年冬季油菜越冬时的蚜量(头/株)x2：前年冬季极端气温x3：5月份最高气温x4：5月份最低气温x5：3~5月份降水量x6：4~6月份降水量x7：3~5月份均温x8：4~6月份均温x9：4月份降水量x10：4月份均温x11：5月份均温x12：5月份降水量x13：6月份均温x14：6月份降水量x15：第一次蚜迁高峰期百株烟草有翅蚜量x16：5月份油菜百株蚜量x17：7月份降水量x18：8月份降水量x19：7月份均温x20：8月份均温x21：元月均温1）准备分析数据在SPSS数据编辑窗口中，用“File→Open→Data”命令，打开“DATA6.xls”数据文件。数据工作区如下图3-1显示。图3-12）启动线性回归过程单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项，将打开如图3-2所示的线性回归过程窗口。图3-2线性回归对话窗口3)设置分析变量设置因变量：将左边变量列表中的“y”变量，选入到“Dependent”因变量显示栏里。设置自变量：将左边变量列表中的“x1”~“x21”变量，全部选移到“Independent(S)”自变量栏里。设置控制变量:本例子中不使用控制变量，所以不选择任何变量。选择标签变量:选择“年份”为标签变量。选择加权变量:本例子没有加权变量，因此不作任何设置。4）回归方式在“Method”分析方法框中选中“Stepwise”逐步分析方法。该方法是根据“Options”选择对话框中显著性检验（F）的设置，在方程中进入或剔除单个变量，直到所建立的方程中不再含有可加入或可剔除的变量为止。设置后的对话窗口如图3-3。图3-35)设置变量检验水平在图6-15主对话框里单击“Options”按钮，将打开如图3-4所示的对话框。图3-4“SteppingMethodCriteria”框里的设置用于逐步回归分析的选择标准。其中“UseprobabilityofF”选项，提供设置显著性F检验的概率。如果一个变量的F检验概率小于或等于进入“Entry”栏里设置的值，那么这个变量将被选入回归方程中；当回归方程中变量的F值检验概率大于剔除“Removal”栏里设置的值，则该变量将从回归方程中被剔除。由此可见，设置F检验概率时，应使进入值小于剔除值。“UesFvalue”选项，提供设置显著性F检验的分布值。如果一个变量的F值大于所设置的进入值（Entry），那么这个变量将被选入回归方程中；当回归方程中变量的F值小于设置的剔除值（Removal），则该变量将从回归方程中被剔除。同时，设置F分布值时，应该使进入值大于剔除值。本例子使用显著性F检验的概率，在进入“Entry”栏里设置为“0.15”，在剔除“Removal”栏里设置为“0.20”（剔除的概率值应比进入的值大），如图6-17所示。图6-17窗口中的其它设置参照一元回归设置。6）设置输出统计量在主对话图3-2窗口中，单击“Statistics”按钮，将打开如图6-18所示的对话框。该对话框用于设置相关参数。其中各项的意义分别为：图3-5“Statistics”对话框①“RegressionCoefficients”回归系数选项：“Estimates”输出回归系数和相关统计量。“Confidenceinterval”回归系数的95%置信区间。“Covariancematrix”回归系数的方差-协方差矩阵。本例子选择“Estimates”输出回归系数和相关统计量。②“Residuals”残差选项：“Durbin-Watson”Durbin-Watson检验。“Casewisediagnostic”输出满足选择条件的观测量的相关信息。选择该项，下面两项处于可选状态：“Outliersoutsidestandarddeviations”选择标准化残差的绝对值大于输入值的观测量；“Allcases”选择所有观测量。本例子都不选。③其它输入选项“Modelfit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。“Rsquaredchange”输出由于加入和剔除变量而引起的复相关系数平方的变化。“Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。“Partandpartialcorrelation”相关系数和偏相关系数。“Collinearitydiagnostics”显示单个变量和共线性分析的公差。本例子选择“Modelfit”项。7）绘图选项在主对话框单击“Plots”按钮，将打开如图3-6所示的对话框窗口。该对话框用于设置要绘制的图形的参数。图中的“X”和“Y”框用于选择X轴和Y轴相应的变量。图3-6“Plots”绘图对话框窗口左上框中各项的意义分别为：“DEPENDNT”因变量。“ZPRED”标准化预测值。“ZRESID”标准化残差。“DRESID”删除残差。“ADJPRED”调节预测值。“SRESID”学生氏化残差。“SDRESID”学生氏化删除残差。“StandardizedResidualPlots”设置各变量的标准化残差图形输出。其中共包含两个选项：“Histogram”用直方图显示标准化残差。“Normalprobabilityplots”比较标准化残差与正态残差的分布示意图。“Produceallpartialplot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。本例子不作绘图，不选择。8)保存分析数据的选项在主对话框里单击“Save”按钮，将打开如图3-7所示的对话框。图3-7“Save”对话框①“PredictedValues”预测值栏选项：Unstandardized非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量，存放根据回归模型拟合的预测值。Standardized标准化预测值。Adjusted调整后预测值。S.E.ofmeanpredictions预测值的标准误。本例选中“Unstandardized”非标准化预测值。②“Distances”距离栏选项：Mahalanobis:距离。Cook’s”:Cook距离。Leveragevalues:杠杆值。③“PredictionIntervals”预测区间选项：Mean:区间的中心位置。Individual:观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量，存放预测区间下限值；以字符“UICI_”开头命名的变量，存放预测区间上限值。ConfidenceInterval：置信度。本例不选。④“SavetoNewFile”保存为新文件：选中“Coefficientstatistics”项将回归系数保存到指定的文件中。本例不选。⑤“ExportmodelinformationtoXMLfile”导出统计过程中的回归模型信息到指定文件。本例不选。⑥“Residuals”保存残差选项：“Unstandardized”非标准化残差。“Standardized”标准化残差。“Studentized”学生氏化残差。“Deleted”删除残差。“Studentizeddeleted”学生氏化删除残差。本例不选。⑦“InfluenceStatistics”统计量的影响。“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。“StandardizedDfBeta(s)”标准化的DfBeta值。“DiFit”删除一个特定的观测值所引起的预测值的变化。“StandardizedDiFit”标准化的DiFit值。“Covarianceratio”删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的行列式的比率。本例子不保存任何分析变量，不选择。9）提交执行在主对话框里单击“OK”，提交执行，结果将显示在输出窗口中。主要结果见表6-10至表6-13。10)结果分析主要结果:表6-10是逐步回归每一步进入或剔除回归模型中的变量情况。表6-11是逐步回归每一步的回归模型的统计量：R是相关系数；RSquare相关系数的平方，又称判定系数，判定线性回归的拟合程度：用来说明用自变量解释因变量变异的程度（所占比例）；AdjustedRSquare调整后的判定系数；Std.ErroroftheEstimate估计标准误差。表6-12是逐步回归每一步的回归模型的方差分析，F值为10.930，显著性概率是0.001，表明回归极显著。表6-13是逐步回归每一步的回归方程系数表。分析:建立回归模型：根据多元回归模型：从6-13中看出，过程一共运行了四步，最后一步以就是表中的第4步的计算结果得知：21个变量中只进入了4个变量x15、x4、x7和x5。把表6-13中“非标准化回归系数”栏目中的“B”列数据代入多元回归模型得到预报方程：预测值的标准差可用剩余标准差估计：回归方程的显著性检验：从表6-12方差分析表第4模型中得知：F统计量为622.72，系统自动检验的显著性水平为0.0000（非常小）。F(0.00001,4,7)值为70.00。因此回归方程相关非常非常显著。由回归方程式可以看出，在陕西长武烟草蚜传病毒病8月份的病情指数(y)与x4(5月份最低气温)、x15(第一次蚜迁高峰期百株烟草有翅蚜量)呈显著正相关，而与x5(3~5月份降水量)和x7(3~5月份均温)呈显著负相关。通过大田调查结果表明，烟草蚜传病毒病发生与蚜虫的迁飞有密切的关系。迁入烟田的有翅蚜有两次高峰期，呈双峰曲线。第一高峰期出现在5月中旬至6月初，此次迁飞的高峰期与大田发病率呈显著正相关。第二高峰期在6月上旬末至6月中旬，此次迁飞高峰期与大田发病率关系不大。5月份的最低气温(x4)和3~5月份均温(x7)通过影响传媒介体蚜虫的活动来影响田间发病。而第一次蚜迁高峰期百株烟草有翅蚜量(x15)是影响烟草蚜传病毒病病情指数(y)的重要因子。3~5月份降水量(x5)通过影响田间蚜虫传病毒病发病植株的症状表现影响大田发病程度。＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝[b,se,pval,inmodel,stats,nextstep,history]=stepwisefit(x,y,'penter',0.15)Initialcolumnsincluded:noneStep1,addedcolumn15,p=1.09823e-010Step2,addedcolumn4,p=0.0876018Step3,addedcolumn7,p=0.082