目录摘要1、研究背景及意义2、问题的提出3、模型的建立和求解3.1相关分析—简单散点图3.2多元回归分析—参数估计3.3三种检验3.3.1回归方程的拟合优度检验3.3.2回归方程的显著性检验—F检验3.3.3参数显著性检验—t检验4、多重共线性检验分析5、自相关分析6、模型的修正6.1逐步修正法关于水稻产量影响因素的多元线性回归分析摘要本文的主要内目的是对影响水稻产量的因素进行分析,主要运用了SPSS18,采用多元线性回归分析的方法对我国最近18年影响水稻产量的主要因素进行了分析,建立了以水稻产量为因变量,水稻播种面积、化肥施用量、生猪存栏量和降水量四种影响因素为自变量的多元线性回归模型,利用模型对各个因素进行了统计分析,并且对模型进行了修正检验,在此基础上提出一些提高水稻产量的合理化建议。关键词:SPSS18水稻产量多元回归线性分析1、研究背景及意义我国是一个人口大国,众所周知,很多偏远地方的人们仍然处在饥饿的边缘,水稻产量的提高首先可以很好的改善部分地区的粮食紧张问题,为我国经济的发展和社会的稳定提供有效的保障,其次,水稻产量的提高有利于稳定粮食的价格。因此,对影响水稻产量的因素进行多元回归线性分析可以得出各个因素的影响程度,从而采取正确的措施,以最少的投入得到最大的产量,这对于农业的科学发展是十分必要的。2、问题的提出下面的表格给出了我国最近18年来水稻产量与影响和制约水稻产量的主要因素的有关数据。表118年来水稻产量和相关影响数据水稻播种面积(万亩)化肥施用量(万公斤)生猪存栏量(万口)降水量(10mm)水稻总产量(万公斤)147.002.0015.0027.00154.50148.003.0026.0038.00200.00154.005.0033.0020.00227.50157.009.0038.0099.00260.00153.006.5041.0043.00208.00151.005.0039.0033.00229.50151.007.5037.0046.00265.50154.008.0038.0078.00229.00155.0013.5044.0052.00303.50155.0018.0051.0022.00270.50156.0023.0053.0039.00298.50155.0023.5051.0028.00229.00157.0024.0051.0046.00309.50156.0030.0052.0059.00309.00159.0048.0052.0070.00371.00164.0095.5057.0052.00402.50164.0093.0068.0038.00429.50156.0097.5074.0032.00427.50数据来源:中国国家统计局,《中国统计年鉴》在现实生活中,影响水稻产量的因素有很多,但是不能一一列举,我们只是选择了水稻播种面积、化肥施用量、生猪存栏量和降水量4个影响因素作为解释变量进行了回归分析。变量的定义如下:Y:水稻总产量(万公斤)X1:水稻播种面积(万亩)X2:化肥施用量(万公斤)X3:生猪存栏量(万口)X4:降水量(10mm)下面利用SPSS18对变量间的关系进行求解。3、模型的建立和求解3.1相关分析—简单散点图按:“图形—旧对话框—散点/点状图”顺序做,做数据散点图,观测因变量和自变量之间关系是否存在线性关系。图1水稻产量与水稻播种面积之间的简单散点图图2水稻产量与化肥施用量之间的简单散点图图3水稻产量与生猪存栏量之间的简单散点图图4水稻产量与降水量之间的简单散点图从上面四个散点图可以看出,水稻种植面积、化肥施用量、生猪存栏量和水稻产量存在明显的相关关系,降水量与水稻产量的相关关系不是那么的明显。这样的话,我们就可以建立水稻产量与水稻播种面积、化肥施用量、生猪存栏量、降水量之间建立线性回归模型。3.2多元回归线性分析—参数估计以水稻产量Y为因变量,X1:水稻播种面积(万亩),X2:化肥施用量(万公斤),X3:生猪存栏量(万口),X4:降水量(10mm)为自变量,用“分析—回归—线性—进入”方法进行参数的最小二乘估计,得到回归系数的表格,结果如表2所示:表2系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-160.312410.391-.391.702水稻播种面积(万亩)1.8782.836.105.662.519化肥施用量(万公斤)1.284.379.5293.391.005生猪存栏量(万口)2.090.885.3702.361.034降水量(10mm).483.359.1241.343.202a.因变量:水稻总产量(万公斤)初步得到该问题的多元回归线性分析模型:Y=-160.312+1.878X1+1.284X2+2.090X3+0.483X4从经济意义上讲,水稻的播种面积增大,化肥施用量加大,生猪存栏量变多,,降水量变大,水稻的产量会变大,因变量与4个自变量之间成正相关的关系,得到的模型符合现实的经济意义。3.3三种检验3.3.1回归方程的拟合优度检验表3显示了相关系数R、相关系数的平方、调整的相关系数的平方和估计值误差和DW,这些数据反映了因变量与自变量之间的线性相关强度。表3模型汇总b模型RR方调整R方标准估计的误差Durbin-Watson1.958a.918.89326.127802.705a.预测变量:(常量),降水量(10mm),生猪存栏量(万口),化肥施用量(万公斤),水稻播种面积(万亩)。b.因变量:水稻总产量(万公斤)由表3可以看出,R的平方=0.918调整后的R的平方=0.893样本决定系数和调整样本系数都很接近于1,拟合度很高,故通过拟合优度检验,认为解释变量应该对被解释变量有显著解释能力。3.3.2回归方程的显著性检验—F检验表4显示因变量的方差来源、方差平方和、自由度、均方、F检验统计量的观测值和显著性水平。方差来源有回归、残差、和总和。从表中可以看出,F=36.355,回归的自由度是4,残差的自由度是13,总计的自由度是17.显著性水平是0.05.表4Anovab模型平方和df均方FSig.1回归99271.465424817.86636.355.000a残差8874.60513682.662总计108146.06917a.预测变量:(常量),降水量(10mm),生猪存栏量(万口),化肥施用量(万公斤),水稻播种面积(万亩)。b.因变量:水稻总产量(万公斤)此模型中样本数是18,自由变量是4个,故该模型的F统计量服从F(4,13),由此查表得到临界值F(4,13)=3.18,由上表可知本模型的F值是36.355.大于临界值,故拒绝原假设,认为回归方程显著,即模型通过方程的显著性检验。3.3.3参数的显著性检验—T检验,显著性水平为0.05表5系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-160.312410.391-.391.702水稻播种面积(万亩)1.8782.836.105.662.519化肥施用量(万公斤)1.284.379.5293.391.005生猪存栏量(万口)2.090.885.3702.361.034降水量(10mm).483.359.1241.343.202a.因变量:水稻总产量(万公斤)此模型中样本是18,自变量个数是4,则该模型各回归系数的T统计量应服从T(13)的分布,查询临界值为1.77,由上表得到的5个回归系数的T的值分别是-0.391、0.662、3.391、2.361、1.343,水稻播种面积降水量T的绝对值小于临界值,化肥施用量和生猪存栏量大雨临界值,这些模型可能存在多重共线性,下面将进行该模型是否存在多重共线性检验。4、多重共线性分析由以下三种方法均能看出该模型是否存在多重共线性。A、变量间的相关分析表6相关性相关性水稻播种面积(万亩)化肥施用量(万公斤)生猪存栏量(万口)降水量(10mm)水稻总产量(万公斤)水稻播种面积(万亩)Pearson相关性1.774**.782**.280.839**显著性(双侧).000.000.260.000N1818181818化肥施用量(万公斤)Pearson相关性.774**1.826**-.026.913**显著性(双侧).000.000.917.000N1818181818生猪存栏量(万口)Pearson相关性.782**.826**1-.008.889**显著性(双侧).000.000.974.000N1818181818降水量(10mm)Pearson相关性.280-.026-.0081.136显著性(双侧).260.917.974.589N1818181818水稻总产量(万公斤)Pearson相关性.839**.913**.889**.1361显著性(双侧).000.000.000.589N1818181818**.在.01水平(双侧)上显著相关。上表中每一横隔的第一行构成了解释变量间的相关系数矩阵,相关系数汇总如下:水稻播种面积(万亩)化肥施用量(万公斤)生猪存栏量(万口)降水量(10mm)水稻总产量(万公斤)水稻播种面积(万亩)1.774**.782**.280.839**化肥施用量(万公斤).774**1.826**-.026.913**生猪存栏量(万口).782**.826**1-.008.889**降水量(10mm).280-.026-.0081.136水稻总产量(万公斤).839**.913**.889**.1361由上图可以看出,水稻播种面积与化肥施用量、生猪存栏量三者之间的相关关系明显,这表明模型存在共线性。B、共线性诊断第2个特征值,水稻播种面积与化肥施用量发生了多重共线性,第3个特征值化肥施用量和降水量发生了多重共线性,降水量和所有的自变量多重共线性。C、通过各自变量的方差膨胀因子来判断共线性诊断a模型维数特征值条件索引方差比例(常量)水稻播种面积(万亩)化肥施用量(万公斤)生猪存栏量(万口)降水量(10mm)114.3831.000.00.00.00.00.012.4863.003.00.00.22.00.033.1136.238.00.00.05.01.714.01815.426.00.00.52.82.015.000204.5081.001.00.20.17.24a.因变量:水稻总产量(万公斤)容差在0—1之间变化,越接近0说明共线性越强,越接近1说明共线性越弱。方差膨胀因子VIF,VIF越接近1说明共线性越弱,VIF大于10,说明自变量之间存在严重的多重共线性。系数a模型非标准化系数标准系数tSig.共线性统计量B标准误差试用版容差VIF1(常量)-160.312410.391-.391.702水稻播种面积(万亩)1.8782.836.105.662.519.2504.002化肥施用量(万公斤)1.284.379.5293.391.005.2593.860生猪存栏量(万口)2.090.885.3702.361.034.2573.898降水量(10mm).483.359.1241.343.202.7411.350a.因变量:水稻总产量(万公斤)自变量的VIF都是小于10的,但是水稻播种面积,化肥施用量,生猪存栏量容差接近1,说明共线性强。5、自相关分析模型汇总b模型RR方调整R方标准估计的误差Durbin-Watson1.958a.918.89326.127802.705a.预测变量:(常量),降水量(10mm),生猪存栏量(万口),化肥施用量(万公斤),水稻播种面积(万亩)。b.因变量:水稻总产量(万公斤)该模型样本个数是18,解释变量是4,显著水平为0.05,此模型的DW=2.705,查到临界值Dl=0.82Du=1.87,DW处于不确定区间,无法用DW检验检验。6、逐步修正法对模型进行逐步回归,得到下图:系数a模型非标准化系数标准系数tSig.共线性统计量B标准误差试用版容差VIF1(常量)221.68410.56120.991.000化肥施用