1/29实验四相关分析与回归分析【实验项目】419023003-04【实验目的与要求】1、掌握利用SPSS软件进行简单相关分析,偏相关分析的基本方法2、掌握利用SPSS软件进行回归分析的基本方法,包括一元线性回归分析,多元线性回归分析,非线性回归分析(曲线估计)【实验内容】1、相关分析2、偏相关分析3、一元线性回归分析4、多元线性回归分析5、非线性回归分析【实验步骤】SPSS中的相关分析功能在【分析】→【相关】中实现(图4.1),可以进行“双变量相关分析”、“偏相关分析”和“距离分析”。图4.1“相关分析”功能菜单双变量相关分析用于进行两个/多个变量间的参数/非参数相关分析,主要用于分析两个变量之间是否存在相关关系,如果是多个变量,则给出两两相关的分析结果。这是相关分析最为常用功能,占到相关分析的95%以上。下面的讲述也以该过程为主。双变量相关分析中,Person相关系数用于度量定距连续变量间的相关性,如测度收入和储蓄,身高和体重的关系:12211()()()()niiixynniiiixxyyrxxyy===--=--å邋2/29Kendalltau-b相关系数则用非参数检验方法来度量定序变量间的线性相关关系,如计算基于数据的秩:其中V为利用变量的秩计算得到的非一致对数目。Spearman等级相关系数用于度量定序变量间的相关性,如军队教员的军衔与职称。一般情况下选择Person相关系数。偏相关分析如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。距离相关分析对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。在进行相关分析的过程中还可以计算均数和标准差等基本统计量。一、相关分析为了估计山上积雪溶化后对河流下游灌溉的影响,在山上建立观测站,测得连续10年的最大积雪深度和灌溉面积数据(表4.1)。本实验应用SPSS相关分析方法分析最大积雪深度与灌溉面积之间的关系。表4.1连续10年的最大积雪深度和灌溉面积年份最大积雪深度(米)灌溉面积(千亩)197115.228.6197210.419.3197321.240.5197418.635.6197526.448.9197623.445.0197713.529.2197816.734.1197924.046.7198019.137.4操作步骤1、在Excel中录入表4.1数据。21261(1)niixydrnn==--å41(1)xyVrnn=--3/29图4.1Excel中录入的数据2、启动SPSS,打开在Excel中录入的数据(图4.2)。图4.2SPSS打开Excel中录入的数据3、【分析】→【相关】→【双变量…】,在弹出的“双变量相关”对话框(图4.3)中,将左边栏三个变量中的“最大积雪深度”与“灌溉面积”两个变量通过图示中的箭头输入到右边栏“变量”列表框中。相关系数选择“Pearson”,显著性检验选择“双侧检验”,选中标记显著性相关后,在0.05水平显著的相关系数用单个星号“*”标识,在0.01水平显著的相关系数用两个星号“**”标识。如果不选择此项,则相关系数检验的显著性不用星号“*”标识。图4.3“双变量相关”对话框中相应选项4、单击“双变量相关”对话框中右边“选项”按钮,弹出“双变量相关性:选项”对4/29话框(图4.4),选中统计量中两个选择项,缺失值选择默认。点击“继续”按钮,回到“双变量相关”对话框(图4.3右),点击“确定”。图4.4“双变量相关性:选项”对话框5、在弹出的输出窗口中,左边栏是输出内容列表(图4.5),右边栏是相关内容的详细信息,其中描述性统计量和相关性以表格的形式给出(表4.2、表4.3)。双击这两张表格可以对其进行修改。从表4.3可以看出两个变量的相关系数0.989,在0.01水平(双侧)上显著相关。图4.5输出内容列表表4.2描述性统计量均值标准差N最大积雪深度(米)18.8505.031510灌溉面积(千亩)36.5309.219310表4.3相关性最大积雪深度(米)灌溉面积(千亩)最大积雪深度(米)Pearson相关性1.989**显著性(双侧).000平方与叉积的和227.845413.065协方差25.31645.896N1010灌溉面积(千亩)Pearson相关性.989**1显著性(双侧).000平方与叉积的和413.065764.9615/29协方差45.89684.996N1010**.在.01水平(双侧)上显著相关。二、偏相关分析某农场通过试验取得某农作物产量与春季降雨量和平均气温的数据,如表4.4所示。在研究早稻产量与平均降雨量、平均气温之间的关系时,产量和平均降雨量之间的关系中实际还包含平均气温对产量的影响,同时平均降雨量对平均气温也会产生影响。因此,单纯计算简单相关系数,显然不能准确地反映事物之间的相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。现以表4.4中数据为例求降雨量对产量的偏相关。表4.4某农场早稻产量与降雨量和气温之间的关系早稻产量(kg)降雨量(mm)气温(℃)150256230338300451045010513480111145001151655012017580120186001251860013020操作步骤1、在Excel中录入表4.4数据。启动SPSS,打开在Excel中录入的数据。2、【分析】→【相关】→【偏相关…】,在弹出的“偏相关”对话框(图4.3)中,将左边栏三个变量中的“早稻产量”与“降雨量”两个变量通过图示中的箭头输入到右边栏“变量”列表框中,将“平均气温”输入到“控制”列表框中。显著性检验选择“双侧检验”,不选中显示实际显著性水平。图4.6“偏相关”对话框中相应选项6/293、单击右边“选项”按钮,弹出“偏相关:选项”对话框(图4.7),选中统计量中两个选择项,缺失值选择默认。点击“继续”按钮,回到“偏相关”对话框(图4.6),点击“确定”。图4.7“偏相关:选项”对话框4、在弹出的输出窗口中,左边栏是输出内容列表(图4.8),右边栏是相关内容的详细信息,其中描述性统计量和相关性以表格的形式给出(表4.5、表4.6)。双击这两张表格可以对其进行修改。根据有无控制变量,表4.6分为两部分,当无控制变量时,得到的实际上就是三个变量两两之间的双变量相关系数(即Pearson相关系数),在0.01水平上显著相关;当将“平均气温”作为控制变量时,早稻产量与降雨量之间的偏相关系数为0.780,在0.05水平上显著相关。图4.8输出内容列表表4.5描述性统计量均值标准差N早稻产量444.00161.87810降雨量92.9041.27310平均气温14.004.690107/29表4.6相关性控制变量早稻产量(kg)降雨量(mm)气温(℃)-无-a早稻产量(kg)相关性1.000.981**.986**降雨量(mm)相关性.981**1.000.957**气温(℃)相关性.986**.957**1.000气温(℃)早稻产量(kg)相关性1.000.780*降雨量(mm)相关性.780*1.000a.单元格包含零阶(Pearson)相关。**.在0.01水平上显著相关*.在0.05水平上显著相关三、一元线性回归分析操作步骤仍以表4.1数据为例说明建立一元线性回归模型的方法。1、在Excel中录入表4.1数据。启动SPSS,打开在Excel中录入的数据。2、作散点图与线性趋势判定2.1【图形】→【旧对话框】→【散点/点状…】(图4.9)。图4.9“散点/点状”命令2.2在弹出的“散点图/点图”对话框中选择“简单分布”(图4.10),点击“定义”。8/29图4.10“散点图/点图”对话框2.3在弹出的“简单散点图”对话框(图4.11)中,设置X轴、Y轴对应的变量,点击“标题”,在“标题”对话框中输入标题(图4.12),点击“继续”,返回到“简单散点图”对话框(图4.11),点击“确定”。图4.11“简单散点图”对话框图4.12“标题”对话框9/292.4在输出窗口中已绘制出“最大积雪面积与灌溉面积的关系”散点图(图4.13)。图4.13“最大积雪面积与灌溉面积的关系”散点图2.5散点图编辑双击“最大积雪面积与灌溉面积的关系”散点图,通过“图表编辑器”(图4.14左)可以对散点图进行编辑。修改坐标轴左键单击Y轴上的刻度值,单击右键弹出快捷方式,选择“属性窗口”,在弹出的“属性”对话框(图4.14右)中对坐标轴进行修改,在“刻度”选项中将最小值改为0。图4.14“图表编辑器”对话框和坐标轴“属性窗口”10/29修改坐标轴标题单击左键两次(注意:非双击)Y轴标题“灌溉面积千亩”,对其进行修改成“灌溉面积(千亩)”。可以对X轴标题做相应修改。修改图表在散点图上单击右键,选择“属性窗口”,在弹出的图表属性窗口(图4.15)中可以对图表大小、填充和边框和变量进行修改。图4.15图表“属性窗口”修改标记在散点图的标记上单击右键,选择“属性窗口”,在弹出的标记属性窗口(图4.16)中可以对图表大小、标记、花序和变量进行修改。图4.16对标记进行修改添加拟合线在散点图上单击右键,在出现的快捷方式中选择“添加总计拟合线”(图11/294.17),在弹出的拟合线属性窗口(图4.18)中可以对拟合线的宽度、样式、颜色、拟合方法和置信区间进行修改。图4.17“添加总计拟合线”快捷方式图4.18对拟合线进行修改12/29修改图例在散点图右侧图例“R2线性=0.979”上单击右键,在弹出的快捷方式中选择属性窗口(图4.19),在弹出的图例属性窗口(图4.20)中可以对图例的文本布局、文本样式、填充和边框等进行修改。也可以移动图例的位置。图4.19图例修改快捷方式图4.20对图例进行修改通过一系列修改,最后的散点图如图4.21所示,当然也可以对散点图进行不同于图4.21的修改。对散点图的其它要素的修改也可以通过图表编辑器(图4.14左)的菜单和图标等进行修改。图4.21修改后的散点图13/293、回归3.1【分析】→【回归】→【线性…】(图4.22)。图4.22“线性回归”命令3.2定义变量在弹出的“线性回归”对话框(图4.23)中定义因变量(灌溉面积)和自变量(最大积雪面积)。图4.23“线性回归”对话框3.3设置回归选项点击右侧“统计量”按钮,在“线性回归:统计量”对话框(图4.24)中选中回归系数项下的“估计”、残差项下的Durbin-Watson(这一项将给出DW值),其余取默认值,如选中模型拟合度,这一项将给出回归参数。点击“继续”回到“线性回归”对话框(图4.23)。14/29图4.24“线性回归:统计量”对话框点击图4.23右侧的“绘制”按钮,在“线性回归:图”对话框(图4.25)中选中标准化残差图项下选中直方图和和正态概率图。这两项将给出标准残差的频率直方图和及其正态分布的累计概率图。单击“继续”回到“线性回归”对话框(图4.23)。图4.25“线性回归:图”对话框点击图4.23右侧的“保存”按钮,在“线性回归:保存”对话框(图4.26)中选中预测值项下的“未标准化”和残差项下的“未标准化”。这两项将在原始表格数据中加上两列,变量名称分别为“PRE_1”和“RES_1”,对应于通过回归模型计算得到的预测值、预测值与原始值的残差。其它选项可以不管:有些选项是用于多元线性回归或逐步回归的,在一元线性回归中根本用不到;有些选项是用于特定场合保存文件的;还有一些选项只有做更细致的统计分析是才会用上。单击“继续”回到“线性回归”对话框(图4.23)。15/29图4.26“线性回归:保存”对话框3.4回归结果根据前述设定获得的回归结果如图4.27所示,主要包括五个表格(输入/移去的变量、模型汇总、Anova(方差分析Analysi