SPSS学习系列27回归分析

wenx18r
2 ℃
2020-01-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

27.回归分析回归分析是研究一个或多个变量（因变量）与另一些变量（自变量）之间关系的统计方法。主要思想是用最小二乘法原理拟合因变量与自变量间的最佳回归模型（得到确定的表达式关系）。其作用是对因变量做解释、控制、或预测。回归与拟合的区别：拟合侧重于调整曲线的参数，使得与数据相符；而回归重在研究两个变量或多个变量之间的关系。它可以用拟合的手法来研究两个变量的关系，以及出现的误差。回归分析的步骤：（1）获取自变量和因变量的观测值；（2）绘制散点图，并对异常数据做修正；（3）写出带未知参数的回归方程；（4）确定回归方程中参数值；（5）假设检验，判断回归方程的拟合优度；（6）进行解释、控制、或预测。（一）一元线性回归一、基本原理一元线性回归模型：Y=𝛽0+𝛽1X+ε其中X是自变量，Y是因变量，𝛽0,𝛽1是待求的未知参数，𝛽0也称为截距；ε是随机误差项，也称为残差，通常要求ε满足：①ε的均值为0；②ε的方差为𝜎2；③协方差COV(εi,εj)=0，当i≠j时。即对所有的i≠j,εi与εj互不相关。二、用最小二乘法原理，得到最佳拟合效果的01ˆˆ,值：1121()()ˆ()niiiniixxyyxx，01ˆˆyx三、假设检验1.拟合优度检验计算R2，反映了自变量所能解释的方差占总方差的百分比，值越大说明模型拟合效果越好。通常可以认为当R2大于0.9时，所得到的回归直线拟合得较好，而当R2小于0.5时，所得到的回归直线很难说明变量之间的依赖关系。2.回归方程参数的检验回归方程反应了因变量Y随自变量X变化而变化的规律，若𝛽1=0，则Y不随X变化，此时回归方程无意义。所以，要做如下假设检验：H0:𝛽1=0,H1:𝛽1≠0；（1）F检验若𝛽1=0为真，则回归平方和RSS与残差平方和ESS/(N-2)都是𝜎2的无偏估计，因而采用F统计量：来检验原假设β1=0是否为真。（2）T检验对H0:𝛽1=0的T检验与F检验是等价的（t2=F）。3.用回归方程做预测得到回归方程01ˆˆˆYX后，预测X=x0处的Y值0010ˆˆˆyx.0ˆy的预测区间为：其中tα/2的自由度为N-2.二、实例例1有30名儿童棒球选手的数据：变量Height表示“击球高度”，Distance表示“球飞出的距离”，用回归分析研究球飞出的距离与击球高度的关系。1.【分析】——【回归】——【线性】，打开“线性回归”窗口，将变量“Distance”选入【因变量】框，“Height”选入【自变量】框；注：【选择变量+规则】：可以对某个变量，只对满足某条件的个案做回归分析；【WLS权重】：可选择加权变量进行加权最小二乘法的回归分析；2.点【统计量】，打开“统计量”子窗口，勾选【回归系数】下的“估计”、“置信区间”，勾选【残差】下的“Durbin-Watson”，勾选“模型拟合度”、“描述性”；点【继续】；3.【保存】可选项点【保存】，打开“保存”子窗口，【预测值】给出用回归方程计算的预测值；勾选“未标准化”，【残差】给出做残差分析模型诊断用的各种残差，勾选“标准化”；将在原数据上增加两列PRE_1和ZRE_1分别存储预测值和残差值；点【继续】；点【确定】，得到描述性统计量均值标准偏差N球飞出的距离130.7311.19430击球高度48.972.37130相关性球飞出的距离击球高度Pearson相关性球飞出的距离1.000.613击球高度.6131.000Sig.（单侧）球飞出的距离..000击球高度.000.N球飞出的距离3030击球高度3030给出了两个变量的相关性描述，相关系数为0.613.输入／移去的变量a模型输入的变量移去的变量方法1击球高度b.输入a.因变量:球飞出的距离b.已输入所有请求的变量。选入回归模型的变量以及剔除的变量，本例只有一个自变量。模型汇总b模型RR方调整R方标准估计的误差Durbin-Watson1.613a.376.3539.0011.569a.预测变量:(常量),击球高度。b.因变量:球飞出的距离模型的R2反映了自变量所能解释的方差占总方差的百分比，值越大说明模型拟合效果越好，本例R2=0.376，说明线性回归关系并不强，球飞出的距离可能还和其它因素如选手的年龄、经验有关。Durbin-Watson检验值=1.569，说明残差基本上是独立的（靠近2说明误差基本上是独立的，小于2说明是正相关。Anovaa模型平方和df均方FSig.1回归1365.50811365.50816.855.000b残差2268.3582881.013总计3633.86729a.因变量:球飞出的距离b.预测变量:(常量),击球高度。回归模型的F检验，原假设H0：回归系数=0；本例P值0.0010.05,故拒绝原假设H0,即回归系数不为0.注：对一元线性回归模型，由于T值=F值的平方根，故T检验与F检验是等价的。系数a模型非标准化系数标准系数tSig.B的95.0%置信区间B标准误差试用版下限上限1(常量)-11.00934.564-.319.752-81.80959.792击球高度2.895.705.6134.106.0001.4504.339a.因变量:球飞出的距离给出回归方程的常数项、回归系数的估计值及置信区间，以及检验结果（原假设H0：其值=0），得到回归方程：Distance=-11.009+2.895*Height斜率2.895的t检验P值=0.00030.05，说明该结果在显著水平α下有统计学意义；但截距的t检验结果并不显著。残差统计量a极小值极大值均值标准偏差N预测值119.25142.41130.736.86230残差-23.72420.276.0008.84430标准预测值-1.6731.701.0001.00030标准残差-2.6362.253.000.98330a.因变量:球飞出的距离（二）多元线性回归一、基本原理多元线性回归模型：Y=𝛽0+𝛽1X1+…+𝛽NXN+ε其中X1,…,XN是自变量，Y是因变量，𝛽0,𝛽1…,𝛽N是待求的未知参数，ε是随机误差项（残差），若记多元线性回归模型可写为矩阵形式：Y=Xβ+ε通常要求：矩阵X的秩为k+1（保证不出现共线性）,且kN;ε为正态分布，E(ε)=0和E(εε’)=𝜎2I错误!未定义书签。，其中I为N×N单位矩阵。用最小二乘法原理，令残差平方和最小，得到为β的最佳线性无偏估计量（高斯－马尔可夫定理）。2.𝜎2的估计和T检验选取𝜎2的估计量：则假如t值的绝对值相当大，就可以在适当选定的置信水平上否定原假设，参数的1-α置信区间可由下式得出：其中tα/2为与α%显著水平有关的t分布临界值。3.R2和F检验若因变量不具有0平均值，则必须对R2做如下改进：随着模型中增添新的变量，R2的值必定会增大，为了去掉这种增大的干扰，还需要对R2进行修正（校正拟合优度对自由度的依赖关系）：22/(1)111(1)/(1)1ESSNkNRRTSSNNk做假设检验：H0:𝛽1=…=𝛽N=0;H1:𝛽1…,𝛽N至少有一个≠0；使用F统计量做检验，若F值较大，则否定原假设。4.回归诊断（1）残差图分析残差图就是以残差ˆˆyy为纵坐标，某一个合适的自变量为横坐标的散点图。回归模型中总是假定误差项是独立的正态分布随机变量，且均值为零和方差相等为𝜎2.如果模型适合于观察到的数据，那么残差作为误差的无偏估计，应基本反映误差的假设特征。即残差图应该在零点附近对称地密布，越远离零点的地方就疏散（在形象上似有正态趋势），则认为模型与数据拟合得很好。若残差图呈现如图（a）所示的形式，则认为建立的回归模型正确，更进一步再诊断“学生化残差”是否具有正态性：图（b）表明数据有异常点，应处理掉它重新做回归分析（在SAS的REG回归过程步中用来度量异常点影响大小的统计量是COOKD统计量）；图（c）残差随x的增大而增大，图（d）残差随x的增大而先增后减，都属于异方差。此时应该考虑在回归之前对数据y或x进行变换，实现方差稳定后再拟合回归模型。原则上，当误差方差变化不太快时取变换y；当误差方差变化较快时取变换logy或lny；当误差方差变化很快时取变换1/y；还有其他变换，如著名的Box-Cox幂变换1y.图（e）（f）表示选用回归模型是错误的。（2）共线性回归分析中很容易发生模型中两个或两个以上的自变量高度相关，从而引起最小二乘估计可能很不精确（称为共线性问题）。在实际中最常见的问题是一些重要的自变量很可能由于在假设检验中t值不显著而被不恰当地剔除了。共线性诊断问题就是要找出哪些变量间存在共线性关系。（3）误差的独立性回归分析之前，要检验误差的独立性。若误差项不独立，那么回归模型的许多处理，包括误差项估计、假设检验等都将没有推导依据。由于残差是误差的合理估计，因此检验统计量通常是建立在残差的基础上。检验误差独立性的最常用方法，是对残差的一阶自相关性进行Durbin-Watson检验。H0:误差项是相互独立的;H1:误差项是相关的检验统计量：DW接近于0，表示残差中存在正自相关；如果DW接近于4，表示残差中存在负自相关；如果DW接近于2，表示残差独立性。二、实例例2有31位成年人心肺功能的调查数据：用多元线性回归模型，研究耗氧量的是如何依赖其它变量的。1.【分析】——【回归】——【线性】，打开“线性回归”窗口，将变量“Oxygen”选入【因变量】框，将变量“age”、“weight”、“runtime”、“rstpulse”、“runpulse”、“Maxpulse”选入【自变量】框；【方法】下拉菜单选择“向后”；注：多元线性回归涉及到自变量的筛选，SPSS提供了5种筛选方法：（1）进入法——选入【自变量】框的自变量都加入模型；（2）向前法——先将部分自变量加入模型，再逐个添加其它变量，若自变量对模型有统计学意义的影响则加入（只进不出）；（3）向后法——先把全部自变量加入模型，若自变量对模型无统计学意义的影响则剔除（只出不进）；（4）逐步回归法——综合“向前法”和“向后法”逐个引入自变量；（5）删除法——规定为删除的自变量被强制剔除出模型，运行结果会给出若将其引入的参数估计和检验结果（做对比时用）。2.点【统计量】打开“统计量”子窗口，勾选【回归系数】的“估计”；勾选【残差】的“Durbin-Watson”（残差独立性检验）；勾选“模型拟合度”、“R方变化”、“部分相关和偏相关性”、“共线性诊断”；点【继续】；注：多元线性回归要求变量基本相互独立，所以有必要进行共线性诊断，若有共线性将对结果造成较大误差。3.用【图形】进行残差独立性检验。点【绘制】，打开“图”子窗口，勾选【标准化残差图】的“直方图”、“正态概率图”；残差的方差齐性，可用回归标准化残差图考察：将“ZPRED”（标准化预测值）选入【X2(X)】框，将“ZRESID”（标准化残差）选入【Y(Y)】框；点【继续】；注意：若自变量与因变量的关系并非线性、残差方差不齐、变量间不独立，都会导致残差的直方图、正态概率图非正态性。4.点【选项】，打开“选项”子窗口，设置选入或剔除变量的标准，以及回归模型是否保留常数项，默认设置即可。5.若需要将回归分析的结果存储起来，然后用得到的残差、预测值等做进一步的分析。点【保存】，打开“保存”子窗口，设置想要保存的预测值、残差、距离、波动统计量等；点【继续】；点【确定】，得到先看共线性诊断结果：系数a模型非标准化系数标准系数tSig.共线性统计量B标准误差试用版容差VIF1(常量)102.23812.4538.210.000年龄-.220.100-.215-2.208.037.6671.499体重-.072.055-.113-1.324.198.8671.154跑15英里的时间-2.681.375-.698-7.150.000.6641.505休息时每分钟心跳次数-.001.059-.001-.014.989.7601.316跑步时