SPSS回归分析回归分析简介探察变量之间的数量变化规律,并通过一定的数学表达式来描述这种关系,进而确定一个或几个变量的变化对另一个变量的影响程度回归分析是研究变量间统计关系的方法。侧重考察回归分析的类型因变量与自变量都是定量变量的回归分析回归分析因变量是定量变量,自变量中有定性变量的回归分析含有哑变量的回归分析因变量是定性变量的回归分析Logistic回归分析Logistic回归分析一元线性回归分析一元线性回归(简单线性回归):研究两个变量间的统计关系。应用例子某高档消费品的销量与城镇居民收入储蓄额与居民收入。工业产值与用电量。某只股票的收益率和大盘指数的收益率企业的利润率和资产商品的销量和广告投入一元线性回归分析一元线性回归模型通过一定数量的样本观测值,用最小二乘法求解出回归方程但是只有当满足一定的假设条件下,样本数据的最小二乘估计才是总体参数的最佳无偏估计。一元线性回归分析回归模型的进一步说明又称偏回归系数partialregressioncoefficient,简称回归系数。表示其它变量不变,x变化时所预测y的平均变化率一元线性回归分析回归方程的假定条件正态性假定零均值假定等方差假定独立性假定以上假定条件全部满足时,回归方程才有意义一元线性回归分析正态性假设:要求总体误差项服从正态分布。如果违反这一假设则最小二乘估计不再是最佳无偏估计,不能进行区间估计。(如果不涉及假设检验和区间估计,则此假定可以忽略)零均值性:即在自变量取一定值的条件下,其总体各误差项的条件平均值为零。如果违反这一假设则由最小二乘估计得到的估计不再是无偏估计等方差性:即在自变量取一定值的条件下,其总体各误差项的条件方差为一常数。如果违反这一假设则最小二乘估计不再是有效估计,不能进行区间估计独立性假设:误差项之间相互独立(不相关),误差项与自变量之间应相互独立如果违反这一假设则误差项之间可能出现序列相关,最小二乘估计不再是有效估计。回归分析Analyze-Regression可实现:线性回归:简单线性回归和多元线性回归,由Linear过程实现分类变量为因变量的回归二项Logistic回归多项Logistic回归Ordinal回归Probit回归非线性回归曲线估计非线性估计权重估计两阶最小二乘最优尺度回归分析分析步骤做出散点图观察变量间的趋势。多个变量则做出散点图矩阵、重叠散点图和三维散点图考察数据的分布,做必要的预处理分析变量的正态性和方差齐等问题。进行直线回归分析残差分析,检查残差的独立性和正态性强影响点的诊断和多重共线性问题的判断回归分析常用指标偏回归系数:反映相应一个自变量上升一个单位时,应变量取值的变动情况决定系数R2即相应的相关系数的平方,用R2表示。反映应变量y的全部变异中能够通过回归关系被自变量解释的比例。R2越接近1越好。多元回归时,决定系数缺乏可靠性,此时可参考调整的决定系数R2回归分析回归直线意义的F检验统计量F=平均回归平方和/平均残差平方和。若F值过小说明自变量对因变量的解释力度很差,拟合的回归直线没有意义,相反若概率值(SPSS中以sig表示,越小越好)残差的独立性检验Durbin-Watson检验的参数D的取值范围是0D4,与2越接近表示残差与自变量越独立。见下图回归分析-SPSS实现一元回归分析引例研究我国31个省市自治区的人均食品支出与人均收入的依存关系,数据见“人均食品支出.sav”回归分析-SPSS实现Regression-LinearDependent:人均食品支出,Independent(s):人均收入设置Statistics,Plot选项回归分析-SPSS实现部分输出结果常数项的检验结果是其影响不显著的,所以需要进一步改善模型,考虑建立不含常数项的回归方程回归分析-SPSS实现不含常数项的回归模型的部分输出结果回归诊断诊断模型:残差分析残差分析用于判断你对模型的假定是否符合:线性关系;误差项等方差;误差项相互独立;误差项正态分布;还可以检测出异常值和有影响的点回归分析-SPSS实现残差分析结果回归分析-SPSS实现回归诊断-异常值探查SPSS中设定和检测异常值Regression-Linear-StatisticsResiduals-Casediagnostics:设定超过几倍标准差的观测作为异常值(Outliersoutsidenstandarddeviations)残差散点图回归诊断-异常值探查以数据”人均食品支出.sav“,为例,进行异常点检Regression-Linear-StatisticsResiduals-casediagnostics,并选中outlieroutside….,填入2Plots:Scatter:ZRESID-Y,ZPRED-X,做残差与预测值的散点图回归分析-异常值探查输出结果线性模型意味什么?因变量和自变量?事实上,只要系数之间是线性组合的,并可通过变换可转换为线性方程的,都可尝试用线性模型进行拟合一般线性模型的假设一般线性模型潜在的一些假设回归方程具有特定的形式。例如,因变量表示为截距、自变量的线性组合,及残差的和。不满足这一假设,可能原因忽略了重要的自变量包含了不相关的自变量非线性-因变量和自变量之间的关系是非线性的变动的参数-数据收集期间,方程中参数不是常数非可加性-自变量中某个给定变量的影响是附随着其它变量的残差为零均值。违反该假设,易导致截距的有偏估计一般线性模型的假设残差不是自相关的所有自变量都是非随机的观测数大于未知系数在解释变量之间不存在确切的线性关系练习数据:world95.sav目的:利用生育率(fertility)预测妇女的平均预期寿命(lifeexpf)要求:探索性分析两个变量,探察两个变量中是否存在异常点?您获得的对两个变量的哪些认识?做两个变量的散点图,建立两个变量的线性回归模型,是否合理呢?利用生育率来预测妇女的预期寿命。并设置相关选项,以进一步检验关于线性回归的一些假定此数据满足吗?并进行回归诊断,对模型的系数进行解释。从输出结果,您是否可以得出如果妇女多要一个小孩对她的寿命有多大影响吗?练习数据:waste.sav要求:提出有意义的问题有时比解决问题更重要利用学过的统计方法,看看您能够进行哪些分析,从各种分析中,您能够得出哪些有意义的结论多元线性回归分析多元回归分析研究多个变量间的关系,因变量如何受到多个自变量的影响,用多个自变量预测因变量的值多元线性回归是研究多个变量间因果关系的常用方法之一多个变量中有一个是因变量。其它的变量都是自变量,个数在两个以上每个自变量和因变量之间的关系都是线性的例:超市中商品的价格、摆放位置、促销手段如何影响销售量;如何用客户的个人资料(职业、收入、家庭成员人数、婚姻状况、是否有抵押等)进行信用预测;连锁旅店的利润主要受哪些因素影响;宏观经济指标预测多元线性回归分析多元线性回归的方程为偏回归系数表示在其它变量保持不变的情况下,自变量变动一个单位所引起的因变量y的平均变动。回归方程的显著性检验(模型拟合效果的检验)自变量的筛选多重共线性问题影响点的探察βββ12p、、βi多元线性回归分析-方程的检验认识总变差的分解:判定系数:多重相关系数R调整(修正)的判定系数:−−−=−−×22111(1)nnpAdjRR=2/RSSRSST2R=+SSTSSRSSE多元线性回归分析-方程的检验问题:因变量和所有自变量的集合之间的线性关系是否显著?检验假设:利用F统计量,构造F统计量及拒绝域结论βββ====L012:0pHα−−==−−//(1)(,1)SSRpMSRMSESSEnpFFpnp多元线性回归分析-回归系数的检验目的:检验每个自变量对因变量的线性影响是否显著检验假设:利用t检验,构造t统计量及拒绝域结论ββ=≠01:0:0iiHH多元线性回归分析-自变量筛选自变量筛选的目的多元回归分析引入多个自变量。如果引入的自变量个数较少,则不能很好的说明因变量的变化;并非自变量引入越多越好有些自变量可能对因变量的解释没有贡献,留在模型中的自变量应该是对因变量的变化贡献较大的变量自变量间可能存在较强的线性关系,即:多重共线性,因而不能全部引入回归方程多重共线性问题多元线性回归分析-自变量筛选自变量筛选方法全回归法-Enter向前删除法-Forward向后删除法-Backward逐步回归法-Stepwise强迫剔除法-Remove多元线性回归分析-SPSS实现例:一汽车工业集团跟踪调查了其不同车型的销售情况,该集团希望建立合理的模型,以期发现不同类型的车型与销售额的关系,以探察影响销售额的模型car_sales.savSPSS实现:Analyze-Regression-LinearLog-transformedsales-Dependent(这是一种经验做法,因为对数销售额比销售额更接近正态分布)Vehicletype[type]…Fuelefficiency(mpg)-Independent(s)Statistics选项:Estimates,Modelfit以上设置,将建立Vehicletype[type]…Fuelefficiency(mpg)等10个变量为自变量,对数销售额为因变量的多元回归模型多元线性回归分析-SPSS实现输出结果:见下面的方程分析表从模型的F检验的结果来看,方程是有意义的。从以上R2看出,模型解释了对数销售额近一半的变差多元线性回归分析-SPSS实现近一步分析,我们希望找出哪些自变量对销售额的影响更大?可以通过标准化系数的绝对值大小,衡量哪个变量对因变量的影响最大通过标准化系数估计值,可以看出Priceinthousands对数销售额的影响较VehicleType大多元线性回归分析-SPSS实现尽管从以上的输出结果,模型看似较好,但是从下表我们发现……偏回归系数中有很多是非显著的,表明它们相应的自变量可能对销售额并没有显著影响,因此模型中引入这些变量并没有什么实际意义!多重共线性问题出现上述矛盾结果的原因是什么呢?以上的现象正是我们在多元回归中必须关注的多重共线性问题在多元线性回归模型中,多重共线性(Muticollinearity)是指自变量之间存在线性相关的关系多重共线性存在时会使得系数估计的标准误差增大,从而使得模型的预测精度会大大地降低。我们将无法确定任一自变量对因变量的单独影响。单个系数的符号可能与实际不符多重共线性问题多重共线性的标志R平方较大但没有几个显著的t统计量,预示着多重共线性的存在。实际上,有可能回归方程的F统计量高度显著,而每个t统计量不显著一对或多对解释变量的简单相关系数相对比较高可能意味着多重共线的存在例:从前面的多重回归分析的模型的输出结果,我们已经看到模型整体是显著的,但是对于模型系数的检验却表明,很多变量对Sales的影响并非显著。表明前面所建立的模型很可能存在共线性的问题识别多重共线性SPSS提供了多种共线性的诊断方法,包括:容限法、方差膨胀因子法、特征值方法和方差比例法相关说明:容限(容差):即某一自变量不能被其它变量解释的变差占其总变差的百分比。因此容限越小表明该变量与其它变量的相关性越强方差膨胀因子(VarianceInflationFactors,简记作VIF):刻画了相比多重共线性不存在时回归系数估计的方差增大了多少。VIF越大说明多重共线性问题越严重。其中是自变量关于模型中其余自变量线性回归模型的。称为容限经验法则:VIF10==−2111jjjVIFRTOL2jRjx2RjTOL识别多重共线性特征值法当有的特征值接近于0时,表明变量间具有高度的相关性,数据值的改变