spss学习第8章

ongjeff2002
4 ℃
2020-01-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第八章SPSS的回归分析1.方法概述线性回归模型侧重考察变量之间的数量变化规律，并通过线性表达式，即线性回归方程，来描述其关系，进而确定一个或几个变量的变化对另一个变量的影响程度，为预测提供科学依据。一般线性回归的基本步骤如下。①确定回归方程中的自变量和因变量。②从收集到的样本数据出发确定自变量和因变量之间的数学关系式，即确定回归方程。③建立回归方程，在一定统计拟合准则下估计出模型中的各个参数，得到一个确定的回归方程。④对回归方程进行各种统计检验。⑤利用回归方程进行预测。8.1SPSS在一元线性回归分析中的应用8.1.1一元线性回归的基本原理2、基本原理当自变量和因变量之间呈现显著的线性关系时，则应采用线性回归的方法，建立因变量关于自变量的线性回归模型。根据自变量的个数，线性回归模型可分为一元线性回归模型和多元线性回归模型一元线性回归模型是在不考虑其他影响因素的条件下，或是在认为其他影响因素确定的情况下，分析某一个因素（自变量）是如何影响因变量的。一元线性回归的经验模型是：式中，表示回归直线在纵轴上的截距，是回归系数，它表示当自变量变动一个单位所引起的因变量的平均变动值。01ˆˆˆyx3.统计检验在求解出了回归模型的参数后，一般不能立即将结果付诸于实际问题的分析和预测，通常要进行各种统计检验，例如拟合优度检验、回归方程和回归系数的显著性检验和残差分析等。这些内容，我们将结合案例来具体讲解。第一步：打开对话框选择菜单栏中的【分析】→【回归】→【线性】命令，弹出【线性回归】对话框，这是线性回归分析的主操作窗口。第二步：选择因变量在【线性回归】对话框左侧的候选变量列表框中选择一个变量，将其添加至【因变量】列表框中，即选择该变量作为一元线性回归的因变量。第三步：选择自变量在【线性回归】对话框左侧的候选变量列表框中选择一个变量，将其添加至【自变量】列表框中，即选择该变量作为一元线性回归的自变量。8.1.2一元线性回归的SPSS操作详解第四步：选择回归模型中自变量的进入方式在【方法】选项组中可以选择自变量的进入方式，一共有五种方法。可单击【自变量】列表框上方的【下一张】按钮，选定的这一组自变量将被系统自动保存于一个自变量块中。接下来选择另一组自变量，单击【下一张】按钮将它们保存于第二个自变量块中。重复上述操作，可以保存若干个自变量块。若需要输出以哪一组变量为自变量的回归方程，可以通过单击【上一张】按钮和【下一张】按钮来选择。第五步：样本的筛选从主对话框的候选变量列表框中选择一个变量，将其移至【选择变量】列表框中，这表示要按照这个变量的标准来筛选样本进行回归分析。具体操作可以在规则窗口中实现。第六步：选择个案标签从候选变量列表框中选择一个变量进入【个案标签】列表框中，它的取值将作为每条记录的标签。这表示在指定作图时，以哪个变量作为各样本数据点的标志变量。第七步：选择加权二乘法变量从候选变量列表框中选择一个变量进入【WLS权重】列表框中，表示选入权重变量进行权重最小二乘法的回归分析。第八步：单击【确定】按钮，结束操作，SPSS软件自动输出结果。执行完上述操作后，可以输出一元线性回归的基本结果报告了。但是线性回归主对话框中还包括了其他功能选项。下面列出了它们的具体使用功能。（1）【统计量】选择输出需要的描述统计量，如图8-2所示。其中，【回归系数】复选框组用于定义回归系数的输出情况，【残差】复选框组用于选择输出残差诊断的信息。估计：可输出回归系数B及其标准误，回归系数的t检验值和概率p值，还有标准化的回归系数beta。置信区间：每个回归系数的95%置信区间。协方差矩阵：方差-协方差矩阵。模型拟合度：模型拟合过程中进入、退出的变量的列表；以及一些有关拟合优度的检验统计量，例如R、R2和调整的R2、估计值的标准误及方差分析表。R方变化：显示每个自变量进入方程后R2、F值和p值的改变情况。描述性：显示自变量和因变量的有效数目、均值、标准差等，同时还给出一个自变量间的相关系数矩阵。部分相关和偏相关性：显示自变量间的相关、部分相关和偏相关系数。共线性诊断：多重共线性分析，输出各个自变量的特征根、方差膨胀因子、容忍度等。Durbin-Watson：残差序列相关性检验。个案诊断：对标准化残差进行诊断，判断有无奇异值。（2）【绘制】：用于选择需要绘制的回归分析诊断或预测图。用户可以根据上图从中选择部分变量作为X（横坐标）和Y（纵坐标）。同时还可以通过单击【下一张】按钮来重复操作过程。绘制更多的图形。DEPENDENT：因变量。*ZPRED：标准化预测值。*ZRESID：标准化残差。*DRESID：剔除的残差。*ADJPRED：调整后的预测值。*SRESID：学生化残差。*SDRESID：学生化剔除残差。选择【标准化残差图】选项，可以选择输出标准化残差图，其中包括以下选项。直方图：标准化残差的直方图。正态概率图：标准化残差的正态概率图(P-P图)，将标准化残差与正态分布进行比较。产生所有部分图：每一个自变量对于因变量残差的散点图。（3）【保存】：将预测值、残差或其他诊断结果值作为新变量保存于当前工作文件或新文件。【预测值】为预测栏，用于选择输出回归模型的预测值。未标准化（U）：未标准化的预测值。标准化（R）：标准化的预测值。调节（J）：经调整的预测值。均值预测值的S.E.（P）：预测值的标准误差。【残差】为残差栏，包含以下选项。未标准化（N）：未标准化残差。标准化（A）：标准化残差。学生化（S）：学生化残差。删除（L）：剔除残差。学生化已删除（E）：学生化剔除残差。【距离】为距离栏，包含以下选项。Mahalanobis距离（H）。Cook距离（K）。杠杆值(G)。【影响统计量】反映剔除了某个自变量后回归系数的变化情况。DfBeta(B)：由排除一个特定的观测值所引起的回归系数的变化。标准化的DfBeta(Z)：标准化的DfBeta值。DfFit（F）：拟合值之差，由排除一个特定的观测值所引起的预测值的变化。标准化DfFit（T）：标准化的DfFit值。协方差比率（V）：带有一个特定的剔除观测值的协方差阵与带有全部观测量的协方差矩阵的比率。【预测区间】为预测区间栏。均值（M）：均值预测区间的上下限。单值(I)：因变量单个观测量的预测区间。置信区间(C)：默认值为95％，所键入的值必须在0~100之间。（4）【选项】：改变用于进行逐步回归时的内部数值的设定以及对缺失值的处理方式。【步进方法标准】为逐步回归标准选择项。使用F的概率（O）：如果一个变量的F显著性水平值小于所设定的进入值，那么这个变量将会被选入方程式中；如果它的F显著性水平值大于所设定的剔除值，那么这个变量将会被剔除。使用F值：如果一个变量的F值大于所设定的进入值，那么这个变量将会被选入方程式中；如果它的F值小于剔除值，那么那么这个变量将会被剔除。在等式中包含常量（I）：选择此项表示在回归方程式中包含常数项。【缺失值】为缺失值处理方式选择项。按列表排除个案（L）：系统默认项，表示剔除所有含缺失值的个案后再进行分析。按队排除个案（P）：剔除当前分析的两个变量值是缺失的个案。使用均值替换（R）：利用变量的平均数代替缺失值。（5）【Bootstrap】：可以进行如下统计量的Bootstrap估计。描述统计表支持均值和标准差的Bootstrap估计。相关性表支持相关性的Bootstrap估计。模型概要表支持Durbin-Watson的Bootstrap估计。系数表支持系数、B的Bootstrap估计和显著性检验。相关系数表支持相关性的Bootstrap估计。残差统计表支持均值和标准差的Bootstrap估计。表8-1中的数据是7大名牌饮料的广告支出（百万美元）与箱销售量（百万）的数据。请利用回归分析来分析广告支出与箱销售量的关系。8.1.3实例分析：广告支出与销售量实例内容现在厂商要研究投入的广告支出与箱销售量之间的关系，则可以建立回归模型来探讨它们之间的关系，即箱销售量=f（广告支出）首先绘制了这两组变量的散点图8-6，图形显示它们呈线性关系，则可以建立一元线性回归模型如下：实例操作（1）移入移出的变量执行完上面的操作后，首先给出的是自变量进入方式表8-2。可以看到回归模型的选入变量是广告支出，采用的自变量进入方式是强行进入法，也就是将所有的自变量都放入模型中。实例结果及分析（2）模型摘要表8-3是对模型的简单汇总，其实就是对方程拟合情况的描述。通过这张表可以知道相关系数的取值，相关系数的平方即可决系数，校正后的可决系数和回归系数的标准误。注意这里的相关系数大小和前面相关分析中计算出的结果完全相同。可决系数的取值介于0和1之间，它的含义就是自变量所能解释的方差在总方差中所占的百分比，取值越大说明模型的效果越好。本案例计算的回归模型中可决系数R2等于0.957，模型拟合效果较好。1.方法概述在回归分析中，如果有两个或两个以上的自变量，就称为多元回归。2.基本原理多元线性回归模型是指有多个自变量的线性回归模型，它用于揭示因变量与多个自变量之间的线性关系。多元线性回归方程的经验模型是：上式中，假设该线性方程有k个自变量。是回归方程的偏回归系数。表示在其他自变量保持不变的情况下，自变量变动一个单位所引起的因变量的平均变动单位。01122ˆˆˆˆˆkkyxxx1,,kxxˆ(1,,)iikˆiixˆi8.2.1多元线性回归的基本原理由于多元线性回归模型是一元回归模型的推广，因此两者在SPSS软件中的操作步骤是非常相似的。选择菜单栏中的【分析】→【回归】→【线性】命令，弹出【线性回归】对话框。这既是一元线性回归也是多元线性回归的主操作窗口。因此，读者可以参考8.1.2节的操作步骤。只不过由于多元回归模型涉及到多个自变量，因此在图8-1中要在【线性回归】对话框左侧的候选变量列表框中选择多个变量，将其添加至【自变量】列表框中，即选择这些变量作为多元线性回归的自变量。8.2.2多元线性回归的SPSS操作详解娱乐时光影剧院公司的老板希望了解公司投放的电视广告费用和报纸广告费用对公司收入的影响。以往8周的样本数据如表8-6所示（单位：千美元）。请建立模型分析这两种广告形式对公司营业收入的影响。8.2.3实例分析：电视广告和报纸广告实例内容本案例要分析电视广告和报纸广告对公司收入的影响，则可以建立二元回归模型来探讨它们之间的关系，即每周营业总收入=f（电视广告费用，报纸广告费用）可以通过比较电视广告和报纸广告变量的系数大小来研究这两种广告形式对收入的影响程度高低。但是，是否收入和广告费用呈线性关系，则首先要绘制散点图来判断。通过三维散点图8-9看到，这三个变量之间呈明显的线性增长关系，因此可以建立营业收入的二元影响回归模型如下：实例操作（1）移入/移去的变量执行完上面的操作后，首先给出的是自变量进入方式表8-7。由于这里的自变量进入方式采用的是系统默认，即强行进入法，可以看到回归模型的选入变量是报纸广告费用和电视广告费用。实例结果及分析（2）模型摘要表8-8给出了衡量该回归方程优劣的统计量。R为复相关系数，它表示模型中所有自变量（tv、newspaper）与因变量income之间的线性回归关系的密切程度大小。它的取值介于0和1之间；R越大说明线性回归关系越密切。可决系数R2等于复相关系数的平方，这里等于0.959。调整的R2为我们要重点关注的统计量；它的值越大，模型拟合效果得越好；表8-8中调整的R2为0.887。最后给出的是剩余标准差，它是残差的标准差，其大小反映了建立的模型预测因变量的精度。剩余标准差越小，说明建立的模型效果越好。（3）方差分析表表8-9是对回归模型进行方差分析的检验结果。可以看到方差分析结果中F统计量等于28.378，概率P值0.002小于显著性水平0.05，所以该模型是有统计学意义的，即两种广告支出费用和每周营业收入之间的线性关系是显著的。（4）回归系数表