8.1.1一元线性回归的基本原理1.方法概述线性回归模型侧重考察变量之间的数量变化规律,并通过线性表达式,即线性回归方程,来描述其关系,进而确定一个或几个变量的变化对另一个变量的影响程度,为预测提供科学依据。一般线性回归的基本步骤如下。①确定回归方程中的自变量和因变量。②从收集到的样本数据出发确定自变量和因变量之间的数学关系式,即确定回归方程。③建立回归方程,在一定统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。④对回归方程进行各种统计检验。⑤利用回归方程进行预测。2、基本原理当自变量和因变量之间呈现显著的线性关系时,则应采用线性回归的方法,建立因变量关于自变量的线性回归模型。根据自变量的个数,线性回归模型可分为一元线性回归模型和多元线性回归模型一元线性回归模型是在不考虑其他影响因素的条件下,或是在认为其他影响因素确定的情况下,分析某一个因素(自变量)是如何影响因变量的。一元线性回归的经验模型是:式中,表示回归直线在纵轴上的截距,是回归系数,它表示当自变量变动一个单位所引起的因变量的平均变动值。01ˆˆˆyx3.统计检验在求解出了回归模型的参数后,一般不能立即将结果付诸于实际问题的分析和预测,通常要进行各种统计检验,例如拟合优度检验、回归方程和回归系数的显著性检验和残差分析等。这些内容,我们将结合案例来具体讲解。Step01:打开对话框选择菜单栏中的【Analyze(分析)】→【Regression(回归)】→【Linear(线性)】命令,弹出【LinearRegression(线性回归)】对话框,这是线性回归分析的主操作窗口。Step02:选择因变量在【LinearRegression(线性回归)】对话框左侧的候选变量列表框中选择一个变量,将其添加至【Dependent(因变量)】列表框中,即选择该变量作为一元线性回归的因变量。Step03:选择自变量在【LinearRegression(线性回归)】对话框左侧的候选变量列表框中选择一个变量,将其添加至【Independent(s)(自变量)】列表框中,即选择该变量作为一元线性回归的自变量。Step04:选择回归模型中自变量的进入方式在【Method(方法)】选项组中可以选择自变量的进入方式,一共有五种方法。可单击【Independent(s)(自变量)】列表框上方的【Next】按钮,选定的这一组自变量将被系统自动保存于一个自变量块(Block)中。接下来选择另一组自变量,单击【Next】按钮将它们保存于第二个自变量块中。重复上述操作,可以保存若干个自变量块。若需要输出以哪一组变量为自变量的回归方程,可以通过单击【Previous】按钮和【Next】按钮来选择。Step05:样本的筛选从主对话框的候选变量列表框中选择一个变量,将其移至【SelectionVariable(选择变量)】列表框中,这表示要按照这个变量的标准来筛选样本进行回归分析。具体操作可以在Rule窗口中实现。Step06:选择个案标签从候选变量列表框中选择一个变量进入【CaseLabels(个案标签)】列表框中,它的取值将作为每条记录的标签。这表示在指定作图时,以哪个变量作为各样本数据点的标志变量。Step07:选择加权二乘法变量从候选变量列表框中选择一个变量进入【WLSWeigh(WLS权重)】列表框中,表示选入权重变量进行权重最小二乘法的回归分析。Step08:单击【OK】按钮,结束操作,SPSS软件自动输出结果。执行完上述操作后,可以输出一元线性回归的基本结果报告了。但是线性回归主对话框中还包括了其他功能选项。下面列出了它们的具体使用功能。(1)【Statistics(统计量)】:选择输出需要的描述统计量,如图8-2所示。其中,【RegressionCoefficients(回归系数)】复选框组用于定义回归系数的输出情况,【Residuals(残差)】复选框组用于选择输出残差诊断的信息。›Estimates:可输出回归系数B及其标准误,回归系数的t检验值和概率p值,还有标准化的回归系数beta。›Confidenceintervals:每个回归系数的95%置信区间。›Covariancematrix:方差-协方差矩阵。›Modelfit:模型拟合过程中进入、退出的变量的列表;以及一些有关拟合优度的检验统计量,例如R、R2和调整的R2、估计值的标准误及方差分析表。›Rsquaredchange:显示每个自变量进入方程后R2、F值和p值的改变情况。›Descriptives:显示自变量和因变量的有效数目、均值、标准差等,同时还给出一个自变量间的相关系数矩阵。›Partandpartialcorrelations:显示自变量间的相关、部分相关和偏相关系数。›Collinearitydiagnostics:多重共线性分析,输出各个自变量的特征根、方差膨胀因子、容忍度等。›Durbin-Watson:残差序列相关性检验。›Casewisediagnostic:对标准化残差进行诊断,判断有无奇异值(Outliers)。(2)【Plots(绘制)】:用于选择需要绘制的回归分析诊断或预测图。用户可以根据上图从中选择部分变量作为X(横坐标)和Y(纵坐标)。同时还可以通过单击Next按钮来重复操作过程。绘制更多的图形。›DEPENDENT:因变量。›*ZPRED:标准化预测值。›*ZRESID:标准化残差。›*DRESID:剔除的残差。›ADJPRED:调整后的预测值。›SRESID:学生化残差。›SDRESID:学生化剔除残差。选择【StandardizedResidualPlots(标准化残差图)】选项,可以选择输出标准化残差图,其中包括以下选项。›Histogram:标准化残差的直方图。›Normalprobalityplot:标准化残差的正态概率图(P-P图),将标准化残差与正态分布进行比较。›Produceallpartialplots:每一个自变量对于因变量残差的散点图。(3)【Save(保存)】:将预测值、残差或其他诊断结果值作为新变量保存于当前工作文件或新文件。【PredictedValues(预测值)】为预测栏,用于选择输出回归模型的预测值。›Unstandardized:未标准化的预测值。›Standardized:标准化的预测值。›Adjusted:经调整的预测值。›S.E.ofmeanpredictions:预测值的标准误差。【Residuals(残差)】为残差栏,包含以下选项。›Unstandardized:未标准化残差。›Standardized:标准化残差。›Studentized:学生化残差。›Deleted:剔除残差。›StudentizedDeleted:学生化剔除残差。【Distances(距离)】为距离栏,包含以下选项。›Mahalanobis:马氏距离。›Cook’s:库克距离。›Leveragevalues:杠杆值。【InfluenceStatistics(影响统计量)】反映剔除了某个自变量后回归系数的变化情况。›DfBeta(s):由排除一个特定的观测值所引起的回归系数的变化。›StandardizedDfbeta(s):标准化的DfBeta值。›DfFit:拟合值之差,由排除一个特定的观测值所引起的预测值的变化。›StandardizedDfFit:标准化的DfFit值。›Covarianceratio:带有一个特定的剔除观测值的协方差()阵与带有全部观测量的协方差矩阵的比率。【Predictionintervals(预测区间)】为预测区间栏。›Mean:均值预测区间的上下限。›Individual:因变量单个观测量的预测区间。›Confidenceinterval(置信区间):默认值为95%,所键入的值必须在0~100之间。(4)【Options(选项)】:改变用于进行逐步回归(Stepwisemethods)时的内部数值的设定以及对缺失值的处理方式。›【SteppingMethodCriteria(步进方法标准)】为逐步回归标准选择项。›UseprobabilityofF:如果一个变量的F显著性水平值小于所设定的进入值(Entryvalue),那么这个变量将会被选入方程式中;如果它的F显著性水平值大于所设定的剔除值(Removalvalue),那么这个变量将会被剔除。›UseFvalue:如果一个变量的F值大于所设定的进入值(Entryvalue),那么这个变量将会被选入方程式中;如果它的F值小于剔除值,那么那么这个变量将会被剔除。›Includeconstantinequation:选择此项表示在回归方程式中包含常数项。›【Missingvaluetreatments(缺失值)】为缺失值处理方式选择项。›Excludecaseslistwise:系统默认项,表示剔除所有含缺失值的个案后再进行分析。›Excludecasespariwise:剔除当前分析的两个变量值是缺失的个案。›Replacewithmean:利用变量的平均数代替缺失值。(5)【Bootstrap】:可以进行如下统计量的Bootstrap估计。›描述统计表支持均值和标准差的Bootstrap估计。›相关性表支持相关性的Bootstrap估计。›模型概要表支持Durbin-Watson的Bootstrap估计。›系数表支持系数、B的Bootstrap估计和显著性检验。›相关系数表支持相关性的Bootstrap估计。›残差统计表支持均值和标准差的Bootstrap估计。8.1.3实例分析:广告支出与销售量1.实例内容表8-1中的数据是7大名牌饮料的广告支出(百万美元)与箱销售量(百万)的数据。请利用回归分析来分析广告支出与箱销售量的关系。2.实例操作现在厂商要研究投入的广告支出与箱销售量之间的关系,则可以建立回归模型来探讨它们之间的关系,即箱销售量=f(广告支出)首先绘制了这两组变量的散点图8-6,图形显示它们呈线性关系,则可以建立一元线性回归模型如下:3.实例结果及分析(1)自变量进入方式执行完上面的操作后,首先给出的是自变量进入方式表8-2。可以看到回归模型的选入变量是广告支出(expenditure),采用的自变量进入方式是强行进入法,也就是将所有的自变量都放入模型中。(2)模型摘要表8-3是对模型的简单汇总,其实就是对方程拟合情况的描述。通过这张表可以知道相关系数的取值(R),相关系数的平方即可决系数(RSquare),校正后的可决系数(adjustedRSquare)和回归系数的标准误(Std.ErroroftheEstimate)。注意这里的相关系数大小和前面相关分析中计算出的结果完全相同。可决系数RSquare的取值介于0和1之间,它的含义就是自变量所能解释的方差在总方差中所占的百分比,取值越大说明模型的效果越好。本案例计算的回归模型中可决系数R2等于0.957,模型拟合效果较好。