回归分析(Correlation®ression)事物关系函数关系(一一对应)统计关系(非一一对应)线性相关非线性相关线性回归回归分析(regressionanalysis)确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。*涉及的自变量的多少a.一元回归分析b.多元回归分析*自变量和因变量之间的关系类型,a.线性回归分析b.非线性回归分析回归分析一般步骤:•确定回归方程中的解释变量(自变量)和被解释变量(因变量)•确定回归模型•建立回归方程•对回归方程进行各种检验•利用回归方程进行预测线性回归模型一元线性回归模型是指只有一个解释变量的线性回归模型,用于揭示被解释变量与另一个解释变量之间的线性关系。一元线性回归数学模型:其中β0和β1是未知参数,分别称为回归常数和回归系数,ε称为随机误差,是一个随机变量,且应该满足两个前提条件:E(ε)=0var(ε)=σ2xy10多元线性回归模型是指有多个解释变量的线性回归模型,用于揭示被解释变量与其他多个解释变量之间的线性关系。多元线性回归数学模型:其中β0、β1、…βp都是未知参数,分别称为回归常数和偏回归系数,ε称为随机误差,是一个随机变量,且同样满足两个前提条件:E(ε)=0var(ε)=σ201122ppyxxx线性回归模型回归参数的普通最小二乘估计(OLSE)线性回归方程确定后的任务是利用已经收集到的样本数据,根据一定的统计拟合准则,对方程中的各参数进行估计。普通最小二乘就是一种最为常见的统计拟合准则。最小二乘法将偏差距离定义为离差平方和,即最小二乘估计就是寻找参数β0、β1、…βp的估计值β̂0、β̂1、…β̂p,使式(1)达到极小。通过求极值原理(偏导为零)和解方程组,可求得估计值,SPSS将自动完成。2011(,,)(())npiiiQyEyu回归方程的统计检验u回归方程的拟合优度检验(相关系数检验)一元线性回归的拟合优度检验采用R2统计量,称为判定系数或决定系数,数学定义为22121ˆ()()niiniiyyRyy21ˆ()niiyy其中称为回归平方和(SSA)称为总离差平方和(SST)21()niiyyu回归方程的统计检验u回归方程的拟合优度检验(相关系数检验)R2取值在0-1之间,R2越接近于1,说明回归方程对样本数据点的拟合优度越高。多元线性回归的拟合优度检验采用统计量,称为调整的判定系数或调整的决定系数,数学定义为2R式中n-p-1、n-1分别是SSE和SST的自由度。其取值范围和意义与一元回归方程中的R2是相同的。u回归方程的统计检验u回归方程的拟合优度检验(相关系数检验)2111SSEnpSSTnRu回归方程的统计检验u回归方程的显著性检验(F检验)一元线性回归方程显著性检验的零假设是β1=0,检验采用F统计量,其数学定义为:2121ˆ()ˆ()2niiniiiyyMSAFMSEyyn即平均的SSA/平均的SSE,F统计量服从(1,n-2)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平α,则应拒绝零假设,认为线性关系显著。u回归方程的统计检验u回归方程的显著性检验(F检验)多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零,检验采用F统计量,其数学定义为:即平均的SSA/平均的SSE,F统计量服从(p,n-p-1)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平α,则应拒绝零假设,认为y与x的全体的线性关系显著。2121ˆ()ˆ()1niiniiiyyPMSAFMSEyynPu回归方程的统计检验u回归系数的显著性检验(t检验)一元线性回归方程的回归系数显著性检验的零假设是β1=0,检验采用t统计量,其数学定义为:121ˆˆ()niitxxt统计量服从n-2个自由度的t分布。SPSS将会自动计算t统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平α,则应拒绝零假设,认为x对y有显著贡献,线性关系显著。u回归方程的统计检验u回归系数的显著性检验(t检验)多元线性回归方程的回归系数显著性检验的零假设是βi=0,检验采用t统计量,其数学定义为:ti统计量服从n-p-1个自由度的t分布。SPSS将会自动计算ti统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平α,则应拒绝零假设,认为xi对y有显著贡献,应保留在线性方程中。21ˆˆ()injiijixxt(i=1,2,…,p)u回归方程的统计检验u残差分析所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距,即ˆiiiyye它是回归模型中的估计值。如果回归方程能较好地反映被解释变量的特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性。iu回归方程的统计检验u残差分析——均值为0的正态性分析残差均值为0的正态性分析,可以通过绘制残差图进行分析,如果残差均值为0,残差图中的点应在纵坐标为0的横线上下随机散落着。正态性可以通过绘制标准化(或学生化)残差的累计概率图来分析u回归方程的统计检验u残差分析——独立性分析Ø绘制残差序列的序列图以样本期(或时间)为横坐标,残差为纵坐标,如果残差随时间的推移呈规律性变化,则存在一定的正或负相关性。Ø计算残差的自相关系数取值在-1到+1之间,接近于+1表明序列存在正自相关性。ØDW(Durbin—Watson)检验DW取值在0至4之间,直观判断标准是DW=4,残差序列完全负自相关;DW=2,完全无自相关;DW=0,完全正自相关。ˆu回归方程的统计检验u残差分析——异方差分析Ø绘制残差图如果残差的方差随着解释变量值的增加呈增加(或减少)的趋势,说明出现了异方差现象。u回归方程的统计检验u残差分析——异方差分析Ø等级相关分析得到残差序列后首先对其取绝对值,然后计算出残差和解释变量的秩,最后计算Spearman等级相关系数,并进行等级相关分析。具体过程见相关分析相关章节。u回归方程的统计检验u残差分析——探测样本中的异常值和强影响点(对于y值)Ø标准化残差ZRE由于残差是服从均值为0的正态分布,因此可以根据3σ准则进行判断,首先对残差进行标准化,绝对值大于3对应的观察值为异常值。Ø学生化残差SREØ剔除残差DRE(或剔除学生化残差SDRE)上述SRE、SDRE的直观判断标准同标准化残差ZRE。ˆiZREe回归方程的统计检验残差分析——探测样本中的异常值和强影响点(对于x值)杠杆值hiiSPSS中计算的是中心化杠杆值chii,通常如果chii大于2或3倍的chii的均值(p/n),则认为观察点为强影响点。库克距离Di库克距离是杠杆值与残差大小的综合效应,一般库克距离大于1,则可认为观察点为强影响点。标准化回归系数的变化和标准化预测值的变化如果标准化回归系数变化的绝对值大于,或标准化预测值变化的绝对值大于,则可认为第i个样本可能是强影响点。22211iiiipiiehDh2n2pn多元回归分析中的其他问题u变量筛选问题Ø向前筛选策略解释变量不断进入回归方程的过程,首先选择与被解释变量具有最高线性相关系数的变量进入方程,并进行各种检验;其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程。Ø向后筛选策略变量不断剔除出回归方程的过程,首先所有变量全部引入回归方程并检验,然后在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量。Ø逐步筛选策略向前筛选与向后筛选策略的综合多元回归分析中的其他问题u变量多重共线性问题Ø容忍度Tol容忍度值越接近于1,表示多重共线性越弱。SPSS变量多重共线性的要求不很严格,只是在容忍度值太小时给出相应警告信息。Ø方差膨胀因子VIF膨胀因子是容忍度的倒数,越接近于1,表示解释变量间的多重共线性越弱。通常如果VIFi大于等于10,说明解释变量xi与其余解释变量之间有严重的多重共线性。Ø特征根和方差比这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其他特征根的值,则说明这些解释变量之间具有相当多的重叠信息。Ø条件指数ki10≤ki≤100时,认为多重共线性较强,ki≥100时,认为多重共线性很严重21iiTolRmiikn回归分析基本操作(1)选择菜单Analyze—Regression—Linear,出现如下对话框因变量自变量条件变量标志变量筛选策略(2)将因变量选入Dependent框(3)将一个或多个自变量选入Independengt(s)框(4)在Method框中选择回归分析中自变量的筛选策略。其中Enter表示所选变量强行进入回归方程,是SPSS默认策略,通常用在一元线性回归分析中;Remove表示从回归方程中剔除所选变量;Stepwise表示逐步筛选策略;Backward、Forward分别表示向后、向前筛选策略。n回归分析基本操作(5)上述(3)、(4)中确定的自变量和筛选策略可放置在不同的Block中,单击“Next”和“Previous”按钮设置多组自变量和变量筛选策略,并放在不同Block中,SPSS将按照设置顺序依次进行分析。“Block”设置便于作各种探索性的回归分析。n回归分析基本操作(6)选择一个变量作为条件变量到SelectionVariable框中,并单击“Rule”按钮给定一个判断条件。只有变量值满足给定条件的样本数据才参与线性回归分析。n回归分析基本操作(7)在CaseLabels框中指定哪个变量作为数据样本点的标志变量,该变量的值将标在回归分析的输出图形中。(8)WLSWeight中选人权重变量,主要用于加权最小二乘法。至此便完成了线性回归分析的基本操作,SPSS将根据指定自动进行回归分析,并将结果输出到输出窗口中。n回归分析基本操作n回归分析的其他操作Ø选项输出与回归系数相关的统计量,包括回归系数、回归系数标准误、标准化回归系数、回归系数显著性检验的t统计量和概率p值,个解释变量的容忍度。每个非标准化回归系数的95%置信区间输出各解释变量间的相关系数、协方差以及各回归系数的方差输出判定系数、调整的判定系数、回归方程的标准误、回归方程显著性检验的方差分析表每个解释变量进入方程后引起的判定系数的变化量和F值的变化量(偏F统计量)输出个解释变量和被解释变量的均值、标准差、相关系数矩阵及单侧检验概率值输出方程中各解释变量与被解释变量之间的简单相关、偏相关系数和部分相关n回归分析的其他操作Ø选项多重共线性分析:输出各解释变量的容忍度、方差膨胀因子、特征值、条件指标、方差比例等DW值输出标准化残差绝对值大于等于3(默认)的样本数据的相关信息n回归分析的其他操作Ø选项Ø选项•标准化预测值•标准化残差•剔除残差•调整的预测值•学生化残差•剔除学生化残差标准化残差序列直方图标准化残差序列正态分布累计概率图依次绘制被解释变量与各解释变量的散点图n回归分析的其他操作ØSave选项该窗口将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中,并可同时生成XML格式的文件,便于分析结果的网络发布。n回归分析的其他操作ØSave选项保存剔除第i个样本后各统计量的变化量•回归系数变化量•标准化回归系数变化量•预测值变化量•标准化预测值变化量•协方差比n回归分析的其他操作ØOptions选项设置多元线性回归分析中解释变量进入或剔除出回归方程的标准偏F统计量的概率值n回归分析的其他操作u线性回归分析的应用举例为研究高校人文社会科学研究中立项课题数受哪些因素的影响,收集某年31个省市自治区部分高校有关社科研究方面的数据,并利用线性回归方法进行分析。这里,被解释变量为立项课题数X5,解释变量为投入人年数(X2)、投入高级职称的人年数(X3)、投入科研事业费(X4)、专著数(X6)、论文数(X7)、获奖数(X8)。具体操作如前所