第五讲回归分析、线性回归和曲线估计第一部分回归分析第二部分线性回归第三部分曲线估计第一部分第十讲回顾在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度的指标称为偏相关系数。偏相关分析的公式表达01021201.222110212rrrrrr0203.213.201.23221103.23.2rrrrrr0.12(1)(1)(1)0.12(1).12(1)(1)(1)0.12(1)(1)22110.12(1).12(1)(1)(1)iiipppipiipiiipppipiiprrrrrrLLLLLLLLLL什么是回归分析?1、重点考察一个特定的变量(因变量),而把其他变量(自变量)看作是影响这一变量的因素,并通过适当的数学模型将变量间的关系表达出来2、利用样本数据建立模型的估计方程3、对模型进行显著性检验4、进而通过一个或几个自变量的取值来估计或预测因变量的取值第一部分回归分析回归分析的模型一、分类按是否线性分:线性回归模型和非线性回归模型按自变量个数分:简单的一元回归和多元回归二、基本的步骤利用SPSS得到模型关系式,是否是我们所要的?要看回归方程的显著性检验(F检验)回归系数b的显著性检验(T检验)拟合程度R2(注:相关系数的平方,一元回归用RSquare,多元回归用AdjustedRSquare)回归分析的过程在回归过程中包括:Liner:线性回归CurveEstimation:曲线估计BinaryLogistic:二分变量逻辑回归MultinomialLogistic:多分变量逻辑回归;Ordinal序回归;Probit:概率单位回归;Nonlinear:非线性回归;WeightEstimation:加权估计;2-StageLeastsquares:二段最小平方法;OptimalScaling最优编码回归我们只讲前面2个简单的(一般教科书的讲法)第二部分线性回归线性回归分为一元线性回归和多元线性回归。一、一元线性回归:1、涉及一个自变量的回归2、因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependentvariable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示3、因变量与自变量之间的关系用一个线性方程来表示线性回归的过程一元线性回归模型确定过程一、做散点图(Graphs-Scatter-Simple)目的是为了以便进行简单地观测(如:Salary与Salbegin的关系)。二、建立方程若散点图的趋势大概呈线性关系,可以建立线性方程,若不呈线性分布,可建立其它方程模型,并比较R2(--1)来确定一种最佳方程式(曲线估计)。多元线性回归一般采用逐步回归方法-Stepwise。(一)一元线性回归模型(linearregressionmodel)1、描述因变量y如何依赖于自变量x和误差项的方程称为回归模型2、一元线性回归模型可表示为y=b0b1x注:线性部分反映了由于x的变化而引起的y的变化;误差项反映了除x和y之间的线性关系之外的随机因素对y的影响,它是不能由x和y之间的线性关系所解释的变异性。Y是x的线性函数(部分)加上误差项b0和b1称为模型的参数误差项是随机变量一元线性回归模型(基本假定)1、因变量x与自变量y之间具有线性关系2、在重复抽样中,自变量x的取值是固定的,即假定x是非随机的3、误差项满足条件误差项满足条件正态性。是一个服从正态分布的随机变量,且期望值为0,即~N(0,2)。对于一个给定的x值,y的期望值为E(y)=b0+b1x方差齐性。对于所有的x值,的方差一个特定的值,的方差也都等于2都相同。同样,一个特定的x值,y的方差也都等于2独立性。独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关;对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关估计的回归方程(estimatedregressionequation)1.总体回归参数β0和β1是未知的,必须利用样本数据去估计2.用样本统计量和代替回归方程中的未知参数β0和β1,就得到了估计的回归方程3.一元线性回归中估计的回归方程为其中:是估计的回归直线在y轴上的截距,是直线的斜率,它表示对于一个给定的x的值,是y的估计值,也表示x每变动一个单位时,y的平均变动值xyˆˆ1b0ˆb0ˆbyˆˆ1bˆ1b0ˆb(二)参数的最小二乘估计德国科学家KarlGauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。即0ˆbˆ1b最小niiiniixyyy121012)ˆˆ()ˆ(bb注:用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。KarlGauss的最小化图(x2,y2)xy10ˆˆˆbb(x1,y1)(xi,yi)^ei=yi-yi(xn,yn)yx参数的最小二乘估计(和的计算公式)0ˆb根据最小二乘法,可得求解和的公式如下:0ˆb1ˆb0ˆb1ˆb(三)回归直线的拟合优度一、变差1、因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响2、对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示yy误差分解图xyyxy10ˆˆˆbbyyyyˆyyˆ),(iiyx误差平方和的分解(误差平方和的关系)SST=SSR+SSE222111ˆˆnnniiiiiiiyyyyyy总平方和(SST){回归平方和(SSR)残差平方和(SSE){{误差平方和的分解(三个平方和的意义)1、总平方和(SST—totalsumofsquares)反映因变量的n个观察值与其均值的总误差2、回归平方和(SSR—sumofsquaresofregression)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和3、残差平方和(SSE—sumofsquaresoferror)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和判定系数R2(coefficientofdetermination)回归平方和占总误差平方和的比例niiniiyyyySSTSSRR12122ˆ1、反映回归直线的拟合程度2、取值范围在[0,1]之间3、R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差4、决定系数平方根等于相关系数估计标准误差(standarderrorofestimate)1、实际观察值与回归估计值误差平方和的均方根2、反映实际观察值在回归直线周围的分散状况3、对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量4、反映用估计的回归方程预测y时预测误差的大小5、计算公式为(k为自变量个数)MSEknSSEknyysniiie11ˆ12(四)显著性检验线性关系的检验1、检验自变量与因变量之间的线性关系是否显著;2、将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著回归均方(MSR):回归平方和SSR除以相应的自由度(自变量的个数k)残差均方(MSE):残差平方和SSE除以相应的自由度(n-k-1)线性关系的检验(检验的步骤)1.提出假设H0:b1=0线性关系不显著2.计算检验统计量F)1,1(~)1(1knFMSEMSRknSSESSRF3.确定显著性水平,并根据分子自由度1和分母自由度n-2求统计量的P值(一元)4.作出决策:若P,拒绝H0。表明两个变量之间的线性关系显著回归系数的检验和推断1.检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著2.理论基础是回归系数的抽样分布1ˆb3.在一元线性回归中,等价于线性关系的显著性检验4.采用t检验回归系数的检验和推断(样本统计量的分布)1.是根据最小二乘法求出的样本统计量,它有自己的分布2.的分布具有如下性质分布形式:正态分布数学期望:标准差:由于未知,需用其估计量se来代替得到的估计的标准差1ˆb1ˆb11)ˆ(bbE2ˆ1xxib2ˆ1xxssieb1ˆb回归系数的检验和推断(检验步骤)1.提出假设H0:b1=0(没有线性关系)H1:b10(有线性关系)2.计算检验的统计量3.确定显著性水平,计算出统计量的P值,并做出决策P,拒绝H0,表明自变量是影响因变量的一个显著因素)2(~ˆ1ˆ1ntstbb回归系数的检验和推断(b1和b0的置信区间)1.b1在1-置信水平下的置信区间为2.b0在1-置信水平下的置信区间为±niiexxxnsnt1220)()(1)2(ˆb±niiexxsnt1221)()2(ˆb(五)利用回归方程进行预测1.平均值的置信区间2.个别值的预测区间区间估计平均值的置信区间1.利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的估计区间,这一估计区间称为置信区间(confidenceinterval)2.E(y0)在1-置信水平下的置信区间为niiexxxxnsnty1220201)2(ˆ式中:se为估计标准误差个别值的预测区间1.利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计区间,这一区间称为预测区间(predictioninterval)2.y0在1-置信水平下的预测区间为注意!置信区间和预测区间xpxy10ˆˆˆbbyxx用残差证实模型的假定回归模型中假定ε期望值为0,方差相等且服从正态分布的一个随机统计量。但是如果关于ε的假定不成立的话,那么随后所做的检验、估计、预测也许不成立。所有需要进行残差分析确定ε的假定是否成立。用残差证实模型的假定主要包括:检验方差齐性检验正态性一、检验方差齐性残差(residual)1、因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示2、反映了用估计的回归方程去预测而引起的误差3、可用于确定有关误差项的假定是否成立4、用于检测有影响的观测值iiiyyeˆ残差图(residualplot)1、表示残差的图形关于x的残差图关于y的残差图标准化残差图2、用于判断误差的假定是否成立3、检测有影响的观测值残差图(形态及判别)(a)满意模式残差x0(b)非常数方差残差x0(c)模型不合适残差x0二、检验正态性标准化残差(standardizedresidual)1、残差除以它的标准差2、也称为Pearson残差或半学生化残差(semi-studentizedresiduals)3、计算公式为eiieiesyyseziˆ标准化残差图用以直观地判断误差项服从正态分布这一假定是否成立若假定成立,标准化残差的分布也应服从正态分布在标准化残差图中,大约有95%的标准化残差在-2到+2之间SPSS线性回归分析多元线性回归分析基本结构与一元线性回归相同。而他们在SPSS下的功能菜单是集成在一起的。下面通过SPSS操作步骤解释线性回归分析问题。SPSS过程步骤一:录入数据,选择分析菜单中的Regression==liner打开线性回归分析对话框;步骤二:选择被解释变量和解释变量。其中因变