第五讲数据拟合——回归分析回归一词的由来谢中华天津科技大学2020/7/23*相关与回归分析概述*线性回归*非线性回归*回归分析的Matlab函数主要内容:变量间的关系确定性关系或函数关系y=f(x)人的身高和体重家庭的收入和消费商品的广告费和销售额粮食的产量和施肥量股票的价格和时间学生的期中和期末考试成绩,…不确定性关系xY实变量随机变量不确定性关系一、相关与回归分析概述1.确定性关系与相关关系不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关2.相关关系的图示1)从一组样本数据出发,确定变量之间的数学关系式2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度3.什么是回归分析(x,y)采集样本信息(xi,yi)回归分析散点图回归方程回归方程的显著性检验对现实进行预测与控制4.回归分析的流程对于回归模型,我们假设:2~(0,),1,2,,()0,iijNinEij可得到:),bxa(N~y2iiy称为因变量,x称为自变量,称为随机扰动,a,b称为待估计的回归参数,下标i表示第i个观测值。iiibxay若两个变量x,y之间有线性相关关系,其回归模型为二、一元线性回归分析1.回归模型如果给出a和b的估计量分别为,则经验回归方程为:bˆ,aˆiixbˆaˆyˆ一般地,ˆiiieyy称为残差,残差可视为扰动的“估计量”。iei去掉回归模型中的扰动项,得理论回归方程为:iiyabx2.回归方程(xi,yi)}xy(xn,yn)(x1,y1)(x2,y2)ei=yi-yi^ˆˆˆyabx3.一元线性回归图示二元函数的最小值点称为a,b的最小二乘估计(简记为OLSE).(,)Qabˆˆ(,)abniiiniibxaybaQ1212)]([),(记n1iii0))bxa(y(2aQn1iiii0x)]bxa(y[2bQn1iiin1i2iyxb)x(axnynbxnna,1,111niiniiynyxnx其中4.回归系数的最小二乘估计)xnx(nxxnxnnD22i2i0)(12niixxn所以方程组有解,解得xxxyllbxbyaˆˆˆ其中n1i2ixx)xx(ln1iiixy)yy()xx(l即最小二乘估计所得经验回归方程为xbayˆˆˆ上面讨论了如何根据实验数据求得线性回归方程,然而,实际上,对于变量和的任意对观测值,只要不全相等,则无论变量和之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回归方程。显然,这样写出的线性方程当且仅当变量和之间存在线性相关关系时才是有意义的;若不存在线性相关关系,则这样写出的线性方程就毫无意义了。为了使求得的线性回归方程真正有意义,就需要进行回归方程的显著性检验。xyxy5.回归方程的显著性检验(1)因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响(2)对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示yy离差平方和分解◆离差平方和分解示意图xyˆˆˆyabxyy{}}yyˆyyˆ),(iiyx离差分解图xy两端平方后求和有yyyyyyˆˆ从图上看有SST=SSR+SSE自由度(df)n-1=1+n-2niiniiniiyyyyyy121212ˆˆ总变差平方和(SST)回归平方和(SSR)残差平方和(SSE)◆三个平方和的关系(1)总平方和(SST)–反映因变量的n个观察值与其均值的总离差(2)回归平方和(SSR)–反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和(3)残差平方和(SSE)–反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和◆三个平方和的意义回归平方和占总离差平方和的比例(1)反映回归直线的拟合程度(2)取值范围在[0,1]之间(3)r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差(4)判定系数等于相关系数的平方,即r2=(r)2判定系数r2◆定义◆判定系数的意义线性关系的检验(F检验)(1)提出假设(2)计算检验统计量F(3)确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F(1,n-2)◆检验的步骤H0:b=0H1:b≠0(4)作出决策:若FF,拒绝H0;若FF,接受H0如果拒绝H0,两个变量之间存在显著线性关系如果接受H0,两个变量间不存在显著线性关系其中◆F值的计算(1)检验两个变量之间是否存在线性相关关系)2(~122ntrnrt■计算检验的统计量:■确定显著性水平,并作出决策•若tt,拒绝H0•若tt,接受H0相关系数的显著性检验(t检验)(2)等价于对回归系数b的检验(3)采用t检验(4)检验的步骤为■提出假设:H0:;H1:0(1)检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著(2)理论基础是回归系数的抽样分布ˆb(3)在一元线性回归中,等价于回归方程的显著性检验回归系数的显著性检验(t检验)的抽样分布2(,)bbN(1)提出假设H0:b=0(没有线性关系)H1:b0(有线性关系)(3)确定显著性水平,并进行决策tt,拒绝H0;tt,接受H0◆回归系数的显著性检验(步骤)(2)计算检验的统计量(1)根据自变量x的取值估计或预测因变量y的取值(2)估计或预测的类型■点估计•y的平均值的点估计•y的个别值的点估计■区间估计•y的平均值的置信区间估计•y的个别值的预测区间估计6.利用回归方程进行估计和预测(2)点估计值有y的平均值的点估计y的个别值的点估计(1)对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计值0ˆy点估计(3)在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计值,就是个别值的点估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的一个估计值E(y0),就是平均值的点估计0ˆy◆y的平均值的点估计◆y的个别值的点估计(1)点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计(2)对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计区间(3)区间估计有两种类型■置信区间估计■预测区间估计区间估计y的平均值的置信区间估计2002211ˆˆ(2)niixxytnnxx◆置信区间估计其中:为估计标准误差ˆˆ(2)SSEn利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值E(y0)的估计区间,这一估计区间称为置信区间E(y0)在1-置信水平下的置信区间为y的个别值的预测区间估计注意!◆预测区间估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计区间,这一区间称为预测区间y0在1-置信水平下的预测区间为◆置信区间、预测区间、回归方程的图示xpˆˆˆyabxyxxy(1)一个因变量与两个及两个以上自变量之间的回归(2)描述因变量y如何依赖于自变量x1,x2,…,xp和误差项的方程称为多元线性回归模型(3)涉及p个自变量的多元线性回归模型可表示为b0,b1,b,,bp是参数是被称为误差项的随机变量y是x1,,x2,,xp的线性函数加上误差项说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性ipipiixxxybbbb22110三、多元线性回归分析1.回归模型对于n组实际观察数据(yi;xi1,,xi2,,xip),(i=1,2,…,n),多元线性回归模型可表示为y1=bb1x11bx12bpx1p1y2=bb1x21bx22bpx2pyn=bb1xn1bxn2bpxnpn{……(1)自变量x1,x2,…,xp是确定性变量,不是随机变量(2)随机误差项ε的期望值为0,且方差σ2都相同(3)误差项ε是一个服从正态分布的随机变量,即ε~N(0,σ2),且相互独立2.基本假定描述y的平均值或期望值如何依赖于x1,x1,…,xp的方程称为多元线性回归方程,多元线性回归方程的形式为b1,b,,bp称为偏回归系数bi表示假定其他变量不变,当xi每变动一个单位时,y的平均平均变动值3.回归方程E(y)=b0+b1x1+b2x2+…+bpxp二元线性回归模型bbb22110xxy(观察到的y)22110)(xxyEbbb回归面b0ix1yx2(x1,x2)}4.多元线性回归方方程的直观解释(2)根据最小二乘法的要求,可得求解各回归参数的标准方程如下),,2,1(00ˆˆ000piQQiiibbbbbb(1)使因变量的观察值与估计值之间的离差平方和达到最小来求得。即pbbbbˆ,,ˆ,ˆ,ˆ2105.参数的最小二乘法整理得11112211211222221122011ppyppyppppppyppllllllllllllyxxbbbbbbbbbbbb或矩阵形式120111211112100ppyppppppyxxxyllllllllbbb其中11,1,2,,nikikxxipn解得1111121112ˆˆpypppppypllllllllbb11niiyyn1()(),,1,2,,nijjikiikjjkllxxxxijp1()(),1,2,,niykiikklxxyyip011ˆˆˆppyxxbbb(1)回归平方和占总离差平方和的比例(2)反映回归平面的拟合程度(3)取值范围在[0,1]之间(4)R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差(5)等于多重(复)相关系数的平方,即R2=(R)26.多重判定系数R2(1)由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为避免高估这一影响,需要用自变量的数目去修正R2的值(2)用n表示观察值的数目,p表示自变量的数目,修正的多重判定系数的计算公式可表示为7.修正的多重判定系数R2(1)检验因变量与所有的自变量和之间是否存在一个显著的线性关系,也被称为总体的显著性检验(2)检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著■如果是显著的,因变量与自变量之间存在线性关系■如果不显著,因变量与自变量之间不存在线性关系8.线性关系的检验(1)提出假设–H0:b1b2bp=0线性关系不显著–H1:b1,b2,,bp至少有一个不等于0(2)计算检验统计量F(3)确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F(4)作出决策:若FF,拒绝H0;若FF,接受H0回归