定量分析之回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第十三章回归分析“回归”(regression)是由英国著名生物学家兼统计学家高尔顿(FrancisGalton)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据,他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象—回归效应。当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律,即这两种身高(父亲的身高和儿子的身高)有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。回归分析和相关分析都是对多个变量之间依存关系的分析。只有存在相关的变量才能进行回归分析,相关程度愈高,回归效果越好。相关分析与回归分析的不同点:①相关分析是研究变量之间的依存关系,但不区分哪个是自变量,哪个是因变量;而回归分析不仅研究变量之间的依存关系,而且要根据研究对象和目的,确定哪个是自变量(解释变量),哪个是因变量(被解释变量)。②相关分析主要是研究变量之间关系的密切程度和变化的方向;而回归分析要通过建立回归模型和控制自变量来进行估计和预测。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。回归分析研究的主要内容有:确定变量之间的相关关系和相关程度,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。第一节一元线性回归一、一元线性回归模型的基本概念若有两个变量x和y,其中x为非随机变量(即可控变量),y为随机变量。且x和y有相关关系,则可用数学模型exfy)(近似地表示它们之间的关系。式中e是随机变量。方程)(ˆxfy称为回归方程(回归模型)。2若一元回归方程是线性的,称为一元线性回归。其数学模型为:yi=a+bix+ei。这个回归模型中的随机误差ei,要求满足如下的高斯基本假设:(1)应当是服从正态分布的随机变量,即ei满足“正态性”(normal)的假设。(2)ei的均值为零,即E(ei)=0,我们称ei满足“无偏性”的假设。(3)ei的方差等于某个常数,即ieVar=u,这就是说,所有的ei分布的方差都相同(equalvariance),即满足“共方差性”的假设。(4)各个ei间相互独立,即对于任何两个随机误差ei和ejij其协方差等于零,即,Cov(ei,ej)=0,ij)这称之为满足“独立性”(independent)的假设。综上所述,随机误差ei必须服从独立的相同分布。基于上述假定,随机变量的数学期望和方差分别是:E(yi)=a+bxiieVar=u,由此:yi~N(a+bxi,u)这就意味着,当X=xi时,yi是一个服从正态分布的随机变量的某一个取值。如果不考虑式中的误差项,就可以得到简单的方程:yi=a+bxi这一方程就称为Y对X的一元线性回归方程。依据这一方程在直角坐标系中所作的直线就称为回归直线。其中a、b通常称为回归模型的参数,a是回归直线的截距;b是回归直线的斜率(回归系数)。二、一元线性回归模型的参数估计回归模型中的参数a与b在一般情况下都是未知数,必须根据样本数据(xi,yi)来估计。确定参数a与b值的原则是要使得样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。为此,可以采普通最小二乘法(OrdinaryLeastSquare,OLS)来解决这个问题。对应于每一个xi,根据回归直线方程可以求出一个yi,它就是yi的一个估计值。估计值和观察值之间的偏差eyyiii。有n个观察值就有相应的n个偏差。要使模型的拟合状态最好,就是说要使n个偏差的总和最小。但为了计算方便起见,我们以误差的平方和最小为标准来确定回归模型的参数。这就要求Qyyyabxiiniiin1212是个极小值。根据微积分中的极值定理,要使上式取极小值,其对a与b所求的偏导数应为0,即3QayabxQbyabxxiiiii2020经整理后可得:ynabxxyaxbxiiiiii2解上式,可得:bxynxyxnxaynbxniiiiiiii1122记XxnYynii,。SxxxnxSxxyyxynxySyyynyXXiiiXYiiiiiiYYiii222222111于是,得到参数a与b的简单表达形式如下:bSSaybxXYXX求出参数a与b以后,就可以得到回归模型yabx由此,只要给定了一个xi值,就可以根据回归模型求得一个yi来作为实际值yi的预测值。我们以研究与开发(R&D)投入与国内生产总值(GDP)的关系为例来说明一元线性回归模型的求解问题。1989-2006年,中国R&D投入与GDP相关统计数据如表13-1所示。表13-1:1989-2006年中国R&D投入与GDP相关数据序号年份GDP(亿元)R&D(亿元)12006209407294322005183084.8236732004159878.31966.642003135822.81539.6452002120332.71287.662001109655.21042.57200099214.6895.78199989677.1678.99199884402.3551.110199778973.0481.4711199671176.6404.4812199560793.734913199448197.922214199335333.919615199226923.516916199121781.5142.317199018667.8125.4318198916992.3112.31将观察值ix,iy(i=1,……,18)在平面直角坐标系中用点标出,所得的图称为散点图。从图13-1可以看出,y(GDP)与x(R&D投入)之间大致呈现线性相关关系,可见一元线性回归模型适用于对y与x关系的回归分析。0.00500.001000.001500.002000.002500.003000.00x0.0050000.00100000.00150000.00200000.00y图13-1:y(GDP)与x(R&D投入)关系的散点分布图根据上述求解回归系数的公式,可以求得a与b的值。这里n=1899272102.2,109.1,105.21570315,99.15473iiiiiiyxyxyx595632215559)1570315(181109.11804870325)1570315()99.15473(181102.2112193047)99.15473(181105.21292292722iiYYiiiiXYiiXXynySyxnyxSxnxS∴72.3039118*ˆ18ˆˆ128.66ˆiixxxyxbyxbyaSSb由此得到y(GDP)对x(R&D投入)的一元线性回归模型:xy691.30391128.66ˆ三、一元非线性回归模型的线性处理方法由于线性回归方模型比较简单,所以在遇到非线性回归模型时,最好通过变换将其转换为线性回归模型。一些常用的非线性回归模型转换方法如下:(1)成长曲线模模型成长曲线模型为:xbeay1即xbeay1令yy1'xex'则成长曲线模型就可转换为:''bxay(2)双曲线模型双曲线模型为:xbay1令xxyy1',1'则双曲线模型转换为:y’=a+bx’(3)幂函数模型幂函数模型为:y=axb或y=ax-b(b>0)对幂函数两边取对数nxbnany作变换naanxxnyy',','则幂函数模型转换为:xbay6(4)指数函数模型言之指数函数模型为:y=aebx或y=ae-bx(b>0)两边取对数bxnayn令nnyy,则指数函数模型转换为:bxy(5)倒指数函数模型倒指数函数模型为:xbaey或xbaey(b>0,a>0)两边取对数后作变换nyy,naaxx,1,则倒指数函数模型转换为:xbay(6)对数函数模型对数函数模型为:y=a+bnx作变换nxx,则有y=a+bx第二节多元线性回归在公共管理研究中,很多情况下研究的变量是多个的,这就需要用多元的方法才能更好地描述变量间的关系。就方法的实质来说,处理多元线性回归(multiplelinearregression)的方法与处理一元线性回归的方法是基本相同的,只是多元线性回归的方法复杂些,计算量大些,我们通常都运用统计软件来进行处理。一、数学模型和回归方程的求法。设因变量y与自变量x1,x2,……,xk之间有关系式:),0(~...2110Neexbxbbykk通过取样得到n组观测数据:(y1;x11,x21,……,xk1)(y2;x12,x22,……xk2)7……………………(yn;x1n,x2n,……xkn)其中xij是自变量xi的第j个观测值,yj是因变量y的第j个值,代入上式得到模型的数据结构式:),N(exbxbxbbyexbxbxbbyexbxbxbbynnknknnnkkkk22122110222211210211212111010...,.....................独立同分布上述方程式为k元正态线性回归模型,其中b0,b1,……,bk及σ2是未知待估的参数。多元线性回归模型也需要符合多元回归的高斯假设条件。我们同样可以采用最小二乘法来估计回归系数b0,b1,……,bk.,称使21221101,0])...([ˆ),...,(ntktktttkxbxbxbbybbbQ达到最小的kbbbˆ,...,ˆ,ˆ10为参数(b0,b1,……,bk)的最小二乘估计。利用微积分知识,最小二乘估计就是对如下方程组进行求解:kkkykkkkkykkykkxbxbxbybLblblblLblblblLblblbl.....................221022112222212111212111其中),...,2,1(1,111kixnxynyntitintt),...,2,1,()()(11kjiLxxxxnLjijjtntiitij),...,2,1()(,)(11kiyyxxnLtntiitiy通常称上述的方程组为正规方程组,其中前k个方程的系数矩阵记为,)(*kkijlL当L*可逆时,正规方程组有解,便可得b0,b1,……bk的最小二乘估计8kbbbˆ,,ˆ,ˆ10即kkykykxbxbybLLLbb...ˆˆ,*)(ˆˆ110111省略去随机项即可得到经验回归方程为:kkxbxbbyˆ...ˆˆˆ110。k元线性回归方程的图形为1k维空间的一个平面,称为回归平面;0ˆb称为回归常数项,当1x=2x=…=kx=0时,,0ˆy在0ˆb有实际意义时,0ˆb表示y的起始值;ibˆ(i=1、2、…、k)称为因变量y对自变量ix的偏回归系数(partialregr

1 / 37
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功