应用回归分析AppliedRegressionAnalysis教材何晓群,刘文卿:《应用回归分析》第二版,中国人民大学出版社,2007年统计软件SPSS13.0StatisticalPackagefortheSocialScience章节目录第1章回归分析概述第2章一元线性回归第3章多元线性回归第4章违背基本假定的情况第5章自变量选择与逐步回归第6章多重共线性的情形及其处理第7章岭回归第8章非线性回归第9章含定性变量的回归模型第1章回归分析概述1.1变量间的统计关系1.2回归方程与回归名称的由来1.3回归分析的主要内容及其一般模型1.4建立实际问题回归模型的过程1.5回归分析应用与发展述评思考与练习1.1变量间的统计关系函数关系商品的销售额与销售量之间的关系y=px圆的面积与半径之间的关系S=R2原材料消耗额与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系y=x1x2x31.1变量间的统计关系图1.1函数关系图y=1000x01000200030004000500060000123456x(万辆)y(万元)1.1变量间的统计关系相关关系的例子子女身高(y)与父亲身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系1.1变量间的统计关系图1.2y与x非确定性关系图xy•对变量间统计依赖关系的考察主要是通过相关分析(correlationanalysis)或回归分析(regressionanalysis)来完成的正相关线性相关不相关相关系数:统计依赖关系负相关11XY有因果关系回归分析正相关无因果关系相关分析非线性相关不相关负相关•注意–①不线性相关并不意味着不相关。–②有相关关系并不意味着一定有因果关系。–③回归分析/相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。–④相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。•回归分析构成计量经济学的方法论基础,其主要内容包括:–(1)根据样本观察值对经济计量模型参数进行估计,求得回归方程;–(2)对回归方程、参数估计值进行显著性检验;–(3)利用回归方程进行分析、评价及预测。1.2回归方程与回归名称的由来成年儿子身高父母平均身高英国统计学家F.Galton(1822-1911年)。F.Galton和他的学生、现代统计学的奠基者之一K.Pearson(1856—1936年)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,xy516.073.33ˆ1.3回归分析的主要内容及其一般模型况因变量是定性变量的情况自变量含定性变量的情含有定性变量的回归多元非线性回归分段回归一元非线性回归非线性回归偏最小二乘法主成分回归岭回归参数估计方法的改进逐步回归分析方法自变量选择的准则回归变量的选择选择回归函数的形式果判定回归方程拟合的效何对数据进行修正当基本假设不成立时如性归模型基本假设的合理讨论如何从数据推断回回归诊断量的回归多个因变量与多个自变多元线性回归一元线性回归线性回归回归分析回归分析的一般形式:)x,x,x(fyp21•随机误差项主要包括下列因素:–在解释变量中被忽略的因素的影响;–变量观测值的观测误差的影响;–模型关系的设定误差的影响;–其他随机因素的影响。回归模型研究的问题?1.4建立实际问题回归模型的过程设置指标变量收集整理数据构造理论模型估计模型参数修改N模型运用Y经济因素分析经济变量控制经济决策预测实际问题模型检验1.5回归分析应用与发展述评从高斯提出最小二乘法算起,回归分析已经有200年的历史。从1969年设立诺贝尔经济学奖以来,已有近50位学者获奖,其中绝大部分获奖者是统计学家、计量经济学家、数学家。他们对统计学及回归分析方法的应用都有娴熟的技巧。第2章一元线性回归2.1一元线性回归模型2.2参数β0、β1的估计2.3最小二乘估计的性质2.4回归方程的显著性检验2.5残差分析2.6回归系数的区间估计2.7预测和控制2.8本章小结与评注2.1一元线性回归模型例2.1表2.1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。表2.1火灾损失表距消防站离x(km)3.41.84.62.33.15.50.73.0火灾损失y(千元)26.217.831.323.127.536.014.122.3距消防站离x(km)2.64.32.11.16.14.83.8火灾损失y(千元)19.631.324.017.343.236.426.12.1一元线性回归模型例2.2全国人均消费金额记作y(元);人均国民收入记为x(元)表2.2人均国民收入表年份人均国民收入(元)人均消费金额(元)年份人均国民收入(元)人均消费金额(元)1980198119821983198419851986198719881989460489525580692853956110413551512234.75259.26280.58305.97347.15433.53481.36545.40687.51756.27199019911992199319941995199619971998163418792287293939234854557660536392797.08890.661063.391323.221736.322224.592627.062819.362958.182.1一元线性回归模型一元线性回归模型y=β0+β1x+ε2)var(0)(E回归方程E(y|x)=β0+β1x2.1一元线性回归模型样本模型yi=β0+β1xi+εi,i=1,2,…,n回归方程E(yi)=β0+β1xi,var(yi)=σ2,样本观测值(x1,y1),(x2,y2),…,(xn,yn),n,,iEii21)var(0)(2经验回归方程xy10ˆˆˆ2.2参数β0、β1的估计一、普通最小二乘估计(OrdinaryLeastSquareEstimation,简记为OLSE)niiiniiixyxyQ1210,121010)(min)ˆˆ()ˆ,ˆ(10最小二乘法就是寻找参数β0、β1的估计值使离差平方和达极小iixy10ˆˆˆiiiyyeˆ称为yi的回归拟合值,简称回归值或拟合值称为yi的残差2.2参数β0、β1的估计xxyy((xxnn,,yynn))((xx11,,yy11))((xx22,,yy22))((xxii,,yyii))}}eeii==yyii--yyii^^xy10ˆˆˆxy10ˆˆˆxxyy((xxnn,,yynn))((xx11,,yy11))((xx22,,yy22))((xxii,,yyii))}}eeii==yyii--yyii^^xy10ˆˆˆxy10ˆˆˆxxyy((xxnn,,yynn))((xx11,,yy11))((xx22,,yy22))((xxii,,yyii))}}eeii==yyii--yyii^^xxyy((xxnn,,yynn))((xx11,,yy11))((xx22,,yy22))((xxii,,yyii))}}eeii==yyii--yyii^^((xx22,,yy22))((xxii,,yyii))}}eeii==yyii--yyii^^eeii==yyii--yyii^^xy10ˆˆˆxy10ˆˆˆ2.2参数β0、β1的估计0)ˆˆ(2ˆ0)ˆˆ(2ˆ110111110000niiiiniiixxyQxyQ经整理后,得正规方程组nininiiiiiniiniiyxxxyxn1111201110ˆ)(ˆ)(ˆ)(ˆ0011niiiniiexe2.2参数β0、β1的估计211110)())((ˆˆˆniiiniixxyyxxxy得OLSE为niniiixxxnxxxL11222)()(niiiniiixyyxnyxyyxxL11))((xxxyLLxy/ˆˆˆ110记2.2参数β0、β1的估计413.26152.396,28.3152.49yx784.34)28.3(1516.196)(2122niixxxnxL114.171536.129965.14701niiixyyxnyxL919.4784.34/114.171/ˆ279.1028.3919.4413.26ˆˆ110xxxyLLxyxy919.4279.10ˆ续例2.1回归方程2.2参数β0、β1的估计二、最大似然估计连续型:是样本的联合密度函数:离散型:是样本的联合概率函数。似然函数并不局限于独立同分布的样本。似然函数在假设εi~N(0,σ2)时,由(2.10)式知yi服从如下正态分布:),(~210iixNy2.2参数β0、β1的估计二、最大似然估计y1,y2,…,yn的似然函数为:niiinniiixyyfL12102221210})]([21exp{)2()(),,(对数似然函数为:niiixynL121022)]([21)2ln(2ln与最小二乘原理完全相同2.3最小二乘估计的性质一、线性是y1,y2,…,yn的线性函数:niiniiiniiniiiyxxxxxxyxx1121211)()()(ˆ10ˆˆ、其中用到2.3最小二乘估计的性质二、无偏性1110121121)()()()()ˆ(niinjjiniinjjixxxxxyExxxxE0)(xxi)()(2xxxxxiii2.3最小二乘估计的性质三、的方差njjniinjjixxyxxxx12212121)()var()()ˆvar(10ˆˆ、2220)()(1)ˆvar(xxxni210)ˆ,ˆcov(xxLx2.3最小二乘估计的性质三、的方差10ˆˆ、)))(1(,(~ˆ2200xxLxnN),(~ˆ211xxLN在正态假设下,n),,(i,jj,ij,iσ),ε(ε,n,,,i)E(εjii210cov2102GaussMarkov条件2.4回归方程的显著性检验一、t检验原假设:H0:β1=0对立假设:H1:β1≠0),(~ˆ211xxLN由当原假设H0:β1=0成立时有:),0(~ˆ21xxLN2.4回归方程的显著性检验一、t检验构造t统计量ˆˆˆˆ121LxxLtxxniiiniiyynen12122ˆ2121ˆ其中2.4回归方程的显著性检验二、用统计软件计算1.例2.1用Excel软件计算什么是P值?(P-value)•P值即显著性概率值Significenc