LOGO第7章相关与回归分析7.1变量间关系的度量7.2一元线性回归分析7.3一元线性回归方程的统计检验7.4利用回归方程进行估计与预测7.5可线性化的指数曲线方程学习目标相关关系的分析参数的最小二乘估计回归直线的拟合优度回归方程的显著性检验利用回归方程进行预测可线性化的指数曲线方程用Excel进行回归回归方法的历史与应用相关与回归(CorrelationandRegression)分析发展至今已有200多年的历史,应用范围之广使我们很难找到不用它的领域,尤其是在经济领域中得到了广泛应用。现代经济学中影响最大的一门独立科学是计量经济学,诺贝尔经济学奖获得者萨缪尔森曾这样评价计量经济学:二战后的经济学是计量经济学的时代,而回归分析是计量经济学的基本计量方法,其理论也成为计量经济学的重要理论支柱。设立于1969年的诺贝尔经济学奖诞生至今已有50多位获奖者,其中绝大多数获奖者是统计学家、计量经济学家或数学家,在他们的成果中,都体现出对统计学及回归分析方法的娴熟运用。矩阵理论和计算机技术的发展为回归分析模型在经济领域中的应用提供了极大方便,模型技术在经济研究中的应用在我国越来越盛行,在一些省级以上重点经济课题中,经济学的硕士论文中,如果没有模型技术的应用,是不可以想象的,而回归分析方法是模型技术中最基本的内容。作为一门统计学的入门读物,本教材以经典的一元线性回归分析为主来介绍回归分析的基本思想,希望能起到一个抛砖引玉的作用。回归分析研究什么?研究某些实际问题时往往涉及到多个变量。在这些变量中,有一个变量是研究中特别关注的,称为因变量,而其他变量则看成是影响这一变量的因素,称为自变量。假定因变量与自变量之间有某种关系,并把这种关系用适当的数学模型表达出来,那么,就可以利用这一模型根据给定的自变量来预测因变量,这就是回归要解决的问题。在回归分析中,只涉及一个自变量时称为一元回归,涉及多个自变量时则称为多元回归。如果因变量与自变量之间是线性关系,则称为线性回归(linearregression);如果因变量与自变量之间是非线性关系则称为非线性回归(nonlinearregression)第7章相关与回与归分析7.1相关分析7.1.1变量间的统计关系7.1.2相关关系的类型7.1.3相关关系的测定7.1.4相关系数的显著性检验7.1.5相关分析中应注意的问题函数关系1.是一一对应的确定关系2.设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量3.各观测点落在一条线上xy函数关系例子建设银行的1年期定期存款利率为年息3.00%,存入的本金用x表示,到期本息用y表示,则y=x+3.00%x(不考虑利息税);正方形面积S与其边长之间的关系,可用S=来表示;物理学中的自由落体距离公式;初等数学中的许多计算公式都是变量之间的函数关系。2a2a相关关系(correlation)1.一个变量的取值不能由另一个变量唯一确定;2.当变量x取某个值时,变量y的取值对应着一个分布;3.各观测点分布在直线周围;4.数学形式:式中的为随机误差项,反映自变量以外随机因素的影响。yx)(xfy相关关系(几个例子)【例7.1】成本的高低与利润的多少有密切关系,但某一确定的成本与相对应的利润却不是唯一确定的依存关系,这是因为影响利润的因素除了成本外,还有价格、供求关系、消费嗜好等其他偶然因素的影响。【例7.2】生育率与人均GDP的关系也属于典型的相关关系:人均GDP高的国家,生育率往往较低,但二者没有唯一确定的依存关系,这是因为除了经济因素外,生育水平还受教育水平、城市化水平以及不易测量的民族风俗、宗教和其他随机因素的共同影响。【例7.3】粮食产量与施肥量之间有着密切关系,在一定范围内,施肥量越多,粮食产量就越高,但是粮食产量并不完全决定于施肥量,因为降雨量、土壤质量、田间管理水平等也会影响粮食产量。7.12相关关系类型按照相关关系涉及变量(或因素)的多少分为单相关、复相关和偏相关;按照相关形式不同分为线性相关和非线性相关;按照相关现象变化的方向不同分为正相关和负相关按相关程度分为完全相关(函数关系)、不相关、不完全相关(相关分析的主要研究对象)7.1.3相关关系的测定7.1.3.1定性分析7.1.3.2相关表7.1.3.3相关图散点图(scatterdiagram)完全正线性相关完全负线性相关非线性相关正线性相关负线性相关不相关7.1.4相关系数(correlationcoefficient)度量变量之间线性关系强度的一个统计量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为;若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为r。也称为Pearson相关系数(Pearson’scorrelationcoefficient)相关系数计算公式22)()())((yyxxyyxxr2222)()(yynxxnyxxynr样本相关系数的计算公式为:简捷计算公式:表7–2相关系数计算表相关系数计算(例题分析)尽管采用了简捷计算公式,但当样本量较大时计算起来仍然很麻烦,可以采用Excel中的【CORREL】函数或【PEARSON】函数都可以计算两组数据的相关系数。9942.05.42281.19687102.34652.14304105.4222.34609.1667910)()(222222yynxxnyxxynr相关系数的性质性质1:r的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关r=0,不存在线性相关关系-1r0,为负相关0r1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱相关系数的性质性质2:r具有对称性。即x与y之间的相关系数和y与x之的相关系数相等,即rxy=ryx;性质3:仅仅是x与y之间线性关系的一个度量,它不于描述非线性关系。这意为着,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系;性质4:r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。相关系数的经验解释1.|r|0.8时,可视为两个变量之间高度相关2.0.5|r|0.8时,可视为中度相关3.0.3|r|0.5时,视为低度相关4.|r|0.3时,说明两个变量之间的相关程度极弱,可视为不相关5.上述解释必须建立在对相关系数的显著性进行检验的基础之上7.1相关关系7.1.4相关系数的显著性检验相关系数的显著性检验(检验的步骤)1.检验两个变量之间是否存在线性相关关系2.采用R.A.Fisher提出的t检验3.检验的步骤为提出假设:H0:;H1:0计算检验的统计量做决策。根据显著性水平由Excel中的【TINV】函数查出的临界值。若,则拒绝原假设,说明总体的两个变量之间有显著的线性关系;如果用P值检验,则当P时,则拒绝原假设,说明总体的两个变量之间有显著的线性关系。)2(~122ntrnrt2tt相关系数的显著性检验(例题分析)【例7.5】根据表7—2计算的相关系数,检验广告费用与月均销售额之间的相关系数是否显著()。解:第1步:提出假设:;;第2步:计算检验的统计量:第3步:做出决策。根据显著性水平和自由度,由Excel中的【TINV】函数,得:由于,所以拒绝原假设,说明广告费用与月均销售额之间存在着显著的正线性相关关系。5344.78436.012258436.02t05.0109.269942.012109942.01222rnrt7515.2)8()2(025.02/tnt7515.2)2(109.262ntt00:H01:H7.1.5相关分析中应注意的问题7.1.5.1相关系数不能解释两变量间的因果关系7.1.5.2警惕虚假相关导致的错误结论7.1.5.3正确区分相关系数显著性检验与相关程度强弱的关系第7章相关与回与归分析7.2一元线性回归分析7.2.1回归分析含义与内容7.2.2相关与回归分析关系7.2.3一元线性回归模型与方程7.2.4参数估计的普通最小二乘法7.2.5利用回归方程进行估计和预测7.2一元线性回归7.2.1回归分析的涵义与内容7.2.1回归分析内容(regressionanalysis)1.重点考察一个特定的变量(因变量),而把其他变量(自变量)看作是影响这一变量的因素,并通过适当的数学模型将变量间的关系表达出来;2.利用样本数据建立模型的估计方程;3.对模型进行显著性检验;4.进而通过一个或几个自变量的取值来估计或预测因变量的取值。7.2.2回归分析与相关分析的关系联系:相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。区别:1、相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化;2、相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;3、相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。7.2.3一元线性回归模型与方程1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量,用y表示用来预测或用来解释因变量的一个或多个变量称为自变量,用x表示3.因变量与自变量之间的关系用一个线性方程来表示一元线性回归模型(linearregressionmodel)1.描述因变量y如何依赖于自变量x和误差项的方程称为回归模型。2.一元线性回归模型可表示为y=bb1xy是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性b0和b1称为模型的参数一元线性回归模型(基本假定)1.因变量x与自变量y之间具有线性关系2.在重复抽样中,自变量x的取值是固定的,即假定x是非随机的3.误差项满足正态性。是一个服从正态分布的随机变量,且期望值为0,即~N(0,2)。对于一个给定的x值,y的期望值为E(y)=b0+b1x方差齐性。对于所有的x值,的方差一个特定的值,的方差也都等于2都相同。同样,一个特定的x值,y的方差也都等于2独立性。独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关;对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关一元线性回归方程式一元线性回归方程式为:其中:是估计的回归直线在y轴上的截距;是直线的斜率,它表示对于一个给定的x值,是y的估计值,也表示x每变动一个单位时,y的平均变动值。xy10ˆˆˆbb0ˆb1ˆby1ˆb7.2一元线性回归分析7.2.4参数估计的普通最小二乘法参数的最小二乘估计(methodofleastsquares)1.德国科学家KarlGauss(1777—1855)提出用小化图中垂直方向的误差平方和来估计参数。2.使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。3.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。0ˆb1ˆb最小二乘法的示意图最小二乘法手工求解22102min)ˆˆ()ˆ(exyyyiiiibb0)ˆˆ