2020/8/31【案例】固定资产投资会影响国内生产总值吗?2020/8/32第八章相关与回归分析第一节相关分析第二节一元线性回归分析第三节多元线性回归分析第四节非线性回归分析2020/8/33本章重点相关与回归分析概念、种类、相关关系与函数关系、相关关系与因果关系的联系。相关分析与回归分析的区别与联系。直线相关系数的涵义、计算与分析。直线回归方程的确定与精确度的评价。回归方程的应用。2020/8/34本章难点直线相关系数的涵义、计算与分析。直线回归方程的确定与精确度的评价。参数估计的理论方法,如最小二乘法的基本原理等。参数估计的显著性检验及拟合优度的检验的基本理论。非线性回归的转化问题。2020/8/35学习目标通过本章的学习,要明确相关与回归分析的概念、意义和种类;了解相关关系与函数关系的区别、相关分析与回归分析的联系与区别;掌握相关分析的特点和方法、进而掌握回归分析的方法;理解进行相关与回归分析应注意的问题。2020/8/36第一节相关分析p240一、变量之间的关系二、相关关系的种类三、相关分析与回归分析四、相关关系的测度一、变量之间的关系客观现象之间的数量联系可以归纳为两种不同的类型,一种是函数关系,另一种是相关关系。函数关系,指变量之间存在的严格确定的依存关系,即当一个或几个相互联系的自变量取一定的值时,因变量必定有一个且只有一个确定的值与之对应。相关关系,指变量之间客观存在的非严格确定的依存关系,即当一个或几个相互联系的自变量取一定的数值时,与之对应的因变量往往会出现几个不同的值,但这些数值会按某种规律在一定范围内变化。2020/8/38二、相关关系的种类(一)按变量多少划分按相关关系涉及变量的多少可分为单相关、复相关和偏相关。两个现象的相关,即一个变量对另一个变量的相关关系,称为单相关。当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为偏相关。2020/8/39相关关系的种类(二)按相关程度划分按变量之间相关关系的密切程度不同,可分为完全相关、不完全相关和不相关。当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不完全相关。2020/8/310相关关系的种类(三)按相关形式划分按相关关系的表现形态不同可分为线性相关和非线性相关。当两种相关现象之间的相关关系在直角坐标系中近似地表现为一条直线时,称之为线性相关。如果两种相关现象之间,在图上并不表现为直线形式而是表现为某种曲线形式时,则称这种相关关系为非线性相关。2020/8/311相关关系的种类(四)按相关方向划分线性相关中按相关的方向可分为正相关和负相关。当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关。当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关。2020/8/312三、相关分析与回归分析相关分析是指研究一个变量与另一个变量或另一组变量之间相关方向和相关密切程度的统计分析方法。回归分析是指根据相关关系的具体形态,选择一个合适的数学模型来近似地表达变量间平均变化关系的统计分析方法。2020/8/313相关分析与回归分析的联系相关分析和回归分析是研究现象之间相关关系的两种基本方法,两者有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。1)相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。2)只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。由于上述原因,回归分析和相关分析在一些统计学的书籍中被合称为相关关系分析或广义的相关分析。2020/8/314相关分析与回归分析的区别1)相关分析中,变量x与变量y处于平等地位,不需要区分自变量和因变量;回归分析中,变量y称为因变量,处在被解释的特殊地位。变量x称为自变量,可以通过x的变化来解释y的变化,故亦称为解释变量。2)相关分析中所涉及的变量y与x全是随机变量。而回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。3)相关分析的研究主要是刻画两类变量间线性相关的密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。2020/8/315四、相关关系的测度p243测度相关关系的方式有三种,相关表相关图相关系数(一)相关表和相关图相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。2020/8/3171978-2007年我国国内生产总值和固定资产投资额之间的相关图(二)相关系数(P244)(correlationcoefficient)1.概念:①对变量之间线性关系密切程度的度量②对两个变量之间线性相关程度的度量称为简单相关系数③若相关系数是根据总体全部数据计算的,称为总体相关系数,记为④若是根据样本数据计算的,则称为样本相关系数,记为r2.相关系数的计算公式(记住P245)样本相关系数的计算公式或化简为2222yynxxnyxxynr12211()()()()niixyinnxxyyiiiixxyyLrLLxxyy2020/8/3203.相关系数取值及其意义1.r的取值范围是[-1,1]2.|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关3.r=0,不存在线性相关关系4.-1r0,为负相关5.0r1,为正相关6.|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切相关系数的性质2020/8/321相关系数取值范围与直观意义r=1,完全正相关r=-1,完全负相关2020/8/322相关系数取值范围与直观意义-1r0,不完全相关0r1,不完全相关主要研究对象2020/8/323相关系数取值范围与直观意义●X和Y都是相互对称的随机变量;●线性相关系数只反映变量间的线性相关程度,不能说明非线性相关关系;●样本相关系数是总体相关系数的样本估计值,由于抽样随机性,样本相关系数是个随机变量,其统计显著性有待检验;●相关系数只能反映线性相关程度,不能确定因果关系,不能说明相关关系具体接近哪条直线。使用相关系数时应注意:2020/8/325依据变量间线性相关程度,相关系数可划分的等级相关系数的检验p249①检验两个变量之间是否存在线性相关关系②等价于对回归系数b1的检验③采用R.A.Fisher提出的t检验④检验的步骤为提出假设:H0:;H1:0)2(~122ntrnrt计算检验的统计量:确定显著性水平,并作出决策•若tt,拒绝H0•若tt,不能拒绝H02020/8/327第二节一元线性回归分析(P249)一、一元线性回归模型的基本形式二、一元线性回归模型的估计三、回归方程的显著性检验四、回归模型的应用五、统计软件SPSS应用回归模型的类型线性回归非线性回归一元回归线性回归非线性回归多元回归回归模型一元线性回归含义1.只涉及一个自变量的回归2.因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependentvariable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示3.因变量与自变量之间的关系用一个线性方程来表示一.一元线性回归模型的基本形式①描述因变量y如何依赖于自变量x和误差项的方程称为理论回归模型②一元线性回归模型可表示为y=b+b1x+y是x的线性函数(部分)加上随机误差项线性部分反映了由于x的变化而引起的y的变化误差项是随机变量(未纳入模型但对y有影响的诸多因素的综合影响)反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性b0和b1称为模型的参数理论回归模型回归模型的基本假设p252假设1:误差项的期望值为0,即对所有的i有假设2:误差项的方差为常数,即对所有的i有假设3:误差项之间不存在自相关关系,其协方差为0,即当时,有;假设4:自变量是给定的变量,与随机误差项线性无关;假设5:随机误差项服从正态分布。即ε~N(0,σ2)以上这些基本假设是德国数学家高斯最早提出的,故也称为高斯假定或标准假定。()0iE22var()()iiEjicov(,)0ij回归方程(regressionequation)1.描述y的平均值或期望值如何依赖于x的方程称为回归方程2.一元线性回归方程的形式如下E(y)=b0+b1x方程的图示是一条直线,也称为直线回归方程b0是回归直线在y轴上的截距,是当x=0时y的期望值b1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值2020/8/333XY每月家庭可支配收入X100015002000250030003500400045005000550082096211081329163218422037227524642824888102412011365172618742110238825893038932112112641410178619062225242627903150每960121013101432183510682319248828563201月125913401520188520662321258729003288家132414001615194321852365265030213399庭1448165020372210239827893064消1489171220782289248728533142费1538177821792313251329343274支160018412298239825383110出17021886231624232567Y1900238724532610201224982487271025892586900115014001650190021502400265029003150()iEYX举例:假如已知100个家庭构成的总体总体回归函数2020/8/334●在抽样中,自变量x的取值是固定的,即x是非随机的;因变量y是随机的。即当解释变量X取某固定值时,Y的值不确定,Y的不同取值形成一定的分布,这是Y的条件分布。回归线,描述的是Y的条件期望E(Y/xi)与之对应xi,代表这些Y的条件期望的点的轨迹所形成的直线或曲线。如注意:由于单个数据点是从y的分布中抽出来的,可能不在这条回归线上,因此必须包含随机误差项来描述模型数据点注意:假定iXiXxE(y)=b0+b1xy回归线.估计的回归方程(estimatedregressionequation)3.一元线性回归中估计的回归方程为2.用样本统计量代替回归方程中的未知参数和,就得到了估计的回归方程0ˆb1ˆb0b1b1.总体回归参数和是未知的,必须利用样本数据去估计0b1bxy10ˆˆˆbb+其中:是估计的回归直线在y轴上的截距,是直线的斜率,它表示对于一个给定的x的值,是y的估计值,也表示x每变动一个单位时,y的平均变动值0ˆb1ˆbyˆ.参数的最小二乘(平方)法的估计(ordinaryleastsquaresestimators)最小值niiiniixyyy121012)ˆˆ()ˆ(bb1.使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即2.用最小平方法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线的误差都小0