统计系第八章相关分析和回归分析•第一节相关分析•第二节一元线性回归分析主要内容1统计系第一节相关分析一、相关关系与函数关系二、相关关系的种类三、相关分析与回归分析四、相关关系的测度2统计系一、相关关系与函数关系函数关系是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上xy统计系函数关系(几个例子)函数关系的例子某种商品的销售额y与销售量x之间的关系可表示为y=px(p为单价)圆的面积S与半径之间的关系可表示为S=R2企业的原材料消耗额y与产量x1、单位产量消耗x2、原材料价格x3之间的关系可表示为y=x1x2x3统计系一、相关关系与函数关系相关关系(correlation)变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围xy统计系相关关系(几个例子)相关关系的例子父亲身高y与子女身高x之间的关系收入水平y与受教育程度x之间的关系粮食亩产量y与施肥量x1、降雨量x2、温度x3之间的关系商品的消费量y与居民收入x之间的关系商品销售额y与广告费支出x之间的关系统计系二、相关关系的种类(一)按变量多少划分1.单相关两个现象的相关,即一个变量对另一个变量的相关关系,称为单相关。2.复相关当所研究的是一个变量对两个或两个以上其他变量的相关关系时,该相关关系称为复相关。3.偏相关在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个特定变量之间的相关关系。7统计系二、相关关系的种类(二)按相关程度划分1.完全相关当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。2.不相关当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。3.不完全相关两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不完全相关。8统计系二、相关关系的种类(三)按相关形式划分1.线性相关当两种相关现象之间的相关关系在直角坐标系中近似地表现为一条直线时,称之为线性相关。2.非线性相关如果两种相关现象之间,在图上并不表现为直线形式而是表现为某种曲线形式时,则称这种相关关系为非线性相关。9统计系二、相关关系的种类(四)按相关方向划分1.正相关。当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关。2.负相关当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关。10统计系二、相关关系的种类(五)按相关性质划分1.真实相关当两种现象之间的相关确实具有内在的联系时,称之为“真实相关”。2.虚假相关当两种现象之间的相关只是表面存在,实质上并没有内在的联系时,称之为“虚假相关”。11统计系三、相关分析与回归分析1.相关分析是指研究一个变量与另一个变量或另一组变量之间相关方向和相关密切程度的统计分析方法。2.回归分析是指根据相关关系的具体形态,选择一个合适的数学模型来近似地表达变量间平均变化关系的统计分析方法。12统计系三、相关分析与回归分析3.相关分析与回归分析的联系(1)相关分析回归分析是研究现象之间相关关系的两种基本方法,两者有着密切的系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。(2)相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。(3)只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。13统计系三、相关分析与回归分析4.相关分析与回归分析的区别(1)相关分析中,变量x与变量y处于平等地位,不需要区分自变量和因变量;回归分析中,变量y称为因变量,处在被解释的特殊地位。变量x称为自变量,可以通过x的变化来解释y的变化,故亦称为解释变量。(2)相关分析中所涉及的变量y与x全是随机变量。而回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。(3)相关分析的研究主要是刻画两类变量间线性相关的密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。14统计系四、相关关系的测度测度相关关系的方式相关表相关图相关系数15统计系(一)相关表和相关图相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。散点图是以直角坐标系的横轴代表变量x,纵轴代表变量y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间的相关关系的图形,又称为相关图。16统计系散点图(scatterdiagram)不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关统计系散点图(例题分析)【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据统计系散点图(例题分析)统计系散点图(例题分析)不良贷款与贷款余额的散点图024681012140100200300400贷款余额不良贷款不良贷款与贷款项目个数的散点图02468101214010203040贷款项目个数不良贷款不良贷款与固定资产投资额的散点图02468101214050100150200固定资产投资额不良贷款不良贷款与累计应收贷款的散点图024681012140102030累计应收贷款不良贷款统计系(二)相关系数1.相关系数概念是反映变量之间线性相关密切程度的统计分析指标。相关系数可依总体数据或样本数据计算,分别定义为总体相关系数和样本相关系数。2.相关系数的分类根据线性相关变量的多少、分析问题的角度不同,相关系数可分为简单相关系数、偏相关系数和复相关系数。本章只介绍简单相关系数。21r统计系(二)相关系数3.简单相关系数的计算设是的组样本观察值,两个变量之间的简单线性相关系数计算公式如下:12211(-)(-)(-)(-)niixyinnxxyyiiiixxyyLrLLxxyy()(12)iixyin,,,,22()xy,n统计系相关系数(取值及其意义)r的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关r=0,不存在线性相关关系-1r0,为负相关0r1,为正相关|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切统计系相关系数(取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加统计系相关系数(例题分析)用Excel计算相关系数统计系相关系数的显著性检验统计系相关系数的显著性检验(r的抽样分布)1.r的抽样分布随总体相关系数和样本容量的大小而变化当样本数据来自正态总体时,随着n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系数很小或接近0时,趋于正态分布的趋势非常明显。而当远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。当为较大的正值时,r呈现左偏分布;当为较小的负值时,r呈现右偏分布。只有当接近于0,而样本容量n很大时,才能认为r是接近于正态分布的随机变量统计系相关系数的显著性检验(检验的步骤)检验两个变量之间是否存在线性相关关系等价于对回归系数b1的检验采用R.A.Fisher提出的t检验检验的步骤为提出假设:H0:;H1:0)2(~122ntrnrt计算检验的统计量:确定显著性水平,并作出决策•若tt,拒绝H0•若tt,不能拒绝H0统计系相关系数的显著性检验(例题分析)对不良贷款与贷款余额之间的相关系数进行显著性检(0.05)提出假设:H0:;H1:0计算检验的统计量5344.78436.012258436.02t根据显著性水平=0.05,查t分布表得t(n-2)=2.069由于t=7.5344t(25-2)=2.069,拒绝H0,不良贷款与贷款余额之间存在着显著的正线性相关关系统计系相关系数的显著性检验(例题分析)各相关系数检验的统计量统计系第二节一元线性回归分析一、一元线性回归模型二、一元线性回归模型的估计三、回归方程的显著性检验四、回归模型的应用五、统计软件SPSS应用31统计系什么是回归分析?(Regression)从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归一词是怎么来的??统计系一元线性回归模型统计系一元线性回归涉及一个自变量的回归因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependentvariable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示因变量与自变量之间的关系用一个线性方程来表示统计系一、一元线性回归模型(一)回归模型的基本形式1.总体回归模型式中:为因变量(被解释变量),为自变量(解释变量),和是未知参数,称为回归参数,称为回归系数,表示其他随机因素的影响,并假定是不可观测的随机误差,它是一个随机变量一般称之为变量y对x的一元线性理论回归模型,或称为总体回归模型。0b1byx351b01yxbb统计系(一)回归模型的基本形式对于总体中的个体而言,有:01xbb01yxbb线性组合部分:确定部分随机干扰部分:不确定部分3601iiiyxbb统计系(一)回归模型的基本形式2.总体回归函数(方程)对于总体回归模型中的,通常假设:对总体回归模型两边取期望,得:上式称为总体回归函数。37i2()0()iiEVar01()iiEyxbb为什么作如此假设?有何意义?此函数说明了什么含义?如何获得?()iiiyEy什么意思?统计系(一)回归模型的基本形式3.样本回归模型一般情况下,在研究某个实际问题时,对于获得的n组样本观测值来说,如果它们符合总体回归模型,则上式为样本回归模型,并假定组数据是独立观测的,故都是独立的随机变量,为残差,是对的估计,是对的估计。01ˆˆ,1,2,,iiiyxeinbb38n12,,,nyyyiei01ˆˆ,bb01,bb统计系(一)回归模型的基本形式4.样本回归函数(方程)对于样本回归模型中的,通常假设:对总体回归模型两边取期望,得:2()0ˆ()iiEeVareie01ˆˆ()iiEyxbb01ˆˆˆiiyxbb样本回归函数(方程)估计的回归方程统计系(二)回归模型的基本假设假设1:误差项的期望值为0,即对所有的i有假设2:误差项的方差为常数,即对所有的i有假设3:误差项之间不存在自相关关系,其协方差为0,即当时,有;假设4:自变量是给定的变量,与随机误差项线性无关;假设5:随机误差项服从正态分布。以上这些基本假设是德国数学家高斯最早提出的,故也称为高斯假定或标准假定。()0iE22var()()iiE