第七章相关与回归分析第一节相关分析第二节回归分析第三节相关与回归分析应注意的几个问题第七章相关与回归分析第一节相关分析一、相关分析的意义二、相关关系的测定一.相关分析的意义(一)、相关分析的概念客观现象之间的数量依存关系主要有两种类型,即函数关系和相关关系。函数关系(二).相关关系的类型现象之间的相关关系可以按照不同的标志进行分类处理(一)按相关变量的变化方向分为正相关和负相关.(二)按相关的形式可分直线相关和曲线相关。(三)按相关变量的多少分为单相关与复相关(四)按变量之间的相关程度分为完全相关、不完全相关和不相关。二、相关关系的测定(一)定性分析,相关表,相关图判断现象间有无相关关系是一个定性认识问题,单纯依靠数学方法是无法解决的。因此,进行相关分析必须以定性分析为前提,这就要求研究人员首先必须根据有关经济理论,专业知识,实际经验和分析研究能力等。对被研究现象在性质上作出定性判断。相关表是将相关变量的观察资料,按照其对应关系和一定顺序排列而成的表格。【例6-1】某企业商品广告费用及销售量资料如下:相关表按变量的多少不同分为单相关表与复相关表。单相关表只反映一个变量与另一个变量之间的相关关系,复相关表反映多个自变量与因变量之间的相关关系。如下表:复相关表一般是按观察的先后顺序或现象分布的自然顺序来排列。相关表按变量的分组情况不同分为简单相关表或分组相关表。【例7-2】某企业技术级别组的工人人数及产品合格率资料如下:【例7-3】某校学生课余时间利用及平均成绩分布资料如下:相关图相关图也称散点图,它是根据相关表的资料,在直角坐标纸上,以横轴代表自变量x,以纵轴代表因变量y,将每组观察值用坐标上的各个散点来表示,其判断结果是选用适当的数字模型的基本依据。以表6-1资料绘的相关图如图6-1所示。从图6-1可以看出,广告费用与销售量之间具有密切的线性正相关关系,因为各个散点的走向大致成一条直线,且都比较集中地分布在这条直线的周围。(二)相关系数反映变量之间相关关系的密切程度,除了用相关表和相关图进行粗略的判断之外,常常要计算一个综合说明相关程度大小的指标,这个指标,对简单线性相关来说就是相关系数,对复线性相关来说就是复相关系数,对非线性相关来说即是相关指数。相关系数的测定方法积差法。这种方法的出发点是从两个变量离差乘积的平均数来衡量现象之间的相关程度的方法。式中:r为相关系数,对积差法公式,可通过积差在直角坐标中各个象限的分布情况来理解。设有积差分布如图6-2所示。利用相关系数判断相关程度的高低,通常是将相关系数分为三级:|r|0.4为低度相关;0.4«|r|0.7为显著相关;0.7«|r|1为高度相关,0.2以下是否有相关关系,需要进行相关的显著性检验。以表7—1的资料为例说明相关系数的计算。使用这个公式,可根据原数列资料,计算出即可代入而得,并且这些资料与后面回归分析的资料基本一致,所以较为简便、实用。现举例说明。根据表6-1,计算出相关系数的有关资料如表6-4由表6-4资料计算相关系数如下:xyyxyx,,,,224(72222)-yynxxnyxxynr988.05.11059.10913.1782.69.10913178949.389.1091731566151015.126.251073115.1121310222222---yynxxnyxxynr计算结果表明广告费用(x)与商品销售量(y)之间为高度的正相关。(三)相关系数的显著性检验对上例广告费与销售额之间的相关系数做显著性检验因为r=0.988,n=10建立假设:05.180154679.2988.01210988.012002210rnrttHH值:计算检验统计量,::当显著性水平即:上是显著的,,表示相关系数在统计所以拒绝由于分布表查时,根据自由度02025.02306.205.18,306.28205.0Htttttn广告费与销售额之间的相关关系是显著的。若用单变量分组表来计算相关系数,其计算公式为:222222)()()()())((yffyfxffxfyfxfxyfffyyfxxfyyxxr2、复相关系数与相关指数。若变量间呈复线性相关,则应计算复相关系数来测定变量间相关的密切程度。复相关系数又叫多重相关系数,用R表示,是反映多个自变量与一个因变量之间相关程度大小的指标。它的计算,根据因变量差平方和的分解,可列公式如下:y-y1R2222yyyyyyR-=或式中,为y的多元线性趋势值或回归估计值。yˆ若变量间呈曲线(非直线)相关,则应计算相关指数来测定变量间相关的密切程度。77(2//2//)-yyyyRyx2)-(712222yyyyryyyyr或r的平方r2称为可决系数或判定系数,它就是回归平方和所占的比重。3)-(71222222yyyyryyyyr或第二节回归分析一、回归分析的意义与步骤二、回归方程的种类三、简单线性回归方程四、其它回归方程第二节回归分析一、回归分析的意义与步骤(一)回归分析意义回归分析是指对具有相关关系的两个变量之间,数量变化的一般关系进行测定,用适当的数学模型予以近似地表达,测定出当一种或一些现象发生一定的数量变化时,另一与其相关的现象大约或平均发生多大的数量变化,以揭示现象之间非确定的数量依存关系的一般状态。相关分析与回归分析有一定的联系,二者也有区别。(二)回归分析的步骤1、根据观测数据,确定因变量,选择自变量;2、确定回归方程的类型;3、估计回归方程中的参数;4、对回归方程进行评价;5、根据给定的自变量值估计或预测因变量的值。二、回归方程的种类根据回归分析方法,得到的表示变量间数量依存关系一般规律的数学表达式,称为回归方程或回归模型。同相关关系的类型对应,回归方程可作以下划分:(一)线性回归方程与非线性回归方程线性回归方程是指变量间形态表现为线性趋势的回归方程。非线性回归方程也称曲线回归方程,是指变量间的形态表现为某种曲线趋势的方程。常见的非线性回归方程有:bxay其一般形式为:1、二次曲线回归方程:2、三次曲线回归方程:3、指数曲线回归方程:4、生产函数曲线回归方程:5、罗吉斯梯曲线回归方程:xbxbeaaxabxbxbxbayxbxbay1yyy33221221(二)简单回归方程与多元回归方程简单回归方程是指只有一个自变量和一个因变量的回归方程。bxay其一般形式为:多元回归方程也称复回归方程,是指由多个自变量和一个因变量组成的回归分析方程。其一般形式为:kkxbxbxbay...2211三、简单线性回归方程(一)简单线性回归方程的求解简单线性回归方程的基本形式是:8)(7y-bxa式中:x为自变量;y为因变量;为回归估计值;a、b是直线回归方程的两个参数;其中:a是直线的截距,表示x对y发生影响的起点水平;b是直线的斜率,也叫回归系数,它表示当自变量x每变化一个单位时,y平均变化的单位数。yˆ最小平方法求出的回归方程及其所代表的回归直线,必然是最接近各散点的直线,它使各散点与直线的离差总和为0,离差的平方和为最小。以表6-1资料,求商品销售量y倚广告费用x的直线回归方程如下:3.30101.1536.2810731ya(36.285.389.10911.1525.26107311.15121310222(万件)万件)nxbnxxnyxxynb将a、b的值代入直线回归方程得:xy36.283.30它表示:若不作商品广告,商品销售量的趋势值为30.3万件,而作商品广告,则广告费用每增加1万元,商品销售量就大约增加28.36万件。利用回归方程所揭示的现象之间的一般数量变化关系,可以在给定自变量x值的条件下,估计或推算因变量y的值。例如当广告费用支出为2.4万元时,商品销售量的趋势值为:(5.11534.283.30y3(4.984.236.283.30万件)势值为:万元时商品销售量的趋预测当广告费用为万件)y(二)回归标准差和回归置信区间1、回归标准差的概念回归标准差或叫回归标准误,是各个观察值y与其估计值y的离差平方和平均数的平方根,它是说明回归直线的代表性大小和回归估计可靠程度大小的指标,其计算公式为:11)(722-nyySe式中Se表示y倚x的回归标准误,利用这个公式计算回归标准误,需要将各个x的观察值代入回归方程,计算出各个相应的估计值y才能进行计算,因而不够简便。实际计算时,多用下面的简捷公式:12)(722-nxybyaySe11)(722-nyySe这个公式可以直接利用前面计算回归系数和相关系数的现成资料。以表6-1的资料计算如下:(85.2802.65210121328.36-73130.3-5661522万件)nxybyaySe它表示各个实际销售量与估计的销售量之间的平均相差2.85万件。的区别和见书yess2、回归标准差与相关系数的关系回归分析表明,因变量的实际值大小不一,上下波动,对每一个观察值而言,波动大小可以用离差表示。)(总离差平方和用个观察值总的波动大小)表示,(2ˆˆyynyy6-47统计学离差的分解(图示)xyyxy10ˆˆˆyy{}}yyˆyyˆ),(iiyx离差分解图a+bx)ˆ()ˆ()(yyyyyy6-49统计学离差的分解(图示)xyyxy10ˆˆˆyy{}}yyˆyyˆ),(iiyx离差分解图a+bx)ˆ()ˆ()(yyyyyy6-52统计学判定系数(r2)1.判定系数=回归平方和占总离差平方和的比例总离差平方和残差平方和总离差平方和回归平方和12SSTSSRr2.判定系数=相关系数的平方,即r2=(r)23.反映回归直线的拟合程度,衡量变量之间的相关程度。4.取值范围在[0,1]之间。r21,说明回归方程拟合效果越好;r20,说明回归方程拟合得越差。niiniiyyyy1212)()ˆ(1回归标准差与判定系数是密切联系的两个指标,用公式表示两者的关系如下:由广告费用来解释。可以,表示销售量的变化有判定系数为故判定系数系数用的例子中,因为相关在前面销售量和广告费%61.97%61.97%61.97,988.02rr85.29.317)9871.01()1(9871.09744.09.31785.211:9.317)10731(10615,56)(85.2:2222222222yeyyerSSernynyS则,前面已经计算2222211yeyeSrSr,22)1(yerS第三节线性回归的显著性检验及回归预测2、回归置信区间回归估计置信区间的构造与抽样估计中置信区间的构造方法相同。即为:)-15(6tSyy其中t为概率度,Sy为区间估计的回归标准差。在大样本情况下,Sy=Syx;在小样本情况下,则各点的回归估计标准差还要乘以一个调整系数,即:16)(611220-xxxxNSyxSy现以前面广告费用与商品销售量的直线回归估计为例,说明回归置信区间的构造方法。此例的n=10,是小样本,应分别就各个x点来构造其回归置信区间。在t=2,F(t)=95%,Syx=2.85时,各个X0点所对应的回归置信区间的计算及结果见表6-5。回归置信区间示意图四、