第八章相关与回归分析第一节相关分析第二节一元线性回归分析了解相关与回归分析的概念、特点,相关分析与回归分析的区别与联系;掌握相关分析的定性和定量分析方法;掌握回归模型的拟合方法、对回归方程拟合精度的测定和评价的方法。学习目的和要求1相关分析系数计算方法回归方程的建立学习重点2理解并掌握有关计算公式和应用条件学习难点31.函数关系它反映现象之间存在着严格的依存关系,在这种关系中,对于某一变量的每一个数值,都有另一个变量的确定值与之相对应,并且这种关系可以用一个数学表达式反映出来。如:圆的面积与半径之间的关系,即2RS第一节相关分析相关关系的概念2.相关关系它反映现象之间确实存在的,但关系数值不固定的相互依存关系。这一概念表明:a.相关关系是指现象之间确实存在数量上的相互依存关系。b.现象之间数量依存关系的具体关系值不是固定的。第一节相关分析3.相关关系与函数关系的联系由于有观察或测量误差等原因,函数关系在实际中往往通过相关关系表现出来。在研究相关关系时,又常常要使用函数关系的形式来表现,以便找到相关关系的一般数量表现形式。第一节相关分析第一节相关分析种类一元相关多元相关负相关正相关线性相关曲线相关xy正相关xy负相关xy曲线相关xy不相关算相关系数并检验估计值的可靠度定数学模型定相关密切程度定有无相关和类型相关分析内容(三)相关分析内容第一节相关分析(四)相关表和相关图1.相关表相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。例1:某地区某企业近8年产品产量与生产费用的相关情况如表6-1所示:第一节相关分析表1产品产量与生产费用相关表第一节相关分析从表可看出,产品产量与生产费用之间存在一定的正相关关系。相关图又称散点图,它是将相关表中的观测值在平面直角坐标系中用坐标点描绘出来,以表明相关点的分布状况。通过相关图,可以大致看出两个变量之间有无相关关系以及相关的形态、方向和密切程度。例2:以表1为例,用EXCEL绘制相关图如下第一节相关分析产品产量与生产费用相关图产品产量与生产费用相关图02040608010012014016018019971998199920002001200220032004时间生产费用0123456789产品产量生产费用(万元)产品产量(千吨)第一节相关分析相关系数是用来说明变量之间在直线相关条件下相关关系密切程度和方向的统计分析指标。其定义公式为:式中:表示数据项数,为自变量,为因变量。(五)相关系数nyynxxnyyxxr22)()())((nxy第一节相关分析相关系数的简化公式2222()()nxyxyrnxxnyy第一节相关分析例3:以表1为例,用EXCEL计算相关系数见表2。表2相关系数计算表第一节相关分析于是=0.96972288001042140084.3654.207888004.36454468r第一节相关分析(2)利用EXCEL计算相关系数以表6-1的资料为例,处理的简要步骤与结果如下:在EXCEL主页面中,从[工具]——[数据分析]——[相关关系]进入相关关系窗口做相应处理得以下结果:产品产量(千吨)生产费用(千元)产品产量(千吨)1生产费用(万元)0.9697041第一节相关分析3.相关系数的意义相关系数一般可以从正负符号和绝对数值的大小两个层面理解。正负说明现象之间是正相关还是负相关。绝对数值的大小说明两现象之间线性相关的密切程度。(1)r的取值在-1到+1之间。(2)r=+1,为完全正相关;r=-1为完全负相关。表明变量之间为完全线性相关,即函数关系。(3)r=0,表明两变量无线性相关关系。(4)r0,表明变量之间为正相关;r0,表明变量之间为负相关。(5)r的绝对值越接近于1,表明线性相关关系越密切;r越接近于0,表明线性相关关系越不密切。第一节相关分析相关程度可分为以下几种情况:①,为无线性相关;②0.3≤<0.5,为低度线性相关;③0.5≤<0.8,为显著线性相关;④≥0.8,一般称为高度线性相关。以上说明必须建立在相关系数通过显著性检验的基础之上。3.0rrrr(五)相关系数第一节相关分析4.相关系数的显著性检验样本相关系数的检验包括两类检验:(1)对总体相关系数是否等于0进行检验;(2)对总体相关系数是否等于某一给定的不为0的数值进行检验。(五)相关系数第一节相关分析对总体相关系数是否等于0的检验总体相关系数检验统计上用t检验。步骤如下:1.提出原假设和备择假设,假设样本相关系数r是抽自具有零相关的总体,即0H:=0,1H:≠0212rnrT(五)相关系数第一节相关分析2.规定显著性水平,依据自由度(n-2)确定临界值3.计算检验的统计量4.做出判断,将计算的统计量与临界值对比,若统计量大于或等于临界值,表明变量间线性相关在统计上是显著的,若统计量小于临界值,则说明相关关系在统计上并不显著第一节相关分析②取显著性水平,根据自由度查分布表得=2.4469例4:对例3中产品产量与生产费用间的相关系数检验0H:=0,1H:≠005.062nt025.02/tt229697.01289697.012rnrT第一节相关分析=9.7236③计算检验的统计量:①提出原假设和备择假设。④由于,则拒绝,表明变量间线性相关在统计上是显著的。即产品产量与生产费用之间的相关系数是显著的。2/tT0H第一节相关分析1.回归分析的概念回归分析就是对具有相关关系的变量之间数量变化的一般关系进行测定,确定一个相关的数学表达式,以便于进行估计或预测的统计方法。回归分析2.回归分析的特点(1)在变量之间,必须根据研究目的具体确定哪些是自变量,哪个是因变量(2)回归方程的作用在于,在给定自变量的数值情况下来估计因变量的可能值。一个回归方程只能做一种推算。推算的结果表明变量之间具体的变动关系回归分析(3)直线回归方程中,自变量的系数为回归系数。回归系数的符号为正时,表示正相关;回归系数的符号为负时,表示负相关。(4)确定回归方程时,只要求因变量是随机的,而自变量是给定的数值。回归分析回归分析回归变量个数回归形式一元回归多元回归线形回归非线性回归3.回归分析的类型回归分析1.一元线性回归模型的确定设有两个变量和,变量的取值随变量取值的变化而变化,我们称为因变量,为自变量;反之亦然。一般来说,对于具有线性相关关系的两个变量,可以用一条直线方程来表示它们之间的关系,即:倚回归方程:倚回归方程:xyyxxyxbxaycydycxc回归分析2.参数a、b的最小二乘估计其中,xy=nxyxbynxbnyayxxyxxnyxxynb222)(回归分析例5:以表4-1-1的资料,建立一元线性回归模型24.3654.207888004.36454468b128.959984.369599.12888800a=513.2323一元线性回归模型为:xyc9599.1282323.513以上模型表明:产品产量每增加1千吨,生产费用平均增加128.9599千元回归分析3.回归方程的显著性检验对于回归方程进行显著性检验基于以下两点:第一,在根据样本数据拟合回归方程时,我们首先假设变量与之间存在着线性关系,但这种假设是否成立?就必须通过检验才能证实;回归分析第二,样本回归方程中的参数是对总体回归方程中参数的最小二乘估计值,样本回归系数能否作为总体回归系数的估计值,还需要对总体回归系数的显著性进行检验。回归分析回归方程的检验一般包括两个方面的内容:一是线性关系的检验二是回归系数的检验回归分析(1)线性关系的检验具体方法是将回归离差平方和(SSR)同残差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著。检验的具体步骤如下:第一步,提出假设。H0:β=0,H1:β≠0:回归分析第二步,计算检验统计量F可以证明,在原假设成立的情况下,F统计量服从F分布,第一自由度为1,第二自由度为n-2,即F~F(1,n-2)。)2/()(1/)()2/(1/nyyyynSSESSRFcc回归分析第三步,确定显著性水平以及临界值F确定显著性水平(通常=0.05)。依据和两个自由度1f、2f查F分布表可得相应的临界值F。第四步,做出判断。如果FF,拒绝原假设0H,表明回归效果显著;反之,则接受原假设,表明线性回归方程的回归效果不显著。回归分析例6:以表6-1的资料为例,对其回归模型作F检验表6-3一元线性回归模型F检验计算表年份xycy2)(yyc2)(cyy19971.2620667.98418186637.672302.481519982860771.1521108140.947893.949319993.1800913.0079934966.01212770.80620003.811001003.27999354.77399354.77392001511501158.03183367.689864.50981120026.113201299.887739955.089404.5050120037.213501441.7436116788.678416.88452004816001544.9115197946.243034.7428合计36.488008799.9988697157.0944242.653回归分析F检验的步骤①提出假设。假设线性关系不显著。即0H:=0②计算检验统计量F。)2/()(1/)(nyyyyFcc=6/653.4424209.697157=94.54547③确定显著性水平以及临界值F。设=0.05,1f=1,2f=2n=6,查F分布得临界值99.5)6,1(05.0F④做出判断。由于F=94.5454799.5)6,1(05.0F,所以拒绝原假设0H,表明回归效果显著。回归分析(2)回归系数的检验回归系数的检验就是检验自变量对因变量的影响程度是否显著的问题。即总体回归系数是否等于零。其检验步骤如下:第一步,提出假设。假设样本是从一个没有线性关系的总体中选出,即0H:=0,1H:≠0第二步,计算检验的统计量T值。bSbT/其中:bS是回归系数b的标准差,yS是估计标准误差。回归分析回归系数的检验(续)22)(22nxybyaynyyScy22)(xxSSyb第三步,确定显著性水平(通常=0.05),并根据自由度2nf查t分布表得相应的临界值2/t。第四步,做出判断。若2/tt,拒绝0H,回归系数b=0的可能性小于5%,表明两个变量之间存在线性关系;反之,表明两个变量之间不存在线性关系。回归分析例6:以表6-1为例,对回归模型做回归系数检验①提出假设。0H:=0,1H:≠0②计算检验的统计量T值。2)(2nyyScy=6653.44242=85.8722)(xxSSyb=92.4187.852=13.26277回归分析于是,T=128.9599/13.26277=9.72345③取显著性水平=0.05,并根据自由度=6,查分布表得相应的临界值。④由于T=9.72345,拒绝,表明样本回归系数是显著的,生产费用与产品产量之间确实存在着线性关系,产品产量是影响生产费用的显著因素。回归分析以表6-1的资料为例,处理的简要步骤与结果如下:在EXCEL主页面中,从[工具]——[数据分析]——[回归]进入回归分析的窗口做相应处理得如下图所示结果。4.一元线性回归问题的EXCEL处理回归分析回归分析由上图可知:相关系数R=0.9697,F检验回归方程显著,t检验回归系数P值小于0.05,说明回归系数是显著的,于是有可预测的回归方程。回归分析5.回归预测在对一元线性回归模型检验其显著性之后,就可以利用该模型进