《统计学》讲义第七章1第七章相关与回归分析第一节相关分析的意义和种类一、相关分析的概念现象之间的相互关系可以分为两种不同的类型:(一)函数关系它反映现象之间存在着严格的依存关系,在这种关系中,对于某一个变量的每一个数值,都有另一个变量的确定值与之相对应,并且这种关系可用一个函数式表达出来。例如:圆周长L与圆半径r之间存在严格的确定性关系,因而两者的相关关系为函数关系,即rL2。(二)相关关系它反映现象之间客观存在的、不严格、不确的相互依存关系。这种关系不能通个别现象体现其关系的规律性,必须在大量现象中才能体现出来。相关分析是研究一个变量(y)与另一个变量(x)之间相关方向与相关密切程度的一种统计分析方法。二、相关关系的种类(一)按相关的方向分为正相关和负相关正相关是指两个变量之间的变化方向一致,都是增长趋势或下降趋势。负相关是指两个变量之间的变化趋势方向相反,一个上升而另一个下降。(二)按相关的形式可分为直线相关的非直线相关直线相关,又称线性相关。是指当相关关系的一个变量变动时,另一个变量也相应地发生大致均等的变动。非直线相关,又称非线性相关或曲线相关。是指当相关关系的一个变量变动时,另一个蛮量也相应地发生变动,但这种变动是不均等的。正、负相关散点图及曲线相关散点图下如:三、相关分析的主要内容1、确定现象之间有无关系存在,以及相关关系的形态。2、确定相关关系的密切程度。3、确定相关关系的数学表达式。如果现象之间的关系是直线相关,则配合线性方程;如果是曲线相关,则配合曲线方程。这是进行判断、推算和预测的依据。4、确定因变量估计值误差程度。确定因变量估计值误差大小的指标是估计标准误差,估计标准误差大,表明估计不太精确;估计标准误差大小,表明估计较精确。第二节相关关系的测定一、相关表和相关图(一)简单相关表和相关图对资料较少的,可不分组,只将自变的变量值值按大小顺序加以排列,因变量的变量值一一加以对应,排列其变量值则可编成简单相关表。例:某企业工人劳动生产率和利润率相关表如下:序号工人劳动生产率(千元)利润率(%)序号工人劳动生产率(千元)利润率(%)《统计学》讲义第七章2123458101011125.56.06.57.07.967891012141618198.08.59.010.512.5根据表中资料,可绘制相关图如下:(二)分组相关表和相关图1、单变量分组相关表和相关图单变量分组相关表,是将两个变量中的一个变量进行分组,而另一个变量不分组,并对分组的变量计算各组的次数,对不分组的变量则计算其平均数。例:某地水稻浇水量和产量相关表如下:浇水深度(公分)田块数平均亩产(公斤)35781012131554366757235317348405463478380365相关图与前面绘图技术相似。2、双变量分组相关表双变量分组相关表,就是对两个变量都进行分组而编制的相关表。例:30个同类企业产量和单位成本相关表:单位成本y(元/件)产量(件)x合计200300400500800180160441————32————131——132————1449107150140合计9556530双变量分组表,由于对两个变量都进行了分组,加权的方法要复杂一些。一般情况下很少使用双变量分组表进行计算。二、相关系数(一)相关系数的意义相关系数是直线相关条件下,说明两个现象之间相关关系密切程度的统计分析指标,记为r。相关系数的特点:1、两个变是是对等的,不分自变量与因变量。因此,相关系数只有一个。2、相关系数有正、负号,正号表示正相关,负号表示负相关。3、计算相关系数对资料的要求是,相关的两个变量必须都是随机的,这也反映对等关系。《统计学》讲义第七章3(二)相关系数的计算方法1、积差法yxxyr2先计算三个指标:22)(1)()1(xxnnxxxx变量数列的标准差22)(1)()2(yynnyyyy变量数列的标准差))((1))(()3(2yyxxnnyyxxyxxy变量数列的协方差变量数列和所以相关系数可以写成:222)(1)(1))((1yynxxnyyxxnryxxy上面公式的分子和分母中,都有公因子n1,同时约掉,相关系数的公式可写成:22)()())((yyxxyyxxr该公式是通过将各个离差相乘的方法来说明相关程度的,所以把它叫做“积差法”相关系数公式。2、简捷法上述“积差法”相关系数公式,是根据xx,yy的数值计算的,当x和y为除不尽的小数时,计算既麻烦又影响其准确性。在实际中,可运用简捷法计算相关系数。简捷法公式可由“积差法”相关系数计算公式推导得出:《统计学》讲义第七章4nxxnxnxxnxxnnnxxxxxxxxxxxxx2222222222222)()(2)2()2()(用同样方法可得:nyxxyyyxxnyyyy))(()()(222把以上结果代入积差法相关系数公式;即可得出相关系数简捷法公式,即:22222222)()()()(yynxxnyxxynrnyynxxnyxxyr现引入以下几个符号(这些符号在回归分析中也要使用),即:))((2)(2)(yyxxLxyyyLyyxxLxx则相关系数公式可写成:LyyLxxLxyr从此式中可以看出:r的正负号取决于分子Lxy,当Lxy为正值时,得出r为正相关,当Lxy为负值时,得出r为负相,r与Lxy的符号保持一致。(三)相关系数的密切程度相关系数的数值范围,是在-1和+1之间,即11r。计算结果r0为正相关,r0为负相关。《统计学》讲义第七章5r的数值越接近于1(-1或+1),越接近于0,表示相关关系越弱。11rr或,表示两个现象完全直线相关。0r,表示两个现象完全不相关。但可能存在其他非直线类型的关系。判断相关关系密切程度的划分方法:3.0r无直线相关;5.03.0r低度直线相关;8.05.0r显著直线相关;18.0r高度相关。例:某城市10家商店人均月销售额和利润率的资料如下表序号人均月销售额(千元)x利润率(%)yx2y2xy123456786581476312.610.418.53.08.116.312.36.236256811619369158.76108.16342.259.0065.61265.69151.2938.4475.052.0148.03.032.4114.173.818.6910376.616.894943.56282.2419.8117.6合计50110.82941465.00654.9根据表中资料,试用简捷法公式计算相关系数。988.012.10290.100237449.1009.100108.110509.165423710)8.110(1465)(4410)50(294)(2222222LyyLxxLxyrnyxxyLxynyyLyynxxLxx计算结果表明,人均月销售额和利润率之间存在着高度的正相关关系。《统计学》讲义第七章6第三节回归分析一、回归分析的意义(一)什么是回归分析回归分析是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,建立一个相应的数学表达式,(即回归方程式),用来近似的表示变量间的平均变化关系的一种统计分析方法。(二)回归分析的特点就一般意义而言,相关分析包括回归与相关两方面内容,但就具体方法所解决问题而言,回归分析与相关分析是有明显区别的,因而两者是既有联系又有区别的不同统计分析方法。1、与相关分析(狭义的)比较,回归分析的特点(1)两个变量不是对等的,要区分自变量和因变量。(2)回归分析可以依据回归方程,用自变量数值推算因变量的估计值。(3)在互为因果关系的x、y两个变量中,可以根据研究目的不同分别建立两个不现的回归方程:一个是以x为自变量,y为因变量的回归方程,称为“y倚x回归方程”,即bxayˆ;另一个是以y为自变量,x为因变量的回归方程,称为“x倚y回归方程”,即:ybax''ˆ。两个方程是互相独立的,不能互相替换。(4)直线回归方程中的回归系数有正负号,正回归系数表示上升直线,说明两变量之间是同方向变动;负回归系数表示下降直线,说明两变量之间是反方向变动。(5)回归分析对资料的要求,因变量是随机的,而自变量不是随机的,是给定的数值。2、回归分析与相关分析的联系(1)相关分析是回归分析的基础和前提。(2)回归分析是相关分析的深入和继续。回归分析有四种类型,即:一元线性回归方程、多元线性回归方程、一元非线性回归方程和多元非线性回归方程。二、一元线性回归方程一元线性回归方程,又称简单直线回归方程。它只有一个自变量和一个因变量,而且两个变量的增量按一定的比例变化。一元线性回归方程虽然简单,但是最基本的、重要的,因为现象数量之间的变化,常常是按比例变化的,而且许多非线性变化在较短时间内也近似于线性变化,可以利用线性分析方法。(一)一元线性回归方程的建立一元回归分析的任务,就是在若干分散的具有线性相关的相关点之间,配合一条最优直线,以表明两变量之间具体的变动关系。一元线性回归方程的基本形式是:ybaxyxbxayxy''ˆ:ˆ:回归方程倚回归方程倚以上两种回归方程中,只是x和y的位置互换罢了,实际上其计算方法是一致的。在两种变量只有单方面的因果关系时,只能用一个回归方程式表示,一般是y倚x回归直线方程:bxayˆ式中:x为自变量,yˆ为因变量y的估计值(或理论值),在直角坐标图形中a为纵轴上的《统计学》讲义第七章7截距,表示直线的起点,b为直线的斜率,称为y对x的回归系数,表明x每变动一个单位时,影响y平均变动的数量,a和b都是待定参数。求出这两个参数,回归方程也就确定了。统计中估计a、b的参数最常用的方法是最小二乘法。最小二乘法的原理是:y与yˆ的离差平方和为最小。用这种方法求出的回归线是原资料的最优直线,就y倚x回归线来讲:最小值2)ˆ(yy这里的最小二第六法与动态数列一章中长期趋势测定的最小二乘法是同一方法。实际上,长期趋势测定也是回归法的一种,它是把时间作为自变量,动态指标点作为加变量计算的,因此,那里讲的有关公式,这里都适用,只要把时间变量的符号t改为自变量x即可。两个标准方程式为:2xbxaxyxbnay解之可得:xbyanxxnyxxyb22)(将a、b值代入bxayˆ中即为所求的回归直线方程。如果已用积差法计算了相关系数,有了相应资料,可利用相应资料求b值。LxxLxynxxnyxxyb22)(例18个企业生产某种产品的月产量与生产费用与生产费用资料及有关计算如下表:序号产品产量(千吨)x生产费用(万元)yxyxyyˆ2)ˆ(yy11.2621.44384474.466.7922.944122.0864.007396172.077.1179.032133.1809.616400248.091.30127.690043.811014.4412100418.0100.3393.508955.011525.0013225575.0115.810.656166.113237.2117424805.2130.004.000077.213551.8418225972.0144.1984.456188.016064.00256001280.0154.5130.1401合计36.4880207.541042144544.6880.00442.4274根据上表资料计算相关系数,并建立直线回归方程。(1)计算相关系数《统计学》讲义第七章897.049.576.540741492.416.5406.54088804.366.454474148)880(10421