196第八章相关与回归分析第一节相关与回归分析概述在自然界和社会中的任何事物都是有机的相互联系。相互依赖,相互制约的,本章就是从数量方面对这种相互关系加以研究。一、相关分析概念1、函数关系。它是指现象之间存在着一种严格、准确的一、一对应的数量关系,即当一个变量发生数量上的变化时,都有另一个变量的确定值与之对应。2、相关关系是指某一现象与另一现象之间客观存在的,在数量表观上不确定的相互依存关系。相关关系与函数关系不同。在相关关系中,当一个现象发生数量上的变化时,另一个现象也相应的发生变化,但是数量表现上是不确定的,往往同时出现几个不同的数值,例如,人们的收入与银行的存款额之间有一定的关系存在。但在收入相同的人中,存款的数字多不相同。一般来说,收入高的人,存款多一些,然而究竟多存多少,是不能确定的,因为存款的多少,不但与收入多少有关,还与物价高低、消费水平的高低以及供养人口的多少等等因素有关,即使许多重要因素的条件都相同,也还有许多偶然因素在发生,但不管有多少因素影响储蓄存款的变化,收入多少毕竟是与存款额关系非常密切的一个因素,只是它们之间的这种依存关系在数量表现上是不确定的而已。在现实的社会经济现象中相关关系广泛存在:如农作物的197产量与施肥量之间的关系;钢的硬度与其含碳量之间的关系;广告费支出与产品销售量之间的关系,产品产量与单位成本之间的关系等等。3、相关分析是以相关关系为对象,是从数量上研究一个现象与另一个现象或另一组现象之间相关方向和相关密切程度的一种统计分析方法。二、相关分析的种类按照不同的标志,相关关系可以分为以下几类:(一)按相关关系的表现形态来划分,可分为直线相关和曲线相关(又称线性相关与非线性相关)。相关关系是一种数量上不严格的相互依存关系,是一种近似的配合。如果在直角坐标图上,其散点图各点大至散布在一条直线附近,近似地表现为一条直线,则把这种现象之间的关系称为直线相关。如果其散点图各点大至散布在一条曲线附近,近似地表现为一条曲线,则称为曲线相关。曲线相关也有不同的种类,如抛物线,指数曲线,双曲线等等。研究现象的相关关系,究竟取哪种形态,要对现象的性质作理论分析,并根据实际经验,才能得到较好解决.(二)按照相关关系涉及的变量(或因素)的多少可以分为单相关和复相关。单相关又称一元相关,是指两个变量之间的相关关系。如农作物的产量与施肥量之间的相互关系。复相关也叫多元相关,是指三个或以上变量之间的相关关系。如商品需求量,价格和消费者收入之间的相关关系。(三)按照直线相关(线性相关)变化的方向来划分,有正相关和负相关。自变量(X)的数值增加,因变量(Y)的数值也相应地增加,这叫198做正相关。例如施肥量增加,农作物亩产量也增加。自变量数值增加,因变量数值相应减少;或者自变量数值减少,因变量数值相应增加,相关的两个变量按不同的方向发生变化,这叫做负相关。例如产品生产越多,生产成本越低;商品价格降低,销售量增加。(四)按相关的程度来划分,可分为完全相关,不完全相关和完全不相关两种现象中一个现象的数量变化,随另一现象的数量变化所确定,这两种现象间的依存关系,就称为完全相关,如S=πR2,在这种情况下,相关关系就是函数关系;两种现象的数量各自独立,互不影响,称为完全不相关,如茶叶的收购量与钢铁的产量之间,是完全不相关的;两个现象之间的关系,介于完全相关与完全不相关之间,称为不完全相关。通常相关分析主要是不完全相关分析。以上相关关系种类,如图8-1所示。yy··················xx(1)完全正相关(2)不完全正相关yy··················xx(3)不完全负相关(4)完全负相关199yy···························xx(5)完全不相关(6)曲线相关图8-1二、相关分析的主要内容相关分析是用以分析社会经济现象间的依存关系,其目的就是从现象的复杂关系中消除非本质的偶然影响,从而找出现象间相互依存的形式和密切程度以及依存关系变动的规律性。这在实际工作中运用得非常广泛。相关分析的主要内容如下:(一)确定现象之间有无关系,用定相关关系的表现形式。确定现象之间有无相关关系存在,以及有什么样的相关关系,即定性分析。这是相关分析的出发点,有相互依存关系才能用相关方法进行分析。(二)确定相关关系的密切程度。相关分析的目的之-,就是从不严格的关系中判断其关系的密切程度。判断的主要方法,就是对自变量和因变量的数据资料编制相关表、绘制相关图,帮助我们作一般性判断相关的密切程度,进而计算出相关系数。(三)选择合适的数学模型。确定了现象间却有相关关系以及其密切程度,就要选择恰当的数学模型(即数学表达式),来近似地描述变量之间的联系。如果现象之间表现为直线相关的关系,则配合直线方程加以进行描200述、估计、推断和预测;如果现象之间表现为曲线相关的关系,则配合曲线方程加以进行描述、估计、推断和预测。第二节一元线性相关与回归分析一、相关分析1、编制相关表、绘制相关图编制相关表。相关表是绘制相关图,计算相关系数以及建立回归方程的依据。在确定现象之间存在相关关系后,将自变量的值按大小顺序排列,因变量的值与之对应排列,来编制相关表。例如为了研究分析某工厂每个工人生产甲产品的年平均产量与单位成本的关系,可将该企业六年的数据编制成相关表。(如表8-1)绘制相关图。根据相关表的资料绘制相关图,以便性直观地判断现象相关的方向、形态和关系紧密程度。(如图8-2)从以上表和图中可看出产品平均产量与单位成本关系较密切,且有线性相关(直线相关趋势)关系。还可以看出,随着产量的增加,单位产品成本有下降的趋势,两者有负相关关系。2、计算相关系数。相关表与相关图只能对现象相关的方向、形态和关系紧密程度作一般性直观判断,相关系数则能从数量上说明相关关系的密切程度。201表8-1某工厂甲产品的年平均产量与单位成本相关表年份平均每个工人年平均产量(十件)单位成本(千元)1993510199469.5199598.51996118.01997127.51998157.0图8-2相关系数是测定在直线相关(线性相关)条件下现象之间关系密切程度的统计分析指标,常用r表示。其定义式为:222)(1)(1))((1yynnyynryxxy式中:x——x变量的标准差051015024681012141618年平均产量(10件)单位成本(千元)202y——y变量的标准差2xy——xy的协方差n——xy对应数据的项数将上面公式简化为:2222)()(yynnyxxynr相关系数r的变动范围在–1与+1之间。即:–1≤r≤1通常相关系数r的绝对值越接近±1,表示两个变量间的线性相关程度越高;相关系数r的绝对值越接近0,表示两个变量间的线性相关程度越低。相关系数r仅适合用于直线相关作测定,不适合对曲线相关进行测定,曲线相关的测定,应计算相关指数。确定现象之间相关关系的强弱程度,可根据相关系数数值的大小划分为若干评价等级,即:|r|<0.4低度相关0.4≤|r|≤0.7显著相关0.7<|r|高度相关203例如,根据表8-1某工厂每个工人生产甲产品的年平均产量与单位成本的关系,计算相关系数(见表8-2)表8-2相关系数计算表序号平均每个工人年平均产量(十件)X单位成本(千元)YX2Y2XY15102510050269.53690.2557398.58172.2576.54118.012164885127.514456.25906157.022549105合计5850.5632431.75466.5由上表2222)()(yynnyxxynr225.5075.43165863265.50585.4666=99.0表明平均每个工人的年产量与单位成本之间为高度负相关的关系。二、回归分析(一)回归分析的概念和种类204相关关系的主要特征是具有相关关系的现象的变量之间客观上存在着内在的联系,当自变量变动一个确定的值,则因变量就有许多值与之相对应地变动,尽管这种变动不是确定的和严格依存的,但却总是按其一定的分布规律围绕着自变量的平均数而变动。这就是说,对于自变量x的某一确定值,因变量y可以有一个平均值与之对应。这样,现象之间本来数量上不确定的相关关系就转变为数量上确定的函数关系,从而为研究现象间的数量依存关系提供了可能。我们以一定的数学表达式将其反映出来。这样的数学表达式称为回归方程式,而根据回归方程所进行的分析称为回归分析。从研究对象来看相关分析与回归分析存在着联系,它们都是分析变量之间的相互关系,且回归分析只有在相关程度显著时,才有价值。相关分析与回归分析又有区别,相关分析能说明变量间相互关系的方向和紧密程度。但不能说明两个变量间的一般数量(关系值)变动规律。而回归分析则能说明变量间的一般数量(关系值)变动规律。客观现象之间的联系是很复杂的,存在着不同的类型和表现形式。因此,回归分析也有不同的类型。(1)按照自变量的个数多少。分为一元回归和多元回归,只有一个自变量的叫一元回归,或称简单回归。有两个或以上自变量的叫多元回归,或称复回归。(2)按回归线的形状分,有直线回归(线性回归)和曲线回归(非线性回归)。(二)一元线性回归分析如果两种现象之间存在着密切的线性相关关系,则可建立一元线性回归方程,来揭示二者之间的数量变动关系和数量变动规205律。一元线性回归方程是表明两个变量之间线性相关系的方程式,也称为简单线性回归方程、或简单直线回归模型。计算公式为:yˆ=a+bx式中:yˆ——因变量估计值(回归理论值、计算值)a——回归直线的起始值,也就是当x为0时的yˆ值。从经济意义上理解,就是在没有自变量x的影响时,其他各种影响因素对yˆ的影响(因变量估计值)b——回归直线斜率,也称回归系数,表明x每变动一个单位时,yˆ平均变动的数量。确定回归方程的参数a和b最主要的方法是最小平方法,这一方法的原理与研究步骤与本书长期趋势测定的内容相同,即根据下列标准方程组,建立一元线性回归方程,并进行简单的回归预测。22)(xxnyxxynbxbya回归系数b是直线的斜率,从其算式中可以看出,分母是所有自变量x与其平均数x的离差平方和,只要所有观察x的观察值不完全相等,它必然是个大于0的数,因此它的符号取决于分子中两个离差乘积之和。当b>0时,yˆ有随x的增加而增加的趋势;而当b<0时。yˆ有随x增加而减少的趋势。206例如,根据表8-2资料,我们来研究工人年平均产量对单位成本的影响,根据图中反映的趋势,我们可以考虑用线性回归方程yˆ=a+bx来表达。要解方程,必须求出方程的参数a、b,计算如下:2225863265.50585.4666)(xxnyxxynb=-0.3037xbya=8.4167-(-2.9358)=11.352回归系数b与相关系数r之间在正负方向上具有同一符号,即相关系数r为正数,表明现象是正相关关系,回归系数b也为正数;相关系数r为负数,表明现象是负相关关系,回归系数b也为负数。且两者存在以下数学关系:xyyxrbbr或(三)回归估计标准差根据回归方程,知道自变量的数值,就可以推算出因变量的估计值。但是,因变量的每一个实际值与其对应的估计值并不完全相等,从散点图上看每个散点不都是落在回归直线上,各散点和回归直线上对应点的距离就是因变量实际值与估计值之间的距离。我们用回归估计标准差来反映因变量各实际值与估计质之间的差异程度。207公式:nyyy2ˆ)ˆ(nxybyayy2ˆ65.466)3037.0(5.50352.1175.431=0.3873表明因变量单位成本的每一个实际值与估计值之间平均相差0.3873千元。回归估计标准差yˆ越大,说明实际值与估计值之间差异程度越大,估计值的代表越弱。回归估计标准差yˆ越小,说明实际值与估计值之间差异程度越小,估计值