第八章相关与回归分析客观现象总是普遍联系和相互依存的。在社会经济活动中,我们经常要对变量之间的关系进行分析,比如在企业生产中,我们要对影响生产成本的各种因素进行分析,以达到控制成本的目的;在农业生产中,我们需要研究农作物产量与施肥量之间的关系,以便分析施肥量对产量的影响,进而确定合理的施肥量;在商业活动中,我们需要研究广告费支出与销售量之间的关系,进而通过广告费支出来预测销售量等等。研究客观现象的相互关系,既要做定性分析,也要做定量分析,以测定它们之间联系的紧密程度,揭示它们之间的依存规律。本章介绍的相关分析与回归分析就是一种重要的定量分析方法,在自然科学、工程技术以及社会经济领域都得到广泛的应用。第一节相关与回归分析的概念一、函数关系与相关关系客观现象的相互联系可以分为两类,一类是函数关系,另一类是相关关系。当一个变量或几个变量取一定数值时,另一变量有确定的值与之对应,我们称这种关系为确定性的函数关系。例如,某商品的的销售量X和销售价格P与该商品销售收入Y之间的关系可以用Y=PX来表示,这就是一种函数关系。一般把作为影响因素的变量称为自变量X,把发生对应变化的变量称为因变量Y。当一个变量或几个变量取一定数值时,另一变量的值虽然不确定,但按某种规律在一定的范围内变化,我们称这种不确定的关系为相关关系。相关关系大量的存在于社会经济活动中,例如,居民储蓄额与居民家庭收入的关系;子女身高与父母身高的关系;施肥量与产量的关系;收入水平和受教育程度的关系、投资额与国内生产总值的关系等。变量间函数关系和相关关系在一定的条件下可以相互转化。具有函数关系的变量,当存在观测误差时,其函数关系往往以相关关系的形式表现出来;而具有相关关系的变量之间的联系,如果我们对它有了深刻的规律性认识,并且能够把因变量变动的因素全部纳入方程,相关关系也可以转化为函数关系。另外,相关关系也具有某种变动规律,所以,相关关系经常可以用一定的函数形式去近似地描述。客观现象的函数关系可以用数学分析的方法去研究,而对现象的相关关系的研究必须借助于相关分析与回归分析。应该指出,不论在哪种情况下,作为研究对象之间的相关关系,必须是真实的、具有内在联系的关系,而决不是臆造的,或形式上的偶然巧合。因此,统计学在研究相关关系时,应当根据有关的科学理论,通过观察或实验,在对现象进行定性的分析研究的基础上,建立这种联系,并且要通过理论或实际的检验,只有这样,才能通过研究得出科学的、有意义的结论。二、相关关系的种类现象之间的相关关系可以按照不同的标志加以区分。(一)按相关程度分为完全相关、不完全相关和不相关当一个现象的数值变动,另一个现象必有确定的值与之对应,这种关系为完全相关关系。例如,在利率不变的条件下,储户一定的储蓄额对应于一定的利息。可以说,函数关系是相关关系的一种特例。当两个变量互不影响,其数量变化各自独立,称为不相关现象。例如,企业产品产量的多少与学生学习成绩的高低是无关的。若两个现象之间的关系介于完全相关和不相关之间,即当一个现象的数值变动,另一个现象有若干个不确定的值与之对应,就称为不完全相关。一般的相关现象都是指这种不完全相关,这是相关与回归分析的研究对象。(二)按相关性质分为正相关和负相关两个现象之间,当一个现象的数值由小变大或由大变小,另一个现象的数值相应的由小变大或由大变小,即现象之间的变动方向相同,这种相关称为正相关。例如,居民的消费支出随着收入的增长而增加、工人的工资随着劳动生产率的提高而增加、企业的产品成本总额随着产量的减少而减少,等等。当一个现象的数值由小变大或由大变小,而另一个现象的数值则相应的由大变小或由小变大,即变化的方向相反,称为负相关。例如,商品的流转规模越大流通费用率则越低、企业的产品产量越大则单位产品成本越低等等。(三)按相关形式分为线性相关和非线性相关当一个变量X每增减一个单位,另一个变量Y按一个大致的固定的增减量变化时,我们将X、Y的若干变量值描绘在坐标图上,大致呈直线分布,故称为线性相关(或直线相关)。例如,在一定的范围内,人均消费水平与人均收入水平、农作物产量与施肥量大致呈直线相关。若一个变量每增减一个单位,另一个变量不按一个大致的固定的增减量变化,称为非线性相关(曲线相关)。例如,企业的产品产量每增加一个单位,则单位产品成本的降低量逐步减小;随着商品的流转规模的扩大,流通费用率下降的速度逐步趋缓,它们之间是非线性相关关系。(四)按相关关系涉及变量的多少分为单相关、复相关和偏相关两个现象的相关,即一个变量对另一个变量的相关关系称为单相关。例如,居民的储蓄额与居民的收入、企业的产品产量与单位产品成本的相关关系。三个或三个以上变量的相关关系称为复相关。例如,居民的储蓄额与居民的收入和居民的消费水平、企业的单位产品成本与产品产量和原材料价格的相关关系便是复相关。在研究某一现象与多种现象的相关关系时,假定其它变量不变,其中两个变量的相关关系称为偏相关。例如,在假定居民消费水平不变的条件下,居民的储蓄额与居民的收入的关系就是偏相关。三、相关分析与回归分析相关分析与回归分析是研究相关关系的两种重要的定量分析方法,它们相互联系但又相互区别。二者的主要区别在于分析的内容不同。相关分析的主要内容是确定现象之间关系呈现的形态或类型、度量关系的密切程度。回归分析则是根据相关关系的具体形态,选择合适的数学模型,来近似的表达现象间的相互依存规律。其次,二者在研究目的和研究方法上有明显的区别。相关分析的目的在于在研究现象之间关系类型、方向及关系的密切程度;在研究时,变量之间的地位是平等的,即在进行相关分析时,不必要确定哪个是自变量,哪个是因变量;且研究的变量可以都是随机变量。而回归分析的研究目的在于确定变量之间相互依存的具体形式,即确定反映现象相互关系的数学方程式,并根据这个方程式由已知量推测未知量,为预测和估算提供一种重要的方法。因此,回归分析必须要确定变量中哪个是自变量,哪个是因变量;且一般来说,回归分析中的自变量是非随机变量,因变量是随机变量。尽管相关分析与回归分析研究的内容、目的和方法不同,但有着密切的联系。它们具有共同的研究对象,即研究具有相关关系的现象。此外,在具体分析时,常常必须相互补充。比如,通过相关分析我们知道某两个现象存在高度相关关系,但它们之间数量上的依存规律则需要依靠回归分析揭示。回归分析时将哪些变量纳入回归模型,需要进行相关分析;只有现象之间存在较密切的相关关系时,回归分析得出的数学模型才有意义。由于上述原因,一些统计学书籍将相关分析与回归分析合并,称为回归分析。相关分析与回归分析可以加深人们对客观现象之间关系的认识,因而是对客观现象进行分析的有效方法。但是,它们也存在一定的局限性。现象之间是否存在真实的相关关系是由现象的内部联系所决定的。相关分析与回归分析虽然可以从数量上近似地反映现象之间的依存规律关系和关系的密切程度,但是无法准确地判断现象内在联系的有无,也无法确定何种现象为因何种现象为果。现象的内在联系和因果关系的确定必须以相关理论为指导,结合专业知识和实践经验进行分析研究才能解决。对没有内在联系的现象进行相关回归分析,不但没有实际意义,反而会导致荒谬的结论。因此,在运用相关分析与回归分析时,一定要定性分析与定量分析向结合,在定性分析的基础上开展定量分析。第二节线性相关分析一元线性相关分析主要包括两个方面的内容,一是判断两个变量之间是否存在线性相关关系,二是研究两个变量之间相关关系的密切程度。一、相关关系的判断相关关系的判断常常采用两种简单的方法。(一)定性判断相关关系是现象间内在联系的一种表现形式。判断是否具有这种关系,显然应该首先从现象的性质上来判断,然后再进行定量分析。这种判断的正确与否,取决于对现象的认识程度。一般说来,对现象做过亲自考察,理论知识又比较丰富的人,对现象性质的认识就比较深刻,判断就比较可靠。用定性分析来判断相关关系,对回归与相关这种定量分析来讲,是至关重要的。可以说定性分析是定量分析的前提和根据。(二)绘制相关表和散点图如果通过定性分析确定现象之间具有相关关系,我们就可以进一步从现象数量表现上来判断这种关系是否存在,以及关系的类型与密切程度如何。在统计中通常采用绘制相关表或散点图亦称相关图来进行这种判断。将有关变量(两个变量)的原始资料按某一变量取值的大小顺序平行排列,以便观察它们之间的相互变动关系的表,称为简单相关表,见表8-3。编制简单相关表的目的,除了便于观察变量之间的线性相关关系外,也便于绘制散点图即相关图。散点图是直观描述变量之间关系的一种工具。它是利用直角坐标第一象限,将变量X置于横轴、变量Y置于纵轴,再将两变量相对应的变量值用坐标点的形式描绘出来,用以表明坐标点分布状况的图形。通过坐标点的分布和走向,我们可以判断两个变量是否有关系,是什么样的关系,从而为选择回归模型提供依据。图表8-1就是不同形态的散点图。正的线性相关负的线性相关正的非线性相关负的非线性相关无线性关系图表8-1不同形态的散点图例1对一居民小区的10户家庭的月消费支出和可支配收入进行调查得到如下原始资料(元),据此编制相关表和绘制相关图。图表8-2居民消费支出和可支配收入的原始资料编号12345678910消费支出60045050080042075092078012001500可支配收入950680720102075010001350126018002150将以上资料按可支配收入从小到大的顺序排列,可得到以下相关表:图表8-3居民消费支出和可支配收入的相关表可支配收入(元)680720750950100010201260135018002150消费支出(元)45050042060075080078092012001500从图表8-3中可以看出,居民消费支出随着可支配收入的提高相应增加,两者之间存在明显的正相关关系。根据图表8-3资料,用Excel绘制相关图步骤如下:第一步,将图表8-3的资料输入Excel;第二步,点击插入\图表xy散点图\“下一步;(要与实际相一致,已经改过)第三步,在“数据区域”中引用第一步输入的资料、“下一步”;第四步,点击“标题”、填写标题、X轴、Y轴的具体内容;点击“下一步”、“完成”。经过一些修饰,得到如下的图形:从图表8-4中可以直观地看出,居民可支配收入与消费支出两者之间存在明显的正线性相关关系。二、相关系数的计算及意义通过相关表和散点图可以明确、直观地判断两个变量间有无关系,并对变量间的关系形态作出大致的描述,但不能准确反映变量之间关系的密切程度。为准确度量两个变量之间关系的密切程度,需要计算相关系数。图表8-4消费支出与可支配收入相关图0200400600800100012001400160005001000150020002500可支配收入消费支出度量两个变量之间线性相关程度的相关系数称为简单相关系数。若相关系数是根据总体的全部数据计算的,称为总体相关系数,记为ρ;若根据样本数据计算的,则称为样本相关系数,记为r。样本相关系数的计算公式为:22yyxxyyxxr(8.1)或2y2yn2x2xnyxxynr(8.2)现将相关系数的性质归纳如下:1.系数的取值范围在-1与+1之间,即:-1≤r≤+1;2.为正数,表明X与Y变量之间存在正相关关系;若r为负数,表明X与Y变量之间存在负相关关系。3.若r=+1,表明x、y之间为完全正相关关系,若r=-1,表明x、y之间为完全负相关关系;若r=0,表明y的取值与x无关,或二者不存在线性相关关系;4.|r|0.3时,说明两变量之间的关系极弱,或视为不相关;若0.3≤|r|≤0.5时,为低度相关;若0.5≤|r|≤0.8时,为中度相关;若|r|≥0.8时,为高度相关。应注意的是,以上结论必须建立在对相关系数进行显著性检验的基础之上。例2根据例1的资料计算居民月消费支出和可支配收入相关系数。根据图表8-1的有关数据计算相关系数如下。图表8-5居民消费支出和可支配收入相关系数计算表编