第七章§1.相关关系相关与回归一、相关关系的概念现象之间的数量关系存在着两种不同的类型:一种是函数关系,另一种是相关关系。函数关系指的是变量之间存在着的严格的依存关系,它们之间的关系值是固定的,对于某一变量的每一个值,都有另一个变量的完全确定的值与之相对应。例如,圆的面积等于圆周率乘以半径的平方。相关关系是指变量之间确实存在的但关系值不固定的相互依存关系。在这种关系中,当一个(或几个)变量的值确定以后,另一个变量的值虽与它(或它们)有关,但却不能完全确定。这是一种非确定性的关系。例如,电视机的拥有率与人均收入水平有关,但对于人均收入水平相同的地区,其电视机的拥有率可能不尽相同。在客观事物中,尤其是在经济现象中,相关关系普遍存在。统计很有必要对这种关系进行研究。在相关关系中,通常,在相互联系的现象之间存在着一定的因果关系,这时就把其中的起着影响作用的现象具体化,通过一定的变量反映出来,这样的变量称为自变量。由于受到自变量变动的影响而发生变动的变量称为因变量。在相关关系中,有时两个变量之间只存在相互联系而并不存在明显的因果关系。确定哪一个是自变量,哪一个是因变量,主要决定于研究的目的。例如,在粮食亩产量与施肥量之间,施肥量这一变量是自变量,亩产量这一变量是因变量。当研究的是两个变量之间的关系时,通常以符号X表示自变量,以符号Y表示因变量。二、相关关系的种类相关关系从不同的角度可以划分成不同的类型。(一)正相关与负相关从相关的方向看,相关关系可以分为正相关和负相关。负相关是指相关变量之间的变化趋势相反,即当自变量的值增加,因变量的值随之减少;当自变量的值减少,因变量的值随之增加。例如,产品产量与单位产品成本之间的关系。正相关是指相关变量之间的变化趋势相同,即当自变量的值增加,因变量的值也随之增加;当自变量的值减少,因变量的值也随之减少。例如,汽车的使用年限与汽车的修理费用之间的关系。(二)线性相关与非线性相关从相关的形式上来看,相关关系可分为线性相关和非线性相关。线性相关也称直线相关,是指相关的两个变量之间变化的趋势呈线性或近似于线性。即自变量发生变动,因变量随之发生变动,其增加或减少量是大致均等的,从图形上看,其观察点的分布近似表现为直线形式。非线性相关也称曲线相关,是指相关的两个变量之间变化的趋势呈非线性。即自变量发生变动,因变量随之发生变动,但其增加或减少量不是均等的,从图形上看,其观察点的分布表现为各种曲线形式。(三)单相关和复相关从相关变量的个数来看,相关关系可分为单相关和复相关。单相关是指两个变量之间的相关关系。复相关是三个或三个以上变量之间的相关关系。例如,仅仅考虑施肥量对产量的影响,这就是一种单相关;如果除了施肥量之外,再考虑降雨量及深耕程度对产量的影响,则这种相关关系就是一种复相关。三、回归与相关分析的概念在对变量之间存在的相关关系进行分析研究时,最常用的方法就是回归分析和相关分析。回归分析和相关分析是相互联系的,它们从不同方面研究变量之间相关关系的本质。回归分析是用来研究变量之间关系的可能形式的统计方法。它把两个或两个以上变量之间的变动关系加以模型化,用数学函数表达变量之间的关系。运用这种方法时,最终的目的通常在于预测或估计与某一个或某几个变量的给定值相对应的另一变量的数值。相关分析是研究如何计量变量之间关系强度的统计方法。它能确定变量之间相关的程度,即变量之间某种关系的确切程度有多大。回归分析和相关分析既有联系,又有区别。就其研究对象来说,两者都是研究变量之间的相关关系。但就彼此研究变量之间关系的性质来看,两者存在明显的区别。回归分析中,必须将相关变量区分为自变量和因变量,以确定其关系的可能形式,所研究变量属于非对等关系。相关分析中,计量变量之间关系的强度,不必区分自变量与因变量,所研究变量属于对等的关系。四、相关图表对现象变量之间是否存在相关关系以及存在怎样的相关关系进行分析、作出判断,这是进行回归和相关分析的前提。通过编制相关表和相关图,可以直观地、大致地判断现象变量之间是否存在相关关系以及关系的类型。(一)相关表相关表是表现现象变量之间相关关系的表格。例如,为研究商店人均月销售额和利润率的关系,调查10家商店取得10对数据,以人均销售额为自变量,利润率为因变量,编制简单相关表如下表。人均销售额与和利润率相关表编号人均月销售额(千元)利润率(%)1234567891013345667783.06.26.68.110.412.612.316.316.818.5(二)相关图所谓相关图,是把相关的两个变量之间的关系在平面直角坐标(第一象限)中反映出来。通常将自变量(x)置于横轴上,因变量(y)置于纵轴上,而将两个变量相对应的变量值用坐标点形式描绘出来。相关图就是用相关点的分布状况来描述相关关系的,所以又称为散点图。根据相关图,可以直观地看出变量之间相关关系的模式。例如,前述人均月销售额与利润率的关系,可用相关图表示如下:利润率(%)人均销售额(千元)120人均销售额与利润率相关图510152384567从图中,我们可以清楚地看出,这两个变量之间相关的方向(即正相关)以及相关的具体形式(直线相关)(a)直线关系(b)反直线关系(c)正曲线关系(e)较分散的反直线关系(d)反曲线关系(f)没有关系x与y的一些可能关系的散点图上图说明了相关图中的一些可能关系。图(a)和(b)表示的是正的和反的直线关系,即正线性相关和负线性相关。图(c)和(d)分别表示的是正的和反的曲线关系,即正非线性相关和负非线性相关。图(e)中是散布域很宽的反直线关系。散布域越宽,则表明变量之间的联系程度越差。图(f)中的图象表明两个变量之间没有什么关系。§2.简单线性回归一、回归直线的确定如果变量x和y相关,并且从相关图表中可以看出它们之间大致形成一种直线关系,我们就可在相关图上求出一条与各点最相配合的直线。由于这些点所代表的若干对数据——观察值,只是相互有一定关系的变量x、y的总体中的一个样本,故这样求出的直线是总体回归直线的估计线。在估计线上的点的纵坐标是相应于x的y的估计值。y=a+bx如果这个y的估计值用y表示,则估计线的方程可写为这叫做样本回归直线。它是y对x的回归线,表明y对x的平均关系。式中x为受控制的自变量,通常由研究者事先选定数值。a为样本回归直线y的截距,它是样本回归直线通过纵轴的点的y坐标;b为样本回归直线的斜率,它表示当x增加一个单位时y的平均增加数量,b又称回归系数。如何确定回归直线方程呢?也就是说怎样确定方程中的参数a、b呢?若用(xi,yi)(i=1,2,…n)表示n组观察值,则对任意给定的xi,可得y的估计值为这些数值同实际值yi之间存在着误差;yi=a+bxii=yiyi=yiabxiQ(a,b)=2=(yabx)2为最小。这样便把寻找适当直线问题转化为使Q(a,b)达到最小条件下求出a、b的问题。在回归分析中,人们普遍采用的是最小二乘法原则。根据最小二乘法的原则,欲使所求回归直线y=a+bx最适合于实际资料,必须使每个xi对应的指标实测值yi与回归直线确定的估计值yi的离差平方之和为最小,即必须使因为Q(a,b)是a、b的非负二元函数,所以其最小值无疑是存在的。根据数学中的极值原理,令:00bQaQ和满足上述条件的a、b即为所求的未知参数。0)1)((20))((2bxayaQxbxaybQ由化简得(yabx)=0(yabx)x=0即:y=na+bxxy=ax+bx2上述方程组称为标准方程组。解之,得:,)(1122xnxyxnxy-ba=ybxynyxnx1,1:其中因此即可确定回归方程式为:y=a+bx这个方程称为在给定样本条件下的一元线性回归方程,对应的直线称为样本回归直线。显然,回归方程对于不同的样本是有差别的,因而,它具有经验的特征,所以在实用上,也将它叫做经验公式。为了简化上述回归系数b的表达形式,引入如下离差乘积的和式:yxnxy1Lxy=(xx)(yy)22)(1xnxLxx=(xx)2于是,回归系数可简化为xxxyLLb为了相关性检验的需要,顺便引入关于y的离差平方和:22)(1ynyLyy=(yy)2求回归方程式的系数往往是通过列表进行的。这里,我们以下表资料为倒,通过求某钢铁厂炼钢精炼时间对含碳量的回归方程,说明回归方程的确定。10.9100炉次含碳量(%)(x)精炼时间(分)(y)某钢铁厂十个炉次钢液含碳量和精炼时间10234567892.01.01.21.41.51.61.71.81.9105235130145170175190190220可以看出,x与y之间的关系近似为直线关系。我们可以对其配合一条回归直线。为计算回归方程的系数a、b,我们先对原始数据进行加工。yx2y2xy1001051301451701751901902202350.811.001.441.962.252.562.893.243.614.001000011025169002102528900306253610036100484005522590105156203255280323342418470166023.762943002642炉次x123456789100.91.01.21.41.51.61.71.81.92.015.0原始数据加工表于是:yxnxyLxy1152166015101264222)(1xnxLxx26.1)15(10176.23222)(1ynyLyy18740)1660(101294300251151011.xnx16616601011yny63512261152..LLbxxxy95251451635120166...xbya所以:故精炼时间关于含碳量的回归方程为:y=14.9525+120.635x计算结果表明,这个方程显示着钢水溶液的含碳量每增加0.1%,则精炼时间平均来说大约要延长12.06分。根据回归方程,可以给出自变量的任一数值估计或预测因变量的平均可能值。y=14.9525+120.6352.2=150.4445(分)例如,求含碳量2.2%所需的精炼时间:二、估计平均误差回归方程的一个重要作用在于根据自变量的已知值估计因变量的可能值。这个估计值和真正的实际值可能一致,也可能不一致。例如,当含碳量为1.8%时,推算的炼钢时间为202.19分钟,而实际为190分钟,相差12.19分钟。这就产生了估计公式即回归方程的可靠性问题,也就是说,根据回归方程计算的估计值,其代表性如何?为了度量估计公式即回归方程的可靠性,通常计算估计平均误差。估计平均误差度量观察值回绕着回归直线的变化程度或分散程度。通常用Sy代表估计平均误差,其计算公式为:22n)y(ySy注意,公式中根号内的分母是n2,而不是n。这是由于Q=(yy)2有两个线性关系的约束,一是,一是,因而,Q=(yy)2的自由度为n2。0aQ0bQ当实际观测值很多,而且数值较大时,根据上述公式计算估计平均误差十分麻烦。借助下列公式,可以简化计算步骤,所得计算结果也相一致。估计平均误差是一个衡量回归方程代表性大小的分析指标。估计平均误差愈大,则数据点围绕回归直线的分散程度就愈大,回归方程的代表性愈小。估计平均误差愈小,则数据点围绕回归直线的分散程度愈小,回归方程的代表愈大,其可靠性愈高。22nxybyaySy§3.相关系数相关分析是用以说明变量之间相关程度的统计工具。相关分析常常与回归分析联合使用,以衡量回归方程所表示的因变量变化的精确度如何。相关分析也可单独用于衡量变量之间的联系程度。本节我们讨论两个变量之间线性相关程度问题。两个变量之间线性相关程度的描述通常采用相关系数。一、相