直线回归与相关前面各章我们讨论的问题,一般只涉及到一个变量受其他因素影响的情况。但是,由于客观事物在发展过程中相互联系、相互影响,因而在研究中常常要研究两个或两个以上变量间的关系。变量间的关系有两类:一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。如长方形的面积(S)与长(a)和宽(b)的关系可以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。另一类是变量间不存在完全的确定性关系,不能用精确的数学公式来表示。如体长与体重的关系;水分与容重的关系;吸光值与浓度的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。像这样一类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。相关变量间的关系一般分为两种:一种是因果关系,即一个变量的变化受另一个或几个变量的影响。如作物的产量受播种面积、土壤养分、管理条件等因素的影响,子代的体高受亲本体高的影响等。另一种是平行关系,它们互为因果或共同受到另外因素的影响。如体长和胸围之间的关系、土壤湿度与有机质之间的关系等都属于平行关系。统计学上采用回归分析(regressionanalysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为应变量。研究“一因一果”,即一个自变量与一个应变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个应变量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制应变量(结果)。统计学上采用相关分析(correlationanalysis)研究呈平行关系的相关变量之间的关系。对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。相关分析是以相关系数(r)来表示两个变量间直线关系的密切程度和相关方面的统计指标。无论是正相关(r为正值)或负相关(r为负值),只是经相关系数的统计意义检验提示差异有显著意义时,才能依据r值的大小来说明两变量间相关的密切程度。因此,表示相关性,除写出r值外,应注明P值。也应注意:相关分析是不能单纯用于阐明两事物或现象间存在着本质的联系,即使两变量间存在高度相关关系(即有一定的统计联系),也不能证明它们间存在着因果关系。如欲证明两事物间的内在联系,必需凭借专业知识从理论上加以阐明。“相关”是表示两个变量间相互关系的密切程度,而回归分析是分析一个随机变量和一个或多个变量之间关系的最常用的方法,常用来解释变量之间影响的因果关系以及影响程度的大小。但是应该特别注意,回归分析不能确证变量之间是否存在因果关系,而是一种确认应变量和自变量的统计关系是否存在的统计分析方法,如果在理论上变量之间有比较确定的因果关系,那么回归分析可以对他们之间的关系进行量化描述。在回归分析中,应注意由X变量值推算Y,与以Y变量值推算X的回归线是不一样的;直线回归方程的适用范围,一般仅适合于自变量X原测数据的范围,故绘制回归线时,X值切不能超越实测值的范围而任意延长。可见,这两种分析,说明的问题是不同的,但相互又有联系。在作回归分析时,一般先作相关分析,只有在相关分析有统计意义(即回归有统计意义)的前提下,求回归方程和回归线才有实际意义。决不能把毫无实际意义的两个事物或两种现象进行相关与回归分析。第一节回归分析一、直线回归方程的建立对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值:(x1,y1),(x2,y2),……,(xn,yn)为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图。从散点图可以看出:①两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型。②两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切)。WEIGHT605040LUNG3.63.43.23.02.82.62.42.22.0年龄876543210锡克试验阳性率1009080706050年龄876543210锡克试验阳性率1009080706050WEIGHT605040LUNG3.63.43.23.02.82.62.42.22.0散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。如果呈因果关系的两个相关变量y(依变量)与x(自变量)间的关系是直线关系,如左图所示。由于应变量y的实际观测值总是带有随机误差,因而应变量y的实际观测值yi可用自变量x的实际观测值xi表示为:iiixy(i=1,2,…,n)i为相互独立,且都服从N(0,2)的随机变量。这就是直线回归的数学模型。我们可以根据实际观测值对,以及方差2做出估计。在x、y直角坐标平面上可以作出无数条直线,我们把所有直线中最接近散点图中全部散点的直线用来表示x与y的直线关系,这条直线称为回归直线。WEIGHT605040LUNG3.63.43.23.02.82.62.42.22.0设回归直线的方程为:bxayˆ其中,a是的估计值,b是的估计值。a、b应使回归估计值与实际观测值y的偏差平方和最小,即:0)(2bxayaQ0)(2xbxaybQyˆ根据微积分学中的求极值的方法,令Q对a、b的一阶偏导数等于0,即:22)()ˆ(bxayyyQ最小整理得关于a、b的正规方程组:yxbanxyxbxa2解正规方程组,得:xxySSSPxxyyxxnxxnyxxyb222)())((/)(/))((xbya上式中的分子是自变量x的离均差与因变量y的离均差的乘积和,简称乘积和,记作,分母是自变量x的离均差平方和,记作SSX。a叫做样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时,a=;))((yyxxxySP2)(xxyˆb叫做样本回归系数,表示x改变一个单位,y平均改变的数量;b的符号反映了x影响y的性质,b的绝对值大小反映了x影响y的程度;yˆ的估计值。叫做回归估计值,是当x在其研究范围内取某一个值时,y值平均数x回归方程的基本性质:如果将式代入式,得到回归方程的另一种形式(中心化形式):2)ˆ(yyQ性质1最小;0)ˆ(yy性质2;),(yx性质3回归直线通过点。)(ˆxxbybxxbyyxbyabxayˆ根据直线回归方程可作出回归直线,但是并不是所有的散点都恰好落在回归直线上,这说明用去估计y是有偏差的。yˆ3、直线回归的偏离度估计偏差平方和的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为n-2。于是可求得离回归均方为:离回归均方是模型中σ2的估计值。离回归均方的平方根叫离回归标准误,记为,即2)ˆ(yy)2/()ˆ(2nyyyxSiiixy离回归标准误Syx的大小表示了回归直线与实测点偏差的程度,即回归估测值与实际观测值y偏差的程度,于是我们把离回归标准误Syx用来表示回归方程的偏离度。)2/()ˆ(2nyySyxyˆ二、直线回归的显著性检验若x和y变量间并不存在直线关系,但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程=a+bx。显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x与y间是否存在直线关系。我们先探讨应变量y的变异,然后再作出统计推断。yˆ1、直线回归的变异来源图8-1的分解图)(yy从图8-1看到:上式两端平方,然后对所有的n点求和,则有)ˆ()ˆ()(yyyyyy2)(yy2)]ˆ()ˆ([yyyy)ˆ)(ˆ(2)ˆ()ˆ(22yyyyyyyy)]())[((xxbyyxxb)(ˆxxbybxay由于)(ˆxxbyy所以)ˆ)(()ˆ)(ˆ(yyxxbyyyy于是所以有反映了y的总变异程度,称为y的总平方和,记为SSy;反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSR;)()())((xxbxxbyyxxbxxySSbSPb202xxxyxyxxySSSSSPSPSSSP2)(yy22)ˆ()ˆ(yyyy2)(yy2)ˆ(yy反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr。式又可表示为:这表明y的总平方和剖分为回归平方和与离回归平方和两部分。与此相对应,y的总自由度dfy也划分为回归自由度dfR与离回归自由度dfr两部分,即2)(yyrRySSSSSS2)(yy22)ˆ()ˆ(yyyy在直线回归分析中,回归自由度等于自变量的个数,即;y的总自由度;离回归自由度。于是:离回归均方,回归均方。rRydfdfdf1Rdf1ndfy2ndfrrrrdfSSMS/RRRdfSSMS/2、回归关系显著性检验—F检验x与y两个变量间是否存在直线关系,可用F检验法进行检验。无效假设HO:=0,备择假设HA:≠0。在无效假设成立的条件下,回归均方与离回归均方的比值服从和的F分布,所以可以用df1=1,df2=n-211df22ndf)2/(//nSSSSdfSSdfSSMSMSFrRrrRRrR来检验回归关系即回归方程的显著性。回归平方和的计算:根据式,可得到离回归平方和计算公式为:22)]([)ˆ(xxbyySSRxyxbSPSSbxxb222)(xxyxyxxySSSPSPSSSP2xxyyRyrSSSPSSSSSSSS2rRySSSSSS3、回归系数的显著性检验—t检验采用回归系数的显著性检验—t检验也可检验x与y间是否存在直线关系。回归系数显著性检验的无效假设和备择假设为HO:β=0,HA:β≠0。t检验的计算公式为:其中,Sb为回归系数标准误。2,ndfSbtbxyxbSSSSF检验的结果与t检验的结果一致。事实上,统计学已证明,在直线回归分析中,这二种检验方法是等价的,可任选一种进行检验。特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制,一般只能内插,不要轻易外延。第二节相关分析进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量——相关系数r并进行显著性检验。一、决定系数和相关系数在上一节中已经证明了等式:从这个等式不难看到:y与x直线回归效果的好坏取决于回归平方和与离回归平方和的大小,或者说取决于回归平方和在y的总平方和中所占的比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。我们把比值叫做x对y的决定系数(coefficientofdetermination),记为r2,即2)(yy