生态学统计分析方法与实践郝彦宾中国科学院研究生院第七章相关与回归一、直线回归和相关的概念为了研究这些有一定关系的两个或两个以上的变数间的关系,必须将它们放在一起,研究其关系,找出关系的性质和密切程度,这种研究方法,在统计上称为回归与相关的研究。回归与相关两种理论模型-回归模型具有自变数和因变数;预测功能;回归分析-相关模型没有自变数和因变数的区别;无预测功能;相关分析区别和联系方向一致;假设检验等价;可以互相解释(二)应用直线回归与相关分析时的注意事项(1)回归和相关分析是一种分析工具,要有学科专业知识作指导,以生物科学为基础,不搞数学游戏。(2)贯彻唯一差异原则,严格控制研究对象之外的条件。否则,回归和相关分析有可能导致完全虚假的结果。(3)研究结果的适用范围应加以限制。在生物统计分析中,在X和Y的一定区间内,用线性关系作近似描述是允许的,但该区间外的X和Y的关系是否仍为线性,试验未给出任何信息。所以,研究结果的适用范围一般应以观察区间为准。(4)为了提高回归和相关分析的准确性,要以大数法则为基础,即两个变数的样本容量n(观察值对数)要尽可能大一些,至少应有5对以上。同时,X变数的取值范围也应尽可能宽些。回归分析表达式2ˆ()()()xyabxxxyySPbxxSSaybxa:回归截距(regressionintercept),是x=0时的值,即回归直线在y轴上的截距,;b:斜率(slope),回归系数(regressioncoefficient)。意义:X每改变一个单位,Y平均改变b个单位。b0,Y随X的增大而增大(减少而减少)——斜上;b0,Y随X的增大而减小(减少而增加)——斜下;b=0,Y与X无直线关系——水平。|b|越大,表示Y随X变化越快,直线越陡峭。SP:乘积和;SSx:x的离均差平方和。ˆy假设检验(一)提出假设:由于我们是测验样本回归方程来自无直线回归关系总体的概率大小,所以我们对直线回归的假设测验为H0:=0对HA:0。(二)规定显著水平:a=0.05或a=0.01(三)测验计算:在无效假设正确的前提下,计算t值,其计算公式为bbts∵H0:=0,∴bsbt式中sb为回归系数标准误,其计算公式为2//2()yxyxbxsssxxSSsy/x为回归估计标准误,其计算公式为2/ˆ()22yxyyQsnnQ:离回归平方和计算出样本回归系数的t值后,与t值表(附表3)中的t相比较,以确定样本的t值在t分布中出现的概率。此t值遵循v=n-2的t分布。如果实得的|t|<05.0t,P>0.05,则接受H0:=0,即可认为该样本回归方程是其来自于一无直线回归关系的总体;如果实得的05.0t<|t|<01.0t,P<0.05,则接受HA:0,即认为该回归方程是来自于有显著直线回归关系的总体;如果实得的|t|>01.0t,P<0.01,则接受HA:0,即认为该回归方程是来自于有极显著直线回归关系的总体。F测验2()//1,1n-2/2/2xSPSSUFvvQnQn回归离回归、=YYYYYYˆˆ回归部分)ˆ(YY)(YY总情况Y剩余部分)ˆ(YY实测点),(YXPYX2222222ˆˆ()()ˆˆˆˆ()()2()()ˆˆ()()()yyyyyyyyyyyyyyyyyyyyQ:离回归平方和U:回归平方和SS总=2)(YY,Y的离均差平方和(totalsumofsquares),未考虑X与Y的回归关系时Y的总变异。1nSS剩=2)ˆ(YY,为剩余平方和(residualsumofsquares),X对Y的线性影响之外的一切因素对Y的变异,即总变异中,无法用X解释的部分。SS剩越小,回归效果越好。2nSS回=2)ˆ(YY,为回归平方和(regressionsumofsquares),因x变异引起y变异的平方和。反映了由于X与Y的直线关系而使Y变异减小的部分,即总变异中,可以用X解释的部分。SS回越大,回归效果越好。1几个平方和的意义1.过程格式PROCREG[选择项];MODEL因变量=自变量/[选择项];VAR变量;OUTPUTOUT=datasetKEYWORD=names…;PLOT变量1*变量2=‘符号’/选项;FREQ变量;WEIGHT变量;BY变量;PROCREG过程语句2.说明(1)PROCREG语句PROCREG[选择项];调用REG过程,拟合回归模型中的待定参数,并进行统计分析。PROCREG语句的选择项主要有:DATA=dataset命名REG过程所用的SAS数据集,缺省时用当前数据集OUTEST=dataset给出输出参数估计的数据集(2)MODEL语句MODEL因变量=自变量表/[选择项];指明因变量和自变量,选择项是有关回归计算、估计、预测值和残差,常用的有:STB打印标准偏回归系数COLLIN请求进行自变量的共线性分析P计算预测值及残差R请求残差分析CLM打印因变量均值95%的置信界限的上下限CLI对各预测值打印95%的置信界限的上下限DW给出DW统计量,检验误差是否有一阶自相关(此检验仅出现在时间序列数据)(3)VAR语句VAR变量表;列出叉积矩阵中的变量,仅当具有OUTSSCP=dataset这个选择时才使用。(4)PLOT语句PLOT变量1*变量2=‘符号’/选项;其中:变量1、2可引用统计量,如:L95.,L95M.,U95.,U95M.,P.,R.,STDR.(残差标准差)。统计量的引用方法:统计量.(统计量后加点)选项主要有:overlay、vref、href例题:一些植物的生长发育期的早迟和春季温度高低有关。内蒙古锡林浩特市畜牧气象站测定2000-2008年3月下旬至4月中旬旬平均温度累积值(x,单位:旬/度)和草原萌发期(y,以5月10日为0)的数据见表,试作回归分析。表:累积温和植物萌发期的关系数据X累积期35.534.131.740.336.840.231.739.244.2Y萌发期12169273139-1一元线性回归n=9x=333.7、2x=12517.49、y=70、2y=794、xy=2436.4然后,由一级数据算得5个二级数据:SSx=22()xxn=144.6356SSy=22()yyn=249.5556SP=xyxyn=-159.0444xxn=37.0778nyy=7.78因而有:b=XSSSP=-159.0444/144.6356=--1.0996a=xby=7.78-(-1.0996×37.0778)=48.5485(天)故回归方程为:yˆ=48.5485-1.0996x或化简成:yˆ=48.5-1.1x当3月下旬和4月中旬的积温每提高1旬/度时,草原的萌发期平均提前1.1天;若积温为0,则草原的萌发期在6月27-28日。由于x变数的实测区间为[31.7,44.2],当x<31.7或x>44.2时,y的变化是否还符合=48.5-1.1x的规律,观察数据中未曾得到任何信息。所以,在应用回归方程预测时,需限定x的区间为[31.7,44.2];如要在<31.7或x>44.2的区间外延,则必须有新的依据。yˆyˆ=48.5-1.1x回归检验提出假设H0:=0对HA:0确定显著水平a=0.01计算:在例子中算得b=-1.0996,SSx=144.6356,SP=-159.044,ySS=249.55,故有:2(159.044)249.5574.667144.635Q266.329667.74xys(天)2715.06356.144266.3bs05.42715.00996.1t查t值表(附表3),t0.05,7=2.36,t0.01,7=3.50。现实得|t|=4.05,表明在=0的总体中因抽样误差而获得现有样本的概率小于0.01。所以应否定H0:=0,接受HA:0,即认为积温与草原萌发期是有真实直线回归关系的,或者说此b=-1.0996是极显著的。某变量进入方程后对模型的贡献大概判断模型的优劣检验除截据之外所有参数为0的假设的F值。能够转化为一元线性回归的一元非线性回归例:测定“苏1号”玉米在不同密度下的平均株重(x)和经济系数(y)的关系,试作回归分析密度xy13990.3823290.3793247037141910.34351450.31761190.3017900.248曲线回归类型及曲线直线化方法曲线类型曲线方程直线化方法直线方程指数曲线bxYae'logYY'YABX对数曲线logYabX'logXx'YABX双曲线11abYX11','YXYX''YABX抛物线212YabXbX212,XXXX1122YABXBX一元非线性回归格式:RROCNLIN[选择项];PARAMETERS参数=初始值To终值by增量;MODEL依变量=模型表达式;BOUNDS参数限制条件表达式;必需语句PROCNLIN[选择项];Data=数据集Outest=数据集建立输出数据集Method=迭代方法(一般选择DUD)Bounds语句为参数估计设置限制条件,例如:Boundsb120等例:酵母种群的增长资料如下,试拟合生长模型回归平方和U离回归平方和Q因变量Y总平方和偏离均值的平方和用指数方程(Rs=a*ebT);van’tHoff1985)可以很好的拟合生态系统的土壤呼吸和5cm土壤温度的关系.试补充缺失值。a:0℃时的呼吸速率;b:温度响应系数TRs(gCO2m-2s-1)27.300.3029.950.3928.700.3431.650.4229.750.3724.550.2117.250.1314.950.1313.350.1013.56*21.500.1824.600.2221.300.1722.550.1919.450.1517.350.1414.800.1114.700.1014.60*TRs(gCO2m-2s-1)27.300.3029.950.3928.700.3431.650.4229.750.3724.550.2117.250.1314.950.1313.350.1013.560.0921.500.1824.600.2221.300.1722.550.1919.450.1517.350.1414.800.1114.700.1014.600.10如果两变数之间存在一定的联系,但两者之间又无因果关系,这样的两变数间的关系又用什么样的统计方法进行描述?相关分析作用研究随机变量之间相互关系的统计分析方法,它研究随机变量之间相互关系的密切程度。简单线性相关的相关系数r用下式计算22()()()()iixyiiXXYYSPrSSSSXXYY取值为-1≤r≤1相关系数示意图散点呈椭圆形分布,X、Y同时增减---正相关(positivecorrelation);X、Y此增彼减---负相关(negativecorrelation)。散点在一条直线上,X、Y变化趋势相同----完全正相关;反向变化----完全负相关。相关系数示意图X、Y变化互不影响----零相关(zerocorrelation)双变数X和Y的相关程度决定于|r|,|r|越接近于1,相关越密切;越接近于0,越可能无相关。当r=0时,所有点均匀地分布在四个象限内,无任何直线趋势;当r=1时,所有点在一条直线上,两变数存在实际的直线函数关系,在生物界中是很难达到的。当r的绝对值较大时,在散点图很明显就能看出两变数的相关性质;但当r的绝对值在0.3~0.6之间时,在散点图上很难看出其相关显著性,决定系数r222()xySPrSSSS1.决定系数的计算并不比相关系数的计算麻烦。2.决定系数的意义比相关系数清楚。它表示在x或y的总变异中可以相互以线性关系说明