生物统计学教案(10)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

95生物统计学教案第十章一元回归及简单相关分析教学时间:5学时教学方法:课堂板书讲授教学目的:重点掌握一元线性回归方程,掌握一元线性回归方程的检验和相关,了解一元非线性回归和多元回归与相关。讲授难点:一元线性回归方程的检验和相关10.1回归与相关的基本概念函数关系:F=ma相关关系:单位面积的施肥量、播种量和产量;血压和年龄;胸径和高度;玉米的穗长和穗重;身高和体重。相关:设有两个随机变量X和Y,对于任一随机变量的每一个可能的值,另一个随机变量都有一个分布与之相对应,称X和Y存在相关。回归:对于变量X的每一个可能的值xi,都有随机变量Y的一个分布相对应,则称随机变量Y对变量X存在回归。X称为自变量,Y称为因变量。条件平均数:当X=xi时Y的平均数μY.X=xi,称为条件平均数。10.2一元线性回归方程10.2.1散点图例不同NaCl含量对单位叶面积干物质的影响NaCl含量X(g/kg土壤)00.81.62.43.24.04.8干重Y(mg/dm2)80909511513011513596从上图虽可以看出Y对X的线性关系,但点子并不在一条直线上。例每一NaCl含量下干物质10次重复值干重(mg/dm2)重复值NaCl含量(g/kg土壤)00.81.62.43.24.04.81809095115130115135210085899410612513737510711510310312812848993921101101431275911031151131281321556799212010813112113271017895121117129148885105951101211121179839310510811412013410798598111116130132平均值86.293.1101.9109.3117.6125.5134.5如果增加每一NaCl浓度下的重复次数,用其平均值画成散点图,则点子直线化的程度要好得多。上表给出10次重复的平均值,从下图中可见,点子更接近在一条直线上。当以Y的条件平均数所做的散点图,则完全在一条上。9710.2.2一元正态线性回归模型xi和各xi上Y的条件平均数μy.x可构成一条直线:μY=α+βX对于变量X的每一个值,都有一个Y的分布,其平均数是上式所示的线性函数。对于随机变量Y:Y=α+βX+εε:NID(0,σ2)Y:NID(α+βX,σ2)上式称为一元正态线性回归模型。10.2.3参数α和β的估计在实际工作中,我们是无法得到α和β的,只能得到它们的估计值a和b,从而得到一条估计的回归线:bXaYˆ上式称为Y对X的回归方程,所画出的直线称为回归线。a是直线的截距,称为常数项;b是直线的斜率,称为回归系数。对于因变量Y的每一个观测值yi:yi=a+bxi+eiyi的回归估计值iyˆ是对ixY的估计,因此iyˆ也是平均数。在各种离差平方和中,以距平均数的离差平方和为最小。因此我们就把ei=yi-iyˆ平方和为最小的直线作为最好的回归线。记niiiyyL12ˆ,求出使L达到最小时的a和b,这种方法称为最小二乘法。98为使niniiiiibxayyyL1122ˆ达到最小,令:可以得到以下一组联立方程:解该方程组,得到β的最小二乘估计:及a的最小二乘估计:公式的分子部分称为X和Y的校正交叉乘积和,以SXY表示。分母部分称为X的校正平方和,以SXX表示。因变量Y的平方和称为总平方和,以SYY表示。因此,b又可以表示为:10.2.4回归方程的计算00bLalniiiiniiibxayxbxay110202XXXYSSbniiniiiniiniininiiniiiixxyyxxnxxnyxyxb1212112111xbya99由此得出回归方程:回归系数的含义是:当自变量X每变动一个单位,因变量Y平均变动11.16个单位。XX’=X-2.4X’2YY’=Y-110Y’2X’Y’0-2.45.7680-30900720.8-1.62.5690-20400321.6-0.80.6495-15225122.40011552503.20.80.6413020400164.01.62.5611552584.82.45.761352562560和017.92-10260020079.814.216.1157.10816.1192.1700.20071.2595710260092.177092.17200710020022xbyaSSbSSSSSSXXXYYYYYXXXXYXXYXY16.1179.81ˆ10010.3一元线性回归的检验10.3.1b和a的数学期望和方差上式中的σ2是由ε得到的,ε是实际观测值与总体回归估计值的离差iiixy。由于α和β都是未知的,因此无法得到εi,只能用εi的估计值ei,iiibxaye。niie12称为误差平方和即为SSeXXSbbE2varXXSxnaaE221varXYYYXYXYYYniiiiiniiinininiiiniiiiiiebSSbSbSSxxbxxyybyyxxbyybxxbyybxayyyeSS22ˆ1222121112122101可以证明MSe是σ2的无偏估计量,因此样本回归系数b的方差a的方差根据表10-2中的7套重复数据(细线所示),和它们的平均数(粗虚线所示)所绘出的回归线。如果无限增加重复次数,最终将得到一条直线μY=α+βX。实际上这条直线是无法获得的,只能得到它的估计直线(由一套或几套数据获得),bXaYˆ。这些估计直线是总体回归线的无偏估计。它们有自己的分布,因此有自己的期望和方差。10.3.2b和a的显著性检验22nSSEMSEeeXXebSMSs2XXeaSxnMSs22110210.3.2.1b的显著性检验b的显著性检验原理与第五章所讲的假设检验原理类似。β决定回归线的倾斜程度,当β=0时两变量间不存在回归关系。b有自己的分布,XXSNb2,:。根据b的分布,在β=0这一假设下计算出,获得回归系数为b的这一事件出现的概率很小,而实际上它却出现了,说明假设的条件不正确,从而拒绝假设。上面已经说过,σb2无法得到,只能用sb2估计,因此需用t检验。所使用的检验统计量为:服从n-2自由度的t分布。因回归系数是由μY.X的估计值yˆ得到的,因此sb是标准误差,而不是标准差。例对前述回归方程的回归系数的显著性作检验。解H0:β=0HA:β≠0计算MSe,检验统计量61.599.116.11bsbtt5,0.005=4.032,tt0.005,P0.01,拒绝H0。结论是干物重在NaCl含量上的回归极显著。t检验还可以检验β具有某一给定值的假设。例对前述方程的以下假设做检验H0:β=7HA:β≠7检验统计量bbbsbsbsbt0099.192.1774.7074.70520016.1171.25852XXebXYYYeSMSsnbSSMS09.299.1716.110bsbt103t5,0.025=2.571,tt0.025,P0.05,接受H0。b很可能抽自β=7的总体。10.3.2.2a的显著性检验检验统计量asat,在H0:α=0的假设下asat,具n-2自由度在H0:α=α0的假设下asat0,具n-2自由度例对前述方程的a的显著性做检验解H0:α=0HA:α≠0先计算sa,计算统计量的值t5,0.025=2.571,tt5,0.025,P0.05,拒绝H0:α=0。例对前述方程的a=100这一假设做检验解H0:α=100HA:α≠100sa在上例中已经求出,计算统计量的值t5,0.025=2.571,|t|t0.025,P0.05,结论是拒绝H0:α=100的假设。73.592.174.27174.70122XXeasxnMSs27.1473.579.81asat18.373.510079.810asat10410.3.4一元回归的方差分析10.3.4.1无重复时一元回归的方差分析回归方程方差分析的基本思想与第八章所述方差分析的基本思想是相同的。即将总变差的平方和分解为各个分量的平方和。从图中可见,yyyyyyˆˆ,将等式两边平方,然后对全部n个点求和。其中的第三项等于0,因此等号左边一项是Y的平方和,称为总校正平方和,记为SYY。等号右边的第二项称为回归平方和,是由于X对Y的线性贡献而产生的平方和,记为SSR。等号右边的第一项是观测值距回归估计值离差的平方和,称为误差平方和或剩余平方和,记为SSe。“剩余平方和”的含义是,该平方和表示除了X对Y的线性影响外,一切因素对Yniiiiniiniiiniiiiiiiniiiiniiyyyyyyyyyyyyyyyyyyyyyy112121221212ˆˆ2ˆˆˆˆˆ2ˆˆˆnininiiiiiyyyyyy111222ˆˆ105的变差的作用,包括X对Y的非线性影响及实验误差等。SYY具n–1自由度,SSR具1自由度,SSe具n–2自由度。由此可以得到相应的均方。2,nSSMSSSMSeeRR,以及检验统计量,eRMSMSF方差分析的零假设H0:β=0,备择假设HA:β≠0。当FF1,n-2,α时拒绝H0。在实际计算时,可以利用以下二式求出误差平方和及回归平方和。SSe=SYY-bSxySSR=SYY-SSe=bSXY最后,将计算结果列成方差分析表。例对前例的方程做方差分析。已知SYY=2585.71,SXY=200,b=11.16。由此计算出SSR=bSXY=11.16×200=2232,SSe=SYY-bSXY=2585.71-2232=353.71。将上述结果列成方差分析表变差来源平方和自由度均方F回归22321223231.55**剩余353.71570.74总和2585.716**α=0.01FF1,5,0.01,结果是回归极显著。10.3.4.2有重复时的一元回归的方差分析如果同一自变量,因变量重复观测两次以上,则称为有重复观测。这时误差平方和可以通过重复平方和获得,因此总平方和可以做如下分解:SYY=SSR+SSLOF+SSpe其中SSpe称为纯实验误差平方和,是通过重复观测获得的。SSLOF称为失拟平方和,是剩余平方和除掉纯实验误差平方和之后的剩余部分,这部分是由于模型选择不当造成的。各项平方和的计算如下:niiiLOFnimjiijpeniiRnimjijYYyymSSyySSyymSSyyS1211212112ˆˆ106设实验共收集i=1,2,…,n对数据,在每一xi下做了j=1,2,…,m次重复,各平方和由以下各式给出自由度分别为:回归项为1,失拟项为n-2,纯误差项为mn-n,总和为mn-1。从而得出各项均方。在作检验时,首先用纯误差均方对失拟均方作检验如果结果是显著的,可能有以下几个原因:①除X外,还有其它影响Y的因素。②模型选择不当,X、Y之间可能是非线性关系。③X和Y无关。这时没有必要用SSLOF对MSR做检验。若结果是不显著的,说明失拟平方和基本是由

1 / 19
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功