生物统计附试验设计第八章直线回归与相关分析(2017)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第八章直线回归与相关分析前述各章讨论的问题,都只涉及一个变量或性状,而在实际研究中常常要研究两个或两个以上变量的关系。变量间的关系分为两类:—完全确定性关系;(没有随机误差)—不存在完全确定性关系,不能由一个或几个变量的值精确地求出另一个变量的值;(相关关系)相关变量间的关系一般又分为两种:——因果关系(一个变量的变化受一个或几个变量的影响,有自变量/依变量之分);——平行关系(两个以上变量之间共同受到另外因素的影响,无自变量与依变量之分)xy施肥量(可以严格地人为控制)产量自变量(independentvariable)因变量(dependentvariable)如果对x的每一个可能的值,都有随机变量y的一个分布相对应,则称随机变量y对变量x存在回归(regression)关系。因果关系(一个变量的变化受一个或几个变量的影响)因果关系(一个变量的变化受一个或几个变量的影响,有自变量/依变量之分);研究方法:采用回归分析研究目的(任务):揭示变量间的联系形式,建立回归方程,并由自变量(原因)来预测、控制依变量(结果)平行关系/相关关系(两个以上变量之间共同受到另外因素的影响,无自变量与依变量之分)在大量测量各种身高人群的体重时会发现,在同样身高下,体重并不完全一样。在同样体重下,身高并不完全一样。但在每一身高/体重下,有一确定的体重/身高。身高与体重之间存在相关关系。X身高Y体重X体重Y身高平行关系/相关关系(两个以上变量之间共同受到另外因素的影响,无自变量与依变量之分)研究方法:采用相关分析研究目的(任务):研究两个变量之间相关的程度和性质或一个变量与多个变量之间相关的程度(计算相关系数)直线回归分析一元回归分析曲线回归分析多元线性回归分析多元回归分析(复回归分析)多元非线性回归分析回归分析简单相关分析——直线相关分析复相关分析多元相关分析偏相关分析相关分析第一节直线回归分析一、直线回归方程的建立研究两个变量之间的关系时,一般先把n对观察值(x1,y1),(x2,y2),…,(xi,yi),…,(xn,yn)先以x为横坐标,y为纵坐标在直角坐标纸上描出n个点,所描出的图形叫散点图。在直线回归分析中主要是研究图中(b)与(d)的情况。设变量x与y间存在直线关系,根据n对观察值所描出的散点图如下图所示。直线回归散点图回归直线是所有直线中最接近散点图中全部散点的直线。设样本直线回归方程为:总体直线回归方程为:bxayˆ其中:a称为回归截距;b称为回归系数y=α+βx回归值回归值与yi观察值间的偏差为:全部偏差平方和为:利用最小二乘法,即使偏差平方和最小的方法求a与b的值。iiiyyeˆ222)()ˆ(bxayyyeQiyˆ0)(20)(2xbxaybQbxayaQxybxaxybxna2)()()(xbyaSSSPnxxnyxxybxxy/)(/))((22根据微积分学中求极值的原理,将Q对a与b求偏导数并令其等于0:可以证明—称之为x与y的离均差乘积和,简称为乘积和,记为SPxy。回归方程的性质回归直线必然通过点。nyxxyyyxx)()(),(yx;0)ˆ()ˆ(2yyyyQ最小;线性回归方程建立的方法:用各组观察值(xi,yi)描点作散点图,确定变量x和y间是否存在直线关系;平均温度(℃)历期天数(d)11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.7研究黏虫孵化历期平均温度与历期天数关系01020304010121416182022温度天数(天)(℃)计算回归截距a和回归系数b;yxSyynSxx,,;)1(、、、baxySnSSSnSSyyxx和)代入公式,计算(;)(43)1(;)1()2(22xbyaSSSPnxxnyxxybx/)(/))((22XY平均温度(℃)历期天数(d)11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.77.134x19.23232x3.115y03.20392y8n8375.16nxx4125.14nyy1788.55)()(222xxnxxSSx2688.377)()(222yynyySSy6937.139)()()()(yyxxnyxxySPxy5317.2xxySSSPb0400.57xbya建立样本直线回归方程,并进行偏离度估计和显著性检验在散点图中,画出样本直线回归方程。01020304010121416182022温度天数(天)(℃)xy5317.20400.57ˆ直线回归方程的偏离度估计根据使偏差平方和最小建立了直线回归方程。偏差平方和Q的大小表示了实测点与回归直线偏差的程度,因而偏差平方和又称为离回归平方和或剩余平方和。Q的自由度df=n-2;离回归标准误2)ˆ(yyQ2)ˆ(22nyynQSyx9835.12-==nQSyx大小表示了回归直线与实测点的吻合程度,即回归估测值与实际观察值y差异的程度。可以证明:yxSyˆxxyySSSPSSyyQ22)ˆ(二、直线回归的显著性检验能否利用所建立的直线回归方程来进行预测和控制,这取决于这个直线回归方程所反应的两个变量间的直线关系是否真实。因而还须对y与x间的直线关系进行检验。检验的方法有回归关系的F测验和回归系数的t测验二种。(一)t检验对直线回归系数b的假设检验为:HO:β=0;HA:β≠0(β为总体回归系数)。在HO成立的条件下,回归系数b服从t分布:2,/ndfSbtb22)()2()ˆ(xxnyySSSSxyxb回归标准误:回归系数b抽样分布的标准差离回归标准误将计算出的与根据自由度df=n-2查表所得的临界t值比较,作出结论。t)(01.0)(05.0dfdftt、9835.12-==nQSyx1788.55xSS5317.2b48.9-1788.55/9835.15317.2-/====xyxbSSsbsbt707.3)6(01.0t否定H0:β=0,接受HA:β≠0,认为黏虫孵化历期平均温度与历期天数间有真实直线回归关系。可以证明因此)ˆ()ˆ(2)ˆ()ˆ()]ˆ()ˆ[()(2222yyyyyyyyyyyyyySSy0)ˆ)(ˆ(yyyy222)ˆ()ˆ()(yyyyyySSy(二)F检验y变量的平方和与自由度为1,)(2ndfyySSyy由于回归和离回归的均方比遵循df1=1,df2=n-2的F分布,所以)2-/(1/nSSSSMSMSFrRrR==222)ˆ()ˆ()(yyyyyyy的总平方和(SSy),dfy=n-1离回归平方和(SSr),dfr=n-2回归平方和(SSR),dfR=1将计算出的F值与根据自由度df1=1,df2=n-2查表所得的临界F值比较,作出结论。01.005.0FF、xRSSbxxbxxbyySS22222)()]([)ˆ(RyrSSSSSS回归关系方差分析表变异来源dfSSMSF回归dfRSSRMSRMSR/MSr离回归dfrSSrMSr总变异dfySSy上例中:H0:黏虫孵化历期平均温度x与历期天数y之间不存在线性关系HA:两变量间有线性关系变异来源dfSSs2FF0.05F0.01回归1353.6628353.662889.89**5.9913.74离回归623.60603.9343总变异7377.2688F检验的结果与t检验的结果一致。统计学已证明,在直线回归分析中这二种检验法是等价的,可任选一种进行检验。线性回归方程的应用应用——线性回归方程建立并经显著性测验证明其真实存在后,可用回归方程对依变量进行预测或控制(但自变量必须在已知的观察值范围内)。特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大。第二节直线相关分析•进行直线相关分析的基本任务在于计算出表示x,y两个变量间线性相关的程度和性质的统计量——相关系数,并进行显著性检验。一、决定系数和相关系数前面已证明了等式:222)ˆ()ˆ()(yyyyyy从等式不难看到:y与x直线回归效果的好坏取决于回归平方和在y的总平方和中所占比例的大小。把比值叫做x对y的决定系数记为r2,即2)ˆ(yy2)(yy22)(/)ˆ(yyyy222)()ˆ(yyyyr决定系数r2的大小表示了回归方程的可靠程度,显然有0≤r2≤1。所以决定系数r2等于y对x的回归系数byx与x对y的回归系数bxy的乘积,即r2=byxbxyyxyxxyyxxySSSPSSSPSSSSSPyyyyr.)()ˆ(2222若求r2的平方根,统计学把这样计算所得的统计量称为x与y的相关系数,记为r,即显然相关系数-1≤r≤1])(][)([))((2222nyynxxnyxxySSSSSPryxxy相关类型正相关负相关零相关二、相关系数和决定系数的计算充分应用计算器的统计功能键,计算:将上述数值代入公式。yxxySSSSSPrnSxx,,ySy,22)1(;)1(yyxxSnSSSnSSnyxxySPxyxy,三、相关系数的显著性测验样本相关系数r是否来自ρ≠0的总体,还须对样本相关系数r进行显著性检验。HO:ρ=0,HA:ρ≠0(ρ为总体相关系数)可采用t测验法与F测验法对相关系数r进行测验。这里只介绍常用的t检验法。t测验的计算公式为:F检验的计算公式为:2,ndfSrtr)2/()1(2nrSrSr—相关系数标准误)2()1(22nrrF2,121ndfdf此外,还可以直接采用查表法对相关系数r进行显著性检验。先根据自由度n-2查临界r值(附表8),得r0.05、r0.01。若|r|<r0.05,P>0.05,则相关系数r不显著;若r0.05≤|r|<r0.01,0.01<P≤0.05,则相关系数r显著,标记“*”;若|r|≥r0.01,P≤0.01,则相关系数r极显著,标记“**”。X(个)120121123126128Y(尺)21232225248783.07996.0)3(05.0rr椰子树的产果树与树高之间无直线相关关系。当样本太小时,即使r值达到0.7996,样本也可能来自总体相关系数ρ=0的总体。不能直观地由r值判断两变数间的相关密切程度。试验或抽样时,所取的样本容量n大一些,由此计算出来的r值才能参考价值。椰子的产量X(个)椰子树高Y(尺)四、相关与回归的关系r2=byxbxyr和b都是用一定的数值来表明两个变量之间的关系,二者变异的性质和方向完全一致;xyyxbbr.yxxySSSSSPrxxySSSPbr只能根据数值的大小的绝对值来判断两个变量间的相关程度;b则能根据自变量的变化去推算依变量的变化规律。相关系数和回归系数(方程)的显著性测验是等价的。即相关系数显著,回归系数亦显著;相关系数不显著,回归系数也必然不显著。注意:在实际进行直线回归分析时,可用相关系数显著性测验代替直线回归关系显著性测验。计算相关系数r对r检验(查表法)r不显著,则不建立直线回归方程若r显著,计算回归系数b、回归截距a,建立直线回归方程五、应用直线回归与相关的注意事项回归分析和相关分析毕竟是处理变量间关系的数学方法,在应用时要考虑到客观实际情况。要考虑到回归系数、相关系数等这些统计数的适用范围。必须严格控制被研究的两个变量以外的各个变量

1 / 49
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功