第章单因素方差分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第12章方差分析(AnalysisofVariance)方差分析是鉴别各因素效应的一种有效统计方法,它是通过实验观察某一种或多种因素的变化对实验结果是否带来显著影响,从而选取最优方案的一种统计方法。在科学实验和生产实践中,影响一件事物的因素往往很多,每一个因素的改变都有可能影响产品产量和质量特征。有的影响大些,有的影响小些。为了使生产过程稳定,保证优质高产,就有必要找出对产品质量有显著影响的那些因素及因素所处等级。方差分析就是处理这类问题,从中找出最佳方案。方差分析开始于本世纪20年代。1923年英国统计学家R.A.Fisher首先提出这个概念,(ANOVA)。因当时他在Rothamsted农业实验场工作,所以首先把方差分析应用于农业实验上,通过分析提高农作物产量的主要因素。Fisher1926年在澳大利亚去世。现在方差分析方法已广泛应用于科学实验,医学,化工,管理学等各个领域,范围广阔。在方差分析中,把可控制的条件称为“因素”(factor),把因素变化的各个等级称为“水平”或“处理”(treatment)。若是试验中只有一个可控因素在变化,其它可控因素不变,称之为单因素试验,否则是多因素试验。下面分别介绍单因素和双因素试验结果的方差分析。1.1单因素方差分析(OneWayAnalysisofVariance)1.一般表达形式2.方差分析的假定前提3.数学模形4.统计假设5.方差分析:(1)总平方和的分解;(2)自由度分解;(3)F检验6.举例7.多重比较1.1.1一般表达形式首先通过一个例子引出单因素方差分析方法。某农业科研所新培养了四种水稻品种,分别用A1,A2,A3,A4表示。每个品种随机选种在四块试验田中,共16块试验田。除水稻品种之外,尽量保持其它条件相同(如面积,水分,日照,肥量等),收获后计算各试验田中产量如下表:试验批号产量(公斤)1234X品种A11820191718.5A22221242021.75A32527262826.5A42928242526.5通过这些数据要考察四个不同品种的单位产量,是否有显著性差异。类似的例子很多,如劳动生产率差异,汽车燃油消耗,金属材料淬火温度等问题。上述问题可控实验条件是“种子”。所以种子是因素。把不同的品种A1,A2,A3,A4称为“水平”。1,2,3,4表示试验2批号,即每次随机的选取某个地块种某个品种的种子。称此种问题为单因素试验。单因素试验通常分多个试验批号,目的是平衡一些不可控因素带来的影响。如土地的基本条件不一样。如各品种只试验一次,必然在试验结果中含有不可控因素带来的影响。在众多的数据中,怎样判别不同品种的水稻产量是否存在显著性差异?初步观察A1品种的产量可能低一些,A3,A4的产量可能高一些。这是从平均数上观察。若按前面介绍的两个总体的比较,需要作C24=6次检验。比较麻烦,所以需要方差分析方法。首先从数学上给出这类问题的一般形式(单因素)批号验结果i…j…m行平均均值水平A1X11…X1j…X1mx1.1………AiXi1…Xij…Ximxi.i…………AkXk1…Xkj…XkmxkkkxXNiij/1=x(km=N)这表明该可控因素共有k个水平,每个水平都进行m次试验,某个水平上的m次试验可当作一个样本看待。Xij表示第i个水平上第j次试验的结果。很容易看出当水平只有2个时,这相当于两个总体的均值的显著性检验问题。现在的目的是要分析各个水平上的均值是否有显著性差异。1.1.2方差分析的假定前题(1)每个水平(Ai)上的随机变量Xi的分布都是正态的,即服从N(i,2)。但i,(i=1,…,m),2未知。每个水平上的一系列观测值,看作是取自该水平正态总体的一个容量为m的样本。(2)认为k个水平上的k个总体方差相等,都是2(方差齐性)。(3)观测值Xij相互独立。这三个假定在实际中一般都能得到满足。1.1.3数学模型因为XijN(i,2),(i=1,…,k)所以可以把观测值Xij分解为两部分,即Xij=i+eij,(i=1,…,k),(j=1,2,…,m)其中eij表示Xij对i的随机偏差。为便于比较水平不同对Xij造成的影响,可以把i也分解成两部分i=+i(i=1,…,k)其中=kiik11,称为总平均(Grandmean),i称为Ai水平上的效应,它满足i=30把i代入上式则有:Xij=+i+eij,i=0,(i=1,2,…,k),(j=1,2,…,m)eij表示随机变量,i表示水平变量。这就是单因素方差分析的数学模型。1.1.4统计假设:若可控因素的不同水平对试验结果无显著性影响,那么观测值Xij应该来自同一正态总体,XijN(,2)。所以对应的零假设是H0:1=…,i….=k=或1=,…,=k=0H1:i不全相等或i不全为零。当H0成立时,样本的行平均数iX必然差异不大,差异表现为随机误差,当H1为真时,iX间必存在较大差异,这时差异表现为系统误差。1.1.5方差分析方法为判别不同水平对试验结果有无显著性影响,关键是把观测值变量中的随机误差和系统误差分开,并能进行比较,问题就解决了。(1)分解总离差平方和(TotalSumofSquares),ST=kimjijXX112)(方法是在ST公式中加入行平均数iX。ST=kimjijXX112)(=kimjiiijXXXX112)]()[(=kimjiijXX112)(+kimjiXX112)(+kimjiiijXXXX11))((2因为KimjiiijXXXX11))((=kimjiijiXXXX11)]()[(=0所以ST=KimjijXX112)(=KimjkimjiiijXXXX111122)()(令SE=2)(iijXXSA=kimjiXX112)(=kiiXXm12)(4则ST=SE+SA,其中ST称总离差平方和,总变差。SE称样本组内离差平方和。它测量同一水平上因重复实验而产生的误差。这是由于不可控因素引起的,故SE反映的是随机误差。SA称样本组间离差平方和。它表示各个水平上的样本平均数iX与样本总平均数X之间离差的加权平方和。可见不同水平上的样本差异越大,SA的值就越大。它反映的是系统误差。(2).求各离差平方和ST,SA,SE的自由度(Degreesoffreedom),fT,fA,fE。ST=KimjijXX112)(的自由度。因随机变量Xij的个数是N个,相互独立,但受一个约束条件。minjijXNX111约束,所以自由度为N–1,即fT=N–1。SA=kimjiXX112)(=kiiXXm12)(的自由度。因iX的个数是k个,但受条件KiiXmNX11约束,所以自由度为fA=k-1。SE=KimjiijXX112)(的自由度。因Xij的个数为N,但受条件iX=mjijX1,(i=1,…,k)约束,所以自由度为fE=N–k。三个自由度之间也有这样的关系。fT=fA+fE,N–1=(N–k)+(k–1)(3)F检验在H0成立条件下,Xij服从正态分布N(,2),又知Xij相互独立,所以有2TS=2112)(KimjijXX2(N–1)2AS=2112)(KimjiXX2(k–1)2ES=2112)(KimjiijXX2(N–k)且SA,SE相互独立(证明从略)。由抽样分布一章知,若x2(n1),y2(n2),且x与y相互独立,则5F=21//nynx),(21nnF当已知SA,SE相互独立且分别服从(k–1)和(N–k)个自由度的2分布时,则有F=)()1(22kNSkSEA=)/()1/(kNSkSEAF[(k–1),(N–k)]有了统计量F就可以做假设检验。怎样制定判别规则?分析如下:在H0成立条件下,有E(1kSA)=E(1)(2kXXi)=E(1)(12kXXmkii)=mE(1)(12kXXkii)=mVar)(iX=mm2=2E(kNSE)=E(kkmSE)=E[]1)(12mXXkiji=kimjiijmXXEk1121)([1]=kik121=2可见1kSA和kNSE都是2的无偏估计量。所以在H0成立条件下,F=)/()1/(kNSkSEA应接近1。当F值很大时,说明组间均方误差,大于组内均方误差,则不能认为k个总体服从同一个正态分布,即拒绝H0,否则接受H0。这是一个单端检验问题。临界值由检验水平确定。P{FF,(k–1)(N-k)}=检验步骤是:(1)建立假设H:1=2=…=k=(2)选统计量F,H0成立条件下FF(k–1),(N–k)(3)由计算临界值F(k–1,N-k)(4)判别规则:若F*F(k–1,N–k)接受H0若F*F(k–1,N–k)拒绝H0(5)由样本计算F*值,按判别规则给出检验结果。通常使用方差分析表来完成F检验。方差来源离差平方和自由度均方F值临界值F组间SAk-1SA/(k–1)F=)/()1/(kNSkSEAF(k–1,N-k)(单侧)组内SEN–kSE/(N–k)总和STN-1ST/(N–1)6用Eviews进行方差分析案例1国家统计局城市社会经济调查总队1996年在辽宁、河北、山西3省的城市中分别调查了5个样本地区,得城镇居民人均年消费额(人民币元)数据如下表。省12345LN(辽宁)3493.023657.123329.563578.543712.43HB(河北)3424.353856.643568.323235.693647.25SX(山西)3035.593465.072989.633356.533201.06用方差分析方法检验3省城镇居民的人均年消费额是否有显著性差异。EViews数据窗口如下(file:ANOVA02):点击transpose键,得到与数据表格一致的表达形式。从View选TestsofEquality。TestEqualityof中的缺省选择是Mean,即均值单因素方差分析。点击OK,7常用格式是,方差来源离差平方和自由度均方FF0.05(2,12)SA组间387105.62193552.84.903.89SE组内474357.31239529.78ST总和86146.2915图示如下:1234560.20.40.60.8112.7方差分析的简便算法。当试验的观测值Xij的数字太大,不便计算时,可以对Xij作如下线性变换。8Xij’=baXij,(i=1,2,…k),(j=1,2,…m)。其中a,b是任意两个实数(b0)。a,b选择适当就可以减少计算量。这样计算出的结果与原来结果相同。因为SA’=kiiXXm12//)(=2])()[(aXaXmi=2)(XXmi即使b1时,也会在F=)/()1/(KNSkSEA中约掉。这是一种古老的简易算法,当有了计算器和计算机之后,这种简化已没有多大必要。9总黄酮生物总黄酮是指黄酮类化合物,是一大类天然产物,广泛存在于植物界,是许多中草药的有效成分。在自然界中最常见的是黄酮和黄酮醇,其它包括双氢黄(醇)、异黄酮、双黄酮、黄烷醇、查尔酮、橙酮、花色苷及新黄酮类等。简介近年来,由于自由基生命科学的进展,使具有很强的抗氧化和消除自由基作用的类黄酮受到空前的重视。类黄酮参与了磷酸与花生四烯酸的代谢、蛋白质的磷酸化、钙离子的转移、自由基的清除、抗氧化活力的增强、氧化还原作用、螯合作用和基因的表达。它们对健康的好处有:(1)抗炎症(2)抗过敏(3)抑制细菌(4)抑制寄生虫(5)抑制病毒(6)防治肝病(7)防治血管疾病(8)防治血管栓塞(9)防治心与脑血管疾病(10)抗肿瘤(11)抗化学毒物等。天然来源的生物黄酮分子量小,能被人体迅速吸收,能通过血脑屏障,能时入脂肪组织,进而体现出如下功能:消除疲劳、保护血管、防动脉

1 / 17
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功