方差分析-本科毕业论文

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第0页本科学生毕业论文方差分析作者院(系)专业年级学号指导老师日期第1页方差分析摘要:方差分析是从观察变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量.本文根据不同需要把某变量方差分解为不同的部分,比较它们之间的大小并用F检验进行显著性检验的方法,并且用excel解决了一些问题.关键词:单因素方差分析;双因素方差分析;组间方差;组内方差;F统计量1方差分析问题的提出假设检验主要是检验两总体的均值是否差异显著,对于多个总体均值是否差异显著的问题,如果按照每一对总体进行一次检验,显然要花费很多时间,而方差分析能一次性地检验多个总体均值是否存在显著差异.因此,方差分析所提供的处理方法比两两比较的处理方法要方便很多.例1:取一批由同种原料织成的布,用不同的染整工艺进行缩水实验,以考察不同的染整工艺对布的缩水率有无显著影响,进而可以寻找出缩水率较小的染整工艺.现有1A~5A五种不同的工艺,在每一工艺下重复处理四块布,测得其缩水率数据如下表所示,试问五种不同的染整工艺的平均缩水率有无显著差异?表1染整工艺缩水率1A4.36.85.26.52A6.16.34.24.13A6.58.38.68.24A9.38.77.210.15A9.58.811.48.9例2:在饲料养鸡增肥的研究中,某研究所提出三种饲料配方:1A是以鱼粉为主的饲料2A是以槐树粉为主的饲料,3A是以苜蓿粉为主的饲料.为比较三种饲料的效果,特选24只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量,试验结果如下所示:表2饲料鸡重/g1A107310091060100110021012100910282A11071092990110910901074112210013A109310291080102110221032102910482基本概念指标:衡量试验条件好坏的变量称为指标,用y表示,它是一个随机变量.在例1中,缩水率就是试验指标.因子:在试验中影响指标y的因素称为因子,它们常用大写字母A、B、C等来表示.在例1中染整工艺对指标——缩水率有影响,因此染整工艺就是因子,记为A第2页水平:在试验中因子所处的状态称为因子的水平,用表示因子的字母加下标来表示,譬如因子A的水平用12,AA等来表示.在例1中有五种染整工艺,这便是染整工艺这一因子五个水平,分别记为123,4,5,,AAAAA试验条件(也称处理):在单因子试验中,每个水平就是一个处理,在多因子试验中,每个因子取一个特定的水平,这些特定水平的组合称其为一个试验条件,又称为一个处理.3基本假定从最简单的单因子试验问题着手,介绍在方差分析中所作的假定.假定因子A有个r水平,记为12,,,rAAA在水平下指标值的全体便构成一个总体,共有r个总体.我们有如下假定:(1)假定第i个总体服从正态分布,其均值为i,(2)每一总体的方差相等,记为2;(3)从第i个总体获得一个容量为m的样本为12,,...,,1,2,...,,iiimyyyir,且这r个样本相立.在上述三个假定下,比较各个总体的均值是否相同的问题,即要检验如下假设012112:...,:,,...,rrHH不全相等,检验这一对假设的统计方法便是方差分析.当拒绝0H时,表示不同水平下的指标的均值有显著差异,此时称A因子是显著的,否则称因子不显著.4统计模型按假定有2~(,),ijiyN,因此可以认为观察值ijy与其均值i的差是随机误差ij,从而ijy有如下数据结构式:,1,2,.....,1,2,.....ijiijyirjm由2~(,),ijiyN及ijy各个相互独立,可知各ij相互独立,且都服从2(0,)N.因此可以给出如下的单因子方差分析统计的模型:2,1,2,...,,1,2,...,(0,)ijiijijyirjm各相互独立同分布于N在该模型下检验的假设是:012112H:...,:,,...,rrH不全相等,为了推广到两因子及多因子方差分析方便起见,引入一般平均与效应的概念,如记各均值i的平均为:11riir=称为一般平均,或称为总平均,又记,1,2,...,iiair它表示从水平iA的均值中除去总均值后特有的贡献,称ia为水平iA的效应,它可正可负,容易看出,诸ia受到约束:10riia这样一来,统计模型可改写为,12,1,2,...,,1,2,...,0N(0,)ijiijriiijyairjma各相互独立同分布于在该模型下检验的假设可以改写为:012112:...0,:,,...,rrHaaaHaaa不全为05基本思想5.1平方和分解众所周知,nrm各数据的差异程度(即波动大小)可用它们的总偏差平方和(简称总平方和)TS去度量:211rmTijijSyy,1Tfn其中Tf为自由度.引起数据波动的原因不外有如下两个:(1)由于因子的不同水平引起的,当原假设不真时,各个水平下指标的均值(简称水平均值)不同,诸12,,...,ryyy样本均值间的差异程度可用如下的偏差平方和去AS度量:第3页21,1rAAiiSmyyfr这里乘以m是为每个水平进行了m次试验.这个平方和称为组间偏差平方和,又称为因子A偏差平方和,简称因子A平方和.(2)由于试验存在随机误差,即使在同一水平下获得的数据也会有差异,这是除因子A水平外的一切原因引起的,我们将它们归结为随机误差,可以用组内偏差平方和(也称为误差平方和)eS表示:21,1rAAiiSmyyfr由于221111,rmrmTijijiiijijSyyyyyy考虑到交叉乘积项之和为0,故有如下总平方和分解式:22221111111rmrmrmrTijijeAiiiiijijijiSyyyyyymyySS5.2均方(平均偏差平方和)与F比偏差平方和Q的大小与数据个数(自由度)有关,一般说来,数据越多,其偏差平方和越大.为了便于在偏差平方和间进行比较,统计上引入了均方和的概念,它定义为,/QMSQf其意为平均每个自由度上有多少平方和,它比较好地度量了一组数据的离散程度.如今要对因子平方和与误差平方和之间进行比较,用其均方和/,/AAAeeeMSSfMSSf进行比较更为合理,因为均方和排除了自由度不同产生的干扰.故用//AAAeeeMSSfFMSSf作为检验的统计量.如果1,()aAeFFff,则认为因子A显著;若1,()aAeFFff,则说明因子A不显著.经过简单推导,可以给出常用的各偏差平方和的计算公式如下:22221111,,rmrTijAeTeijiTTSySTSSSnmn.6单因子方差分析设在一个试验中只考虑一个因子A,它有r个水平12,,...rAAA,在每个水平下进行m次重复试验,其结果用12,,...,,iiimyyy表示,1,2,...,,ir常常把数据列成如表3的形式:表3水平试验数据和均值y1A11121,,...myyy1T1y2A21222,,...myyy2T2y…………rA12,,...rrrmyyyrTry例3:某连锁商业企业在同城三个不同的地点开了三家分店,从这三家分店随机抽了5天的营业额资料如表4表4第一家分店第二家分店第三家店第一天10714第二天12118第三天9812第四天81310第五天111011第4页试分析这三家分店的平均日营业额是否相同,从而确定地点因素是否对日均营业额有影响(0.05),如果把每一个分店的日营业额看成一个总体,以上问题的实质是检验这三个总体的均值是否相等:01231123,:,,HH三者不全相等,其中,123,,分别为三分店的平均日营业额.通过excel,进行单因素方差分析,可以得到两个统计表,并且得出F统计量:表5方差分析:单因素方差分析组观测数求和平均方差列1550102.5列25499.85.7列3555115方差分析差异源SSdfMSFP-valueFcrit组间4.13333333322.066666670.4696970.6362153.885294组内52.8124.4总计56.9333333314由上表可得:56.93,4.13,52.8,2.067,4.4SSTSSASSEMSAMSE,样本的统计量2.0670.46974.4F=,分析表给出了临界值是3.885aF,aFF,接受0H,即没有充分证据说明三个分店的地点不同对日均营业额产生了影响.如果直接从P值进行判断,由于=0.6362150.05P值,结论也是接受原假设.6.1重复数不等的方差分析例4:某型号化油器原中小喉管的结构使油耗较大,为节约能源,设想了两种改进方案以降低油耗.油耗的多少用比油耗进行度量,现在对用各种结构的中小喉管制造的化油器分别测定其比油耗,数据如下.假定每一种结构下的比油耗服从等方差的正态分布,试问中小喉管的结构对平均比油耗的影响是否显著.表6水平1A:原结构11.012.87.68.34.75.59.310.32A:改进方案12.84.5-1.50.23A:改进方案24.36.11.43.6现在对这些数据做方差分析用excel,有下表7表7方差分析:单因素方差分析组观测数求和平均方差行1869.58.68757.518393行2461.57.126667行3415.43.853.776667方差分析差异源SSdfMSFP-valueFcrit组间155.6456277.8228111.855070.0011743.805565组内85.33875136.564519第5页总计240.984415设0.05,从F分布表查得0.95(2,13)3.81F,由于求得3.81F的,所以在水平上因子A是显著的,说明不同的中小喉管结构生产化油器的平均比油耗有明显的差异.6.2各水平均i值与误差方差2的估计当因子A是显著的,我们还可以给出每一水平均值i与水平效应ia的估计,以便找出最好的水平.,iiyayy,它们都是相应参数的无偏估计,从而第i个水平均值的无偏估计为iiiay误差方差的无偏估计:2eMS,可取得的估计为eMS.6.3多重比较在单因子方差分析中,若经F检验拒绝原假设012:...rH,这表明,因子A的r个水平均值不全相等,但不一定两两之间都有差异.故还需进一步去确认哪些水平均值之间确有显著的差异,哪些水平之间无显著的差异.这就要进行多重比较.同时比较任意两个水平均值间有无显著差异的问题称为多重比较.这里的关键词是“同时”两字.若有r(r2)个水平均值12,,...,r,则同时检验以下2r个假设的检验就是多重比较的问题:0:,,,1,2,...,ijijHijijr譬如在3r时,多重比较问题就是要同时检验如下三个假设121323012013023:,:,:HHH:直接考虑,当0ijH为真时,jiyy不应过大,过大就应拒绝0ijH.因此在同时考虑2r个假设时,“诸0ijH中至少有一个不成立”就构成多重比较的拒绝域,它应有如下形式:ijijijWyyc这里iy表示iA水平下数据的平均值,1,2,...,ir.对于给定的显著性水平,就要确定这样的临界值ijc,使得上述2r个假设都成立时有()pW.7两因子方差分析如果在一个试验中需要同时考察两个因子A和B,并设因子A有r个水平,因子B有s个水平,这时共有nrs个不同的试验条件,也就是说有n个总体.现做如下假设:每一个总体的分布是正太分布,其均值为ij,它与因子A及B的水平有关;其方差相等,都是2.现在我们不

1 / 12
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功