(应用数理统计)单因素方差分析_01

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

应用数理统计基础方差分析例1假定某型号的电子管的使用寿命服从正态分布,并且原料差异只影响平均寿命,不影响方差。现用三种不同来源的材料各试生产了一批电子管。从每批中各抽取若干只做寿命实验,得数据如下表。2试问测试结果是否说明这批电子管的寿命有明显差异?材料批号寿命测定值(单位:小时)123160016101650168017001700180015801640164017001750146015501600162016401660174018201.引例例2设对四种玉米品种进行对比实验,每个品种都在同一块田的五个小区各做一次实验,实验结果如下表所示。试问不同品种对玉米的平均产量是否有显著影响?品种产量(斤/小区)32.334.034.335.036.533.333.036.336.834.530.834.335.332.335.81A2A3A4A29.326.029.828.029.8类似问题高等数学、线性代数、数理统计等许多基础课实行选课制,如何认定主讲教师对学生成绩有一定影响?假定:张老师的学生平均72.5,李老师的学生平均成绩71.8,王老师的学生平均成绩70.9,能否说明三位老师的教学水平有差异?根据假设检验的原理,即检验123==?解决此类问题:1是重复检验,2是方差分析在实践中,人们总是要通过试验,观察各种因素的影响,例如,不同型号的机器,不同的原材料、不同的技术人员以及不同的操作方法等等,对产品的产量、性能都会有影响。当然,有的因素影响大,有的因素影响小,有的因素可以控制,有的因素不能控制。如果从多种可控制因素中找出主要因素,通过对主要因素的控制,调整,提高产品的产量、性能,这是人们所希望的,解决这个问题的有效方法之一就是方差分析。影响一个事物的因素往往是很多的,前面提到的产品的产量、性能等称为试验指标,他们受因素的影响,因素的不同状态称为水平,一个因素可采取多个水平。通过观察可以得到试验指标的数据,这些数据可以看成从不同的总体中得到的样本数值。统计学上,不同的因素,不同的水平可以看作是不同的总体。二、统计分析一、总平方和的分解单因素试验的方差分析设在试验中,因素A有S个不同水平12,,...,,sAAA在水平下的试验结果2~(,)(1,2,...,)jjXNjs。其中和是未知参数。在水平下作次独立实验,其结果如表1所示。j2jAjn数学模型123in11121sXXX21222sXXX31323sXXX11nXsnsX样本均值jX22nX.1X.sX.2X序号样本水平1A2AsA是来自总体的容量为的一个样本,其观察值为12jjjnjXXX,,,jXjn012:sH112:,,,,sH不全相等(1)由于相互独立,且ijX2~(,)ijjXN1,2,...,;1,2,,jinjs若记则(1,2,,;1,2,,)ijijjjXinjs2~(0,),ijN且相互独立要判断因素的各水平间是否有显著差异,也就是要判断各正态总体的均值是否相等,即检验假设12jjjnjxxx,,,2~(0,)1,2,,1,2,,ijjijijijjXNinjs相互独立其中(2)其中与均为未知参数。式(2)称为单因素方差分析的数学模型。j2则μ是各水平下总体均值的加权平均,称为总平均值;代表了第j水平下的总体均值与平均值的差异,这个差异称为的效应,jjA10sjjjn(4)由式(2),(3)可以得到单因素方差分析的等价数学模型它满足11sjjjjjnn(1,2,,)im(3)再令1sjjnn式(5)表明:样本由总平均值因素的水平效应随机误差三部分叠加而成。因而式(5)也称为线性可加模型。(5)1201,2,,;1,2,,~(0,)ijjijmjjjiijXnjsinN且相互独立方差分析的任务:检验线性统计模型(1.1)中的s个总体2(,)jNj中的各的相等性,即有0121::1.2,jijHHij()至少有一对0121:=01.2':0sjHHj等价假设:()至少检验此假设的问题就是方差分析jj1.总平方和的分解jA记在水平下的样本看作一组,记组内平均为.11jnjijijXXn.111111,jnjjijjjjijsjjXXnXnnnn=其中样本总平均A1(X1)A2(X2)A3A4(X4).1XX.2X.4X14X14.4XX.4XX总离差平方和为211()jnsTijjiSXX--全部数据与总平均之间的差异,又叫总变差2..11[()()]jnsijjjjiXXXX分解=22..1111()()jjnnssijjjjijiXXXX=..112()()jnsijjjjiXXXX+交叉项为0,因为..112()()jnsjijjjiXXXX..112()()0jnsjijjjjiXXXnX..112()()jnsijjjjiXXXX总离差平方和分解为ESAS(组内离差)(组间离差)EASS22..1111()()jjnnssijjjjijiXXXX=211()jnsTijjiSXX2E.11S()jnsijjjiXX组内差反映Ai水平下的子样均值与样本值之间的差异,则有总平方和的分解TS(1.3)AESS22..111()()jnsSAjjjjiJSXXnXX==组间差反映Ai水平下的子样均值与总平均值之间的差异,叫水平Ai效应的平方和它是由随机误差引起的,叫误差平方和SE,SA的统计特性2E.11S()jnsijjjiXX2.212()1jnijjijXXn~()22.21E2211()S~((1))jnijjssijjjXXn由分布的可加性,有=2E2S~()(1.4)ns即2()EESns2EE22EE2S~()S,SS[],[]nsnsEnsEns,知:的自由度为并且有即=2222.11[](.)SsAjjjjJjESEnXnXnEXnEX221(1)(1.5)sAjjjESsn即22221()()sjjjjnnnn2222111(1)2sssjjjjjjjjsnnnn221(1)sjjjsn=110sjjjjjjsjjjAnnn--第个水平的效应=2221(1)sjjjsnn2.1()SAjjJSnXX221(1)sAjjjESns2~(,)ijjXN且独立:222211/(())/(-1)jnsTijjiSXXn012:sH若AETAESSSSS与相互独立(证明略),SA的自由度为S-12222222~(1),~(),TAETESSSSnSns022~(1)HASs222222~(1),~(),~(1)TEASnSnsSs即0:0iH在成立的条件下,F取统计量~(1,)FFsns22/(1)/()AESsSnsF分布的分位点回顾对于给定的正数称满足条件的点为分位点。分布的上查出给定即认为因素对试验结果无显著影响。方差来源平方和自由度均方F值因素ASAs-1误差ESEn-s总和TSTn-11AASSsEESSnsAESFS一元方差分析表~(1,)AESFFsnsS111,12s,jjnjijinsijjiTxjTx=,为了计算的方便,常采用下面的简便计算方式,记222..111122.2.11()()jjnnssTijijjijissjAjjjjiETATSXXXnTTSnXXnnSSS22211111122112222....1111()()()jjjjjjnnssTijijjijinsnijsjjijjinnssijijjijiSXXXnXXXnnTTXnXnn例2设对四种玉米品种进行对比实验,每个品种都在同一块田的五个小区各做一次实验,实验结果如下表所示。试问不同品种对玉米的平均产量是否有显著影响?(α=0.01)品种产量(斤/小区)32.334.034.335.036.533.333.036.336.834.530.834.335.332.335.81A2A3A4A29.326.029.828.029.8解分别以表示不同品种玉米平均产量总体的均值,按题意需检验假设1234,,,01234:H11234:,,,H不全相等1234nnnn=5,1234nnnnn=20656.4,ijx221677.50ijx4S品种地块产量1A2A4A3A132.333.330.829.3172.1173.9168.5141.9656.4536.534.535.828.8435.036.832.328.0334.336.335.329.8234.033.034.326.0.jT2jT2/5jT521ijjx5923.6826048.2425678.454027.12221677.5029618.4130241.2128392.2520135.615933.036060.075696.154035.9721725.22表324521120TijijTSx47.72ETASSS224.1520jAiTTS134.452注意到4,m12345,nnnn可得方差分析表656.421725.22182.172202656.421677.520表4方差来源误差E因素A总和均方自由度平方和显著性F比47.72ES2.98ES15.04F44.817AS182.172TS134.452AS当时,0.01由F分布表可查得0.01(3,16)(3,16)5.29FF由于0.0115.045.29(3,16),FF故拒绝0,H即认为这四个品种对玉米平均产量的影响高度显著。31916由上面讨论,可得未知参数2,,j的估计2ˆESns是的无偏估计。2.1111jjnnjijjjjjjjEXEXnn11111jnssijiijijEXEXnnn.ˆˆ,jjXX4.未知参数的估计如果检验结果为拒绝,0H即12,,,s不全相等。有时需要对第j个水平及第k个水平均值差作出区间估计。jk为此,我们可以取作为的点估计,..jkXXjk注意到..()jkjkEXX2..11()()jkjkDXXnn..()~(0,1)11jkjkjkXXNnn又2ˆ/ESns是的无偏估计,2而2/~ES2(),ns可以证明与相互独立。..jkXXES..2()1/1/()jkjkjkEXXnnTSns..()~()11()jkjkEjkXXtnsSnsnnjk的置信度为的置信区间为1..211()()jkEjkXXtnsSnn例3求例2中未知参数的点估计及均值差的置信度为0.95的区间估计。2J

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功