研究生讲义第四章14.6二项分布和Poisson分布大样本资料的Z检验1.二项分布总体概率的Z检验(大样本,n较大)设XBn~(,),当n相当大,以致n和n()1都较大(例如,大于5)时,前已学过,X近似地服从Nnn(,())1,P近似地服从Nn(,())1(1)单组样本例4.7传染科人员n150中,乙肝化验阳性35名,问总体阳性率是否高于当地一般人群的阳性率17%?欲检验HH0010:,:(或H10:或H10:),05.0研究生讲义第四章2H0成立时,ZPnN000101()~(,)若Z的当前值所对应的P值很小,则拒绝H0,否则,不拒绝H0。例4.7的解:欲检验%17:%,17:10HH(单侧)005.,Z351500170171017150206..(.).,2.061.645,P0.05,故拒绝H0。可认为传染科人员的总体阳性率高于当地一般人群的阳性率。(2)两组样本研究生讲义第四章3例4.8常规治疗组:80名中有效者48名常规+心理治疗组:75名中有效者55名问两组有效率是否相等?PXn111近似地服从))1(,(1111nNPXn222近似地服从))1(,(2222nNPP12近似地服从Nnn(,()())1211122211欲检验HH012112:,:(或H112:)005.,H0成立时会如何?12研究生讲义第四章4先求的联合估计PXXnn01212,再用P0代替12,:PP12近似地服从NPPnPPn(,()())011001002ZPPPPnnN120012011101()()~(,)据Z的当前值查Z分布表得P值,若P值很小,则拒绝H0;否则,不拒绝H0。例4.8的解:欲检验HH012112:,:005.,H0成立时,作联合估计155103758055480P研究生讲义第四章5计算Z的当前值Z488055751031551103155180175176()().查Z分布表,得双侧P008.,不能拒绝H0。尚不能认为两组有效率的差异有统计学意义。2.Poisson分布总体均数的Z检验(大样本,较大)“较大”,例如,20(1)单个观察值例4.9规定:一定时间内放射质点数的总体均数不得超过50.现一次测定结果为X=58,问总体均数是否超过50?欲检验HH0010::005.,研究生讲义第四章6设X~(),大样本时,X近似地服从N(,,)H0成立时会如何?X近似地服从N(,)00ZX00近似地服从N(.)01例4.9的解:欲检验HH015050::(单侧)005.,ZX5050585050113.查正态分布表,得单侧P0.05,不能拒绝H0。尚不能认为总体均数超过50。(2)两个观察值XX12,例4.10两样品各测1分钟,XX12150120,,问相应的两个总体均数是否相等?研究生讲义第四章7欲检验HH012112::005.,H0成立时会如何?记12X1近似地服从N(,,),X2近似地服从N(,,)XX12近似地服从N(,)02但未知,只能用XX122近似地代替)2(20)(2121XXXXZ近似地服从N(,)01即2121XXXXZ近似地服从N(,)01据Z的当前值查正态分布表,得双侧P值,若P值很小,则拒绝H0;研究生讲义第四章8否则,不拒绝H0例4.10的解:欲检验HH012112::005.,ZXXXX1212150120150120183.查正态分布表,得双侧P0.05,不能拒绝H0。尚不能认为相应的两个总体均数的差异有统计学意义。(2)两组观察值例4.11A样品:测10分钟,XX11121500,B样品:测15分钟,XX21221800问以1分钟为观察单位,A、B两样品总体均数是否相等?A组:独立重复观察n1个时间单位,记观察值为XX1112,,,平均值为1X研究生讲义第四章9设每一个时间单位内,XX111121~(),~(),,B组:独立重复观察n2个时间单位,记观察值为XX2122,,,平均值为2X设每一个时间单位内,XX212222~(),~(),,欲检验HH012112::XX1112,,等都近似地服从N(,)11X1近似地服从Nn(,)111XX2122,,等都近似地服从N(,)22研究生讲义第四章10X2近似地服从Nn(,)222XX12近似地服从Nnn(,)01122但12,均未知,用X1代替1,用X2代替2ZXXXnXn1211220近似地服从N(,)01据Z的当前值查正态分布表得双侧P值,若P值很小,则拒绝H0,否则,不拒绝H0例4.11的解:欲检验211210:,:HH005.,研究生讲义第四章1126.6151201015012015012015/1800,15010/150022112121nXnXXXZXX查正态分布表得双侧P值很小很小,0.01故拒绝H0.可以认为AB两样品总体均数不相等。研究生讲义第四章12第六章离散型分类计数资料的2检验6.12分布和Pearson拟合优度检验1.2分布(1)自由度为1的2分布若ZN~(,),01则Z2的分布称为自由度为1的2分布.(chi-squaredistribution),记为()12或21().E()()121图形:从纵轴某个点开始单调下降,先凸后凹.02468100.00.10.20.3研究生讲义第四章13(2)ZZZ,...,,21互相独立,均服从N(,)01,则22221...ZZZ的分布称自由度为的2分布,记为()2或)(2,或简记为2.E()()2*图形:单峰,正偏峰;自由度很大时,2()近似地服从正态分布.*界值:*自由度100时,查附表7.*自由度较大时,利用()()221221Z两种做法:(1)给定,先查正态分布的临界值z;再代入右端,算出()2的临界值2。或(2)给定()2的当前值,先算出Z的当前值;再由标准正态分布表查出P值。研究生讲义第四章14例:100164005,..z98.123)19964.1(21)1)100(2(212205.0205.0z若查表,005212434..,相差不远。*性质:若2122(),()互相独立,则2122()()服从2分布,自由度122122()()服从2分布,自由度122.关于拟合优度的2检验(大样本)给定一张频数表:类别或组段观察频数理论频数1f1e12f2e2………kfkek问题:试判断这份样本,是否来自该理论分布?研究生讲义第四章152检验:(1)H0:样本的总体与该理论分布无区别H1:样本与该理论分布有区别(2)Pearson2统计量kkkkiPeefeefeef222221211122)(...)(-理论频数理论频数)(实际频数可以证明,H0成立时,Pikiiifee2122()~分布*似然比2统计量研究生讲义第四章16分布理论频数实际频数实际频数222211112~ln...lnln2ln2kkkkiLeffeffeff自由度)(1本资料估计的参数个数计算理论分布时利用样k(3)将观察值代入得当前值和相应的P值.若P值很小,则拒绝H0;否则,不拒绝H0.“大样本”:,...,21ee等都不小于5.研究生讲义第四章176.2两二项分布总体概率的比较表6.1反应变量按二项分类的两个独立样本资料(四格表类型之一)某事件观察总频数阳性频率阳性阴性样本1f11f12n1(给定)Pfn1111样本2f21f22n2(给定)合计n1n2n(给定)Pnn1表6.2肺心病患者心律失常观察资料洋地黄用药史某事件观察总频数阳性频率阳性阴性曾用药组81(76.28)83(87.72)16449.39未用药组19(23.72)32(27.28)5137.25合计10011521546.51研究生讲义第四章18解法一:检验211210::HH5175.1)5111641)(2151001(215100511916481)11)(1(210021nnPPPPZ其中,2151005116419810P据当前值1.5175查标准正态分布表,P=0.065,不能拒绝H0。研究生讲义第四章19解法二:(1)检验211210::HH(2)H0成立时,12,用Pnn01近似地代替,理论上应有:ennnn11111ennnn121121()ennnn21221ennnn222221()一般地,理论频数行和列和总和()()(3)统计量的当前值*Pearson2统计量研究生讲义第四章20Pfeefeefeefee211112111212212212122122222222222817628762883877287721923722372322728272823028()()()(.).(.).(.),(.)..上述关于四格表统计量P2的计算公式等价于:Pffffnnnnn21122122121212()本例中,P22813283192151645110011523028().*似然比2统计量研究生讲义第四章21Lffeffeffeffe2111111121212212121222222228181762883838772191923723232272823277lnlnlnlnln.ln.ln.ln..由上可见,PL22实践中,可任用其中之一.(4)自由度计算理论频数时,利用了行和、列和,两个行和中,只有一个是独立的,两个列和中也只有一个是独立的,故利用样本资料来估计的参数个数=2自由度=4-1-2=1另一种算法:自由度=(行数-1)(列数-1)对于例6.1,自由度=(2-1)(2-1)=1(5)决策:*据2统计量的当前值,查附表7,得P值,研究生讲义第四章22若P值很小,则拒绝H0,否则,不拒绝H0.或*给定,查附表7,得临界值2,若2统计量的当前值2,则拒绝H0,否则,不拒绝H0.本例中,P2当前值为2.3028,,查附表7,得自由度=1时,010025..P,故不拒绝H0.或给定005.,查附表7,得自由度=1时,临界值2384.,22P,故不拒绝H0.讨论:关于统计量P2:解法一和解法二Pearson2检验完全等价PPZZ2222302815175.,.,统计量P2的连续性校正:当n40(认为是大样本),若有15eij,必须作连续性校正:研究生讲义第四章23Pfeefeefeefee2111121112122122121221222222205050505(.)(.)(.)(.)或21212211222112)5.0(nnnnnnffffP它们等价于二项分布正态近似中的连续性校正:若PP1222210021)11)(1()5.0()5.0(ZnnPPPPZP6.32×2交叉分类资料的2检验2×2列联表:将样本中个体按