医学统计学定性资料的统计分析statisticalanalysisforqualitativedata主要内容二项分布简介总体率的可信区间估计Poisson分布简介总体事件数的可信区间估计样本率与总体率的比较两样本率比较的u检验四格表资料的2检验行列表资料的2检验确切概率法两事件数的比较卡方检验应用的注意事项第一节二项分布简介二项分布的基本概念在医学研究中常常碰到一些情况,其结局只有两种互相对立的结果。每个个体的观察结果只能取其中之一。毒理试验中,动物的生存与死亡;动物诱癌试验中,动物的发癌与不发癌;流行病学观察中,个体发病与不发病;在临床治疗中,病人的治愈与未愈;理化检验结果的阴性与阳性等等。常用二项分布(binomialdistribution)来描述其概率分布。概率的乘法法则:几个独立事件同时发生的概率,等于各独立事件的概率之积。概率的加法法则:互不相容事件和的概率等于各事件的概率之和。例、设小白鼠接受某种毒物一定剂量时,其死亡率为=80%,则对于每只小白鼠而言,其死亡概率为=0.8,生存概率为1-=0.2。若每组各用三只小白鼠(分别计为甲、乙、丙),对每只鼠独立做实验,故各鼠的实验结果(生存或死亡)是互不影响的。观察每组小白鼠存亡情况,如果计算生与死的顺序,则共有8种排列方式;如果只计生存与死亡的数目,则只有4种组合方式。三只小白鼠存亡的排列和组合方式及其概率的计算所有可能结果每种结果的概率死亡数生存数不同死亡数的概率甲、乙、丙XnX生生生0.20.20.2=0.008030.008生生死0.20.20.8=0.032生死生0.20.80.2=0.032120.096死生生0.80.20.2=0.032生死死0.20.80.8=0.128死生死0.80.20.8=0.128210.384死死生0.80.80.2=0.128死死死0.80.80.8=0.512300.5121.0001.000(0.2+0.8)3=(0.2)3+3×(0.2)2×(0.8)+3×(0.2)×(0.8)2+(0.8)3三生二生一死一生二死三死nnnnXXnXnnnnnnnCCCC111222111)1()1()1()1()1()1(为总体阳性率;n为样本例数;X为样本阳性数;CnX为从n个中抽X个的组合数,其计算公式为:式中“!”为阶乘符号,n!=1234…n,并约定0!=1。)!(!!XnXnCXn二项展开式中的各项即对应于各死亡数(X)的发生概率P(X),类似的分布即称作二项分布。从阳性率为π的总体中随机抽取含量为n的样本,恰有X例阳性的发生概率可表达为:X=0,1,2,…,n称X服从参数为n和的二项分布,记为:X~B(n,)。其中参数n由实验者确定,而总体率常常是未知的。XXnXnCXP)1()(例、已知n=3,=0.8,则恰有1例阳性的概率P(1)为:096.08.0)8.01()!13(!1!3)1()1(113111nnCP二项分布的均数与标准差若X~B(n,),则阳性数X的总体均数及其标准差为:n(1)n若均数与标准差不用绝对数X而用率p表示时,即对以上两式分别除以n:pnp)1(nppsp)1(样本率的标准差又称为率的标准误。二项分布的累计概率常用的有左侧累计和右侧累计两种方法。从阳性率为的总体中随机抽取n个个体,则:1、最多有k例阳性的概率:2、最少有k例阳性的概率:kkPPPXPkXP0)(...)1()0()()(()()()(1)...()1(1)nkPXkPXPkPkPnPXk(1)()11nXPXPXX例1、据以往经验,用某药治疗小儿上呼吸道感染、支气管炎,有效率为85%,今有5个患者用该药治疗,问:①至少3人有效的概率为多少?②最多1人有效的概率为多少?本例=0.85,1-=0.15,n=5,依题意,①至少3人有效的概率:P(X≥3)=P(3)+P(4)+P(5)=0.138178125+0.391504688+0.443705313=0.973388126②最多1人有效的概率为:P(X≤1)51515(0)(1)0.15(0.15)0.850.00223PPC例2、经统计,某省用“中药阑尾炎合剂”治疗急性阑尾炎性腹膜炎的有效率为86%,试分别估计:①治疗10例中至少9例有效的概率;②治疗10例中至多7例有效的概率。本例=0.86,1-=0.14,n=10,依题意,①治疗10例中至少9例有效的概率:②治疗10例中至多7例有效的概率:9911010(9)(9)(10)0.860.140.860.3600.2210.581PXPXPXC88210(7)1(8)1(8)(9)(10)10.860.140.5810.155PXPXPXPXPXC二项分布的图形4812160240246481216X0.00.10.20.30.4n=20=0.5n=5=0.3n=10=0.3n=30=0.3P(X)在实际应用中,n足够大,且不太大也不太小,即既不接近于0也不接近于1时,常可用正态近似原理处理二项分布的问题。一般判断标准:n和n(1-)均大于5。二项分布的应用条件二分类资料,即各观察单位只能有互相对立的两种结果之一。两种对立结果发生的概率合计为1。观察结果相互独立,如疾病无传染性、无家族聚集性。第二节率的可信区间估计与定量资料的均数一样,二项分布资料的样本率同样存在抽样误差。样本率的标准差又称为率的标准误为:nppsp)1(一、总体率的可信区间估计(一)正态近似法当n较大、且p不太大也不太小时(常可通过np与n(1-p)均大于5来判断),样本率p的抽样分布近似服从正态分布。可利用正态分布原理来估计总体率的可信区间。可信度为1-α的可信区间为:(p-uSp,p+uSp),缩写为:p±uSp式中,u为可信度为1-α时的u界值。可信度为95%时,u=1.96可信度为99%时,u=2.58。例1、从某地人群中随机抽取144人,检查乙型肝炎表面抗原携带状况,阳性率为9.03%,求该地人群的乙型肝炎表面抗原阳性率的95%可信区间。本例n=144,p=9.03%,可用近似正态法计算可信区间。95%可信限为:9.03%±1.96×2.388%,即该地人群的乙型肝炎表面抗原阳性率的95%可信区间为:4.35%~13.71%。0.0903(10.0903)/1440.023882.388%ps例2、某医院用复方当归注射液静脉滴注治疗脑动脉硬化症188例,其中显效83例,试估计复方当归注射液显效率的99%可信区间。本例n=188,p=83/188=0.4415,np与n(1-p)均大于5,可用近似正态法计算可信区间。99%可信区间为:0.4415±2.58×0.036,即复方当归注射液显效率的99%可信区间为:34.86%~53.44%。(1)0.4415(10.4415)0.036188pppsn(二)查表法当n≤50,p很接近0或1时,样本率p的抽样分布不再近似服从正态分布。样本资料呈二项分布。由于用二项分布法估计总体率的可信区间,计算复杂,故可使用查表法。查阅附表6,求得总体率的95%和99%可信区间。例、有人调查29名非吸毒妇女,出狱时有1名HIV(人免疫缺陷病毒)阳性,该研究者报导,阳性率为3.4%,用正态近似法计算其95%可信区间为:-3.1%~10.0%。阳性率不可能小于0。查表法,其95%可信区间为:0.1%~17.8%。二、两总体率之差的可信区间估计当样本含量n1、n2足够大,两样本率之差的可信区间可用正态分布近似法构造。设p1=r1/n1,p2=r2/n2是两个样本率,p1-p2是它们的差。如果n1p1,n1(1-p1),n2p2,n2(1-p2)均大于5,则可以用正态近似的方法求总体率之差1-2的可信区间:计算公式其中,为率之差值的标准误12121212(),()ppppppusppus222111)1()1(21nppnppspp21pps第三节Poisson分布简介Poisson分布的基本概念对单位时间、单位空间内某独立罕见事件发生数的研究每升水中大肠菌群数的分布粉尘在单位容积内计数的分布放射性物质在单位时间内放射出质点数的分布单位空间中某些野生动物或昆虫数的分布每天交通事故发生数的分布人群中某种患病率很低的非传染性疾病患病数或死亡数的分布用Poisson分布来描述其概率分布。如某事件的发生完全随机,在单位时间或单位空间内事件发生数的概率为:称该事件的发生服从参数为的Poisson分布,记为X~Poisson()。是Poisson分布的总体均数,X为单位时间或单位空间内某事件的发生数,P(X)为事件数为X时发生概率,e为自然对数的底≈2.7183。!)(XeXPxPoisson分布实例2002年韩日世界杯64场比赛中,各队进球数有多有少。大部分是0,1,2个进球,个别队是5个以上进球,最多的是8个进球,平均是1.2578个/场/队。虽然强队往往都能进球、赢球(如巴西队),弱队往往都不能进球(如中国队),但宏观上来说,各队进球数服从Poisson分布!平均计数为1.2578的Poisson分布每场各队进球数场次理论数03736.3914745.7722728.7831312.07423.79510.95≥610.25128128.00Poisson分布的均数与方差Poisson分布的总体方差2与总体均数相等,等于:2==参数表示单位空间或单位时间内事件平均发生的次数,又称强度参数。Poisson分布的累计概率常用的有左侧累计和右侧累计两种方法。单位空间或时间内事件发生的次数:1、最多为k次的概率:2、最少为k次的概率:kkPPPXPkXP0)(...)1()0()()()1(1)()(kXPXPkXPnk(1)()1PXPXXeP)0(Poisson分布的图形P(X)X048048124812162081216202428320.00.10.2=3=5=10=20Poisson分布为正偏态分布越小,分布越偏随着的增大,分布逐渐趋于对称当=20时已基本接近对称分布当=50时,Poisson分布近似正态分布在实际工作中,当≥50时可按正态分布原理处理相关的问题。Poisson分布具有可加性以较小的度量单位观察某现象,如果发生数呈Poisson分布,那么将若干个小单位合并为一个大单位后,其总计数也呈Poisson分布。例、已知某放射性物质每10分钟放射脉冲数呈Poisson分布,5次测量的结果,分别为35、34、36、38、34次。将5个10分钟的放射脉冲数合计为50分钟放射脉冲数(总计为177次)也呈Poisson分布。对于Poisson分布资料往往可以利用其可加性的特性使≥50,然后用正态近似法处理。Poisson分布是二项分布的极限形式在二项分布中,当很小时(0.05),而n很大,此时二项分布则逼近Poisson分布。其中=n。n愈大,近似程度愈好。XXnXnC)1(!Xex例、新生儿染色体异常率为1%,分别用二项分布和Poisson分布原理,求100名新生儿中发生X例(X=0,l,2…)染色体异常的概率。染色体异常数X二项分布,n=100,=0.01Poisson分布,=n