分类资料的统计分析计数资料的统计描述:绝对数、相对数率的标准化率的抽样误差及应用2检验情景资料1、调查了我班视力情况,近视者30人,计算近视率?2、计算我班的血型构成。3、研究某药效果,治疗了5人,治愈3人,如何描述其有效水平?4、某慢性病在深圳的死亡率为1.2%,在上海为3.1%,如何比较该病在两地的死亡水平。(一)常用的相对数1、率:说明某现象发生的频率或强度。率=K常有百分率、千分率、万分率、十万分率等。选择原则:习惯用法使得到的数字一般保留1-2位整数,以便阅读。2、构成比说明某一事物内部各组成部分所占的比重。构成比=3、相对比说明两事物之间的对比关系。相对比=A事物/B事物A、B可以是绝对数,也可是相对数;计算结果可是小数,也可是倍数。常用的有三种:(1)对比指标:同类事物指标的比值。如性别比。(2)关系指标:非同类事物指标的比值。如医护人员与病床数之比。(3)计划完成指标4、注意事项1、分母不可过小。2、不能以比代率3、如何计算合计率(总率)。4、比较相对数时,注意资料的可比性。5、样本率的比较要进行假设检验。某化工厂慢支患病与工龄的关系工龄检查人数患者数百分比(%)患病率(%)1~3401711.565.005~2543020.4111.8110~4327349.6616.9015~1362718.3719.85合计1162147100.0012.65(二)标准化法甲乙两医院某传染病各型治愈率比较病型甲院乙院病人数治愈数治愈率(%)病人数治愈数治愈率(%)普通型30018060.01006565.5重型1004040.030013545.0爆发型1002020.01002525.0合计50024048.050022545.0要比较甲乙两医院某传染病治愈率,要先消除病情构成的影响,即选取一种共同内部构成作为计算总率的基础,这种方法称为率的标准化法,这样计算得到的率称为标准化率(标化率、调整率)。根据资料不同,有直接法和间接法两种。直接法步骤:1、选取一个标准的内部构成,可以是标准人口数,也可是标准人口构成比,还可以用标准阳性率(间接法)。标准来源:A具有代表性的、较稳定的、数量较大的人群作标准。时间最好与被标化资料一致或较接近。B以相比资料本身数据为标准,如甲院或乙院的数据、或两院合并的数据。2、计算标化率。直接法续例:以甲院数据为标准计算乙院治愈率的标化率(直接法)乙院某传染病标化治愈率计算病型标准病人数原治愈率(%)预期治愈人数普通型30065.0195重型10045.045爆发型10025.025合计500----265乙院某传染病标化治愈率=265/500=0.53=53.0%所以在共同的构成下,甲院治愈率为48%,乙院治愈率为53%,因此对该种传染病的治疗率是乙院较高.间接法:间接法是在不知道被比较两者的分率,或某些组的调查人数太少,分率不可靠时采用的方法。如下例:已知甲地死亡总数为845人,乙地为679人,以及两地各年龄组人口数,比较两地死亡水平。甲乙两地死亡标化率计算年龄组标准死亡率甲地乙地(%)人数预期死亡数人数预期死亡数0~62.6930058248003005~3.9122004866002620~6.5190001243530023040~12.776009728003660~41.319007850021合计15.45000092950000613计算标化死亡比(SMR):SMR=实际死亡数/预期死亡数SMR<1,说明标化率大于标准组SMR>1,说明标化率小于标准组甲地SMR=845÷929=0.91甲地标化死亡率=15.4%×0.91=14.03%乙地SMR=679÷613=1.14乙地标化死亡率=15.4%×1.14=17.58%1、根据资料选用相应的方法。2、标化率的大小随选定的标准的不同而不同。3、率的标化的目的在比较,标化率的差别,只反映资料间率的高低、大小的相对关系,并不反映资料间率的实际水平。4、如不计算标化率,而分别比较各组的分率,也可得到正确结论,但不能比较总率的大小。5、被标化的样本率若要进一步推断总体结果,还需对标化后的样本率作假设检验。注意事项练习1、描述计数资料的统计指标是;A.平均数B.相对数C.标准差D.标准误E.变异系数2、某一事件发生强度的指标应选A率B构成比C相对比D绝对数E以上都不对3、某病发病率的分子是A是指一定时间内该病发生的新病例B是指该病发生的新、老病例C是指该病的老病例D是指现患病例E是指现患病例和老病例练习4、下列说法哪个是错误的A四个分率的总率为四个分率之和除以4B假设检验的结果不可能性100%的正确C率和比不能混用D当n较少时,最好用绝对数和相对数一起表示相应的计数资料E标准误的本质是标准差5、欲比较甲,乙两矿工人矽肺患病的严重程度,但甲,乙两矿工人的工龄分布不同,此时适当的比较方法是:A.分工龄进行比较B.用两个率比较的X2检验C.不具可比性,不能比较D.对工龄进行标化后再比较练习6、关于相对数,下列那项不正确A是分类变量资料的统计描述指标B各部分的构成比总和为100%C计算相对数的分母不宜过小D率可表示事物内部某一部分所占的比重7、相对比是A.B两个有关指标之比,两个指标要求A性质必须相同B性质必须不同C性质可以相同也可以不同D性质最好相同E以上都不是8、经调查得甲乙两地的冠心病粗死亡率都为40/万,按年龄构成标化后,甲地冠心病标化死亡率为45/万,乙地为31/万,因此可以认为A.甲地年龄别人口构成较乙地年轻B.乙地年龄别人口构成较甲地年轻C.甲地冠心病的诊断较乙地准确D.乙地冠心病的诊断较甲地准确E.甲地年轻人患冠心病较乙地多9、是非题:用某药治疗某病,治了5例,治愈4例,则该药的治愈率为80%.一、率的抽样误差一般地,从一个阳性率π为的总体中随机抽取含量为n的样本,则样本中的阳性数X服从二项分布B(n,π),样本阳性率p与总体率π之间也存在抽样误差,其大小用样本率的标准差来表示,即率的标准误。总体标准误sπ=√π(1—π)/n样本标准误Sp=√p(1—p)/n总体率的估计和卡方检验1、查表法适用:n≤50时2、近似正态法适用条件:np和n(1-p)≥5时,样本率的分布近似正态分布,可按正态分布原理估计总体率的可信区间。95%CI:p±1.96Sp99%CI:p±2.58Sp二、总体率的估计1、直接计算概率进行比较2、u检验适用条件:np和n(1-p)≥5时,样本率的分布近似正态分布。3、χ2检验:用于检验某个连续变量的分布是否与某种理论分布一致,如是否符合正态分布等推断多个样本率或构成比之间又无差别检验两个分类变量是否相互独立,如吸烟是否与呼吸道疾病有关检验两种方法的结果是否一致,如两种诊断方法对同一批人进行诊断,其诊断结果是否一致三、率的假设检验基本思想吸烟者与不吸烟者的慢性支气管炎患病率比较分组患病人数未患病人数合计患病率(%)吸烟者43(33.86)162(171.14)205(n1)21.0不吸烟者13(22.14)121(111.86)134(n2)9.7合计56(m1)283(m2)339(N)16.5红色为实际数(A),蓝色为理论数(T)。假设吸烟与慢支之间无关,则两者总体的的患病率相同,暂时按合计率推算,即为16。5%。那么T11=n1m1/N=205×56÷339=33.86T12=n1m2/N=205×283÷339=171.14T21=n2m1/N=134×56÷339=22.14T22=n2m2/N=134×283÷339=111.86(1)四格表资料的χ2检验如果假设成立,那么,实际值和理论值的差值为0,否则它们相差很大。实际值和理论值之间的差距用χ2值表示。χ2=∑(A-T)2/T……..基本公式χ2=(ad—bc)2N/(a+b)(a+c)(b+c)(b+d)……..四个表专用公式χ2反映了实际数和理论数的吻合程度。若假设成立,出现大的χ2值的可能性很小,若P≤α,就拒绝假设;若P>α,则尚无理由拒绝它。A四格表资料指的是哪四个格子的数字(见有颜色部分)Bχ2检验的自由度V的计算V=(R—1)(C—1)四格表资料的自由度恒定为1。C四格表资料χ2检验的条件:第一种情况:N≥40,且T均≥5,用普通χ2检验第二种情况:N≥40,但有1≤T<5时,用矫正χ2检验第三种情况:N<40,或T<1时,用确切概率法D当P接近检验水准时,不要轻易下结论。E在满足各自条件的前提下,χ2检验与U检验等价,χ2值=U2注意:例:荧光抗体法与常规培养法检验结果荧光抗体法常规培养法合计+-+160(a)26(b)186--5(c)48(d)53合计16574239若两种检验方法效果相同,那么,理论上c=b,但由于抽样误差的存在,对于样本b不等于c的情况,需进行假设检验。v=1……普通公式……矫正公式b+c≥40时可不矫正,b+c<40时必须矫正。(2)配对四个表资料χ2检验适用于A多个率的比较B多个构成比的比较C双向有序分类资料的关联性检验,如不同期次矽肺患者肺门密度级别分布矽肺期次肺门密度级别合计++++++Ⅰ4318814245Ⅱ19672169Ⅲ6175578合计50301141492(3)R×C表的χ2检验注意:A:R×C表的χ2检验适用于以下条件T≥1;并且1≤T≤5的格子数不超过总格子数的1/5。若条件不满足,可有三种方法处理:a增加样本数b删除理论数太小的行或列c将性质相近的行或列合并B:若结论是“差异具有统计学意义”,仅说明其中至少有一组与其他组存在差异,是否各组两两之间均存在差异,还需进一步作χ2黄金分割检验。C:等级资料不适宜用χ2检验。练习1、从甲乙两文中查到同类研究的两个率比较的四个表资料,其卡方检验,甲文Χ2>Χ20.01(1),乙文Χ2>Χ20.05(1),可认为A两文结果有矛盾B两文结果基本一致C甲文结果更可靠D乙文结果更可靠2、R×C表的卡方检验中,P0.05说明A被比较的任何两个率之间差别均有显著性B样本率之间没有显著性差别C至少某两个率之间有显著性差别D只有两个率之间有显著性差别E大多数样本率之间有显著性差别3、下列哪项检验不适用卡方检验A.两样本均数的比较B.两样本率比较C.多个样本构成比的比较D.拟合优度检验4、假设对两个率差别的假设检验分用u检验和X²检验,则算得的u值和X²值的关系有A.u检验比X²检验准确B.X²检验比u检验准确C.u=X2D.u=E.X2=5、卡方检验中,四格表资料的自由度一定为1.2xu