分类变量资料的统计分析统计推断u检验、检验2参数估计假设检验:频数分布集中趋势指标离散趋势指标医学参考值范围估计数值变量资料的统计分析统计描述统计推断u检验t检验方差分析统计描述相对数参数估计假设检验第十六章分类变量的统计分析第1-3节统计描述刘颖预防医学教研室掌握:常用相对数指标的意义、计算方法和注意事项;率的标准误和总体率可信区间的估计方法及意义;u检验和检验的适用条件和计算方法。2熟悉:率的标准化的意义和计算方法1常用相对数2应用相对数的注意事项3率的标准化第一节常用相对数绝对数(absolutenumber)分类变量资料整理后所得到的数据。相对数(relativenumber)分类变量资料的统计描述指标。例1某年某地流行性乙型脑炎发病240例、麻疹发病200例。240、200——绝对数绝对数说明在一定条件下该地该病实际发生的绝对水平,是制订疾病防治计划和统计分析的基础。甲地麻疹发病率=240/2000=12%乙地麻疹发病率=200/1000=20%发病人数易感儿童甲地2402000乙地2001000例2常用相对数1.率(rate)又称频率指标或强度指标;说明某现象发生的频率或强度;常以%、‰、1/万、1/10万等表示。可能发生某现象的单位总数发生某现象的观察单位数率=×比例基数例3某年某市三个区的肠道传染病发病率区人口数发病人数发病率(‰)甲987405035.09乙751352643.51丙1187304663.92合计29260512334.21甲区发病率=503/98740=5.09‰总发病率=1233/292605=4.21‰2.构成比(constituentratio)又称构成指标或结构指标,说明某一事物内部各组成部分的比重或分布,常以百分数表示。某一组成部分的观察单位数同一事物各组成部分的观察单位数构成比=×100%表16.12000年某医院某病住院与死亡人数病情严重程度住院人数病死数死亡构成(%)病死率(%)轻3001226.74.0中3501840.05.1重1501533.310.0合计80045100.05.6构成比的特点各构成部分的构成比总和为100%;某一部分所占比重的增减,会相应地影响其他部分,各构成比之间是相互制约的。3.相对比(relativeratio)表示两个有关指标之比,常以倍数或百分数表示。甲指标乙指标相对比=(或×100%)例52000年我国第五次人口普查结果,男65355万人,女子61228万人,试计算人口男女性别比。6535561228性别比==1.067例6某市乙型脑炎的发病率1990年为4.48/10万,2000年为0.88/10万,试计算相对比。相对比=4.48/0.88=5.1(倍)相对比=0.88/4.48×100%=19.64%例16.3甲、乙两地肺癌死亡率分别为23.1/10万、12.33/10万,则两地死亡率的相对比为23.1/12.33=1.87,即甲地肺癌死亡率是乙地的1.87倍,RR=1.87。计算相对数时分母不宜过小,即观察单位数应足够多。分析时构成比和率不能混淆(见表16-1)构成比说明事物内部各组成部分的比重或分布;率说明现象发生的频率或强度。第二节应用相对数的注意事项表16.12000年某医院某病住院与死亡人数病情严重程度住院人数病死数死亡构成(%)病死率(%)轻3001226.74.0中3501840.05.1重1501533.310.0合计80045100.05.6相对数的比较应注意可比性观察对象同质、研究方法相同、观察时间相等,以及客观条件一致;资料内部构成是否相同。率的标准化要考虑存在抽样误差率或构成比的比较应做假设检验第三节率的标准化法率的标准化法(standardization)在一个指定的标准构成条件下进行率的对比的方法。实际工作中,对两个或多个频率指标进行比较时,若各组对象内部构成存在差异,且差异又影响分析结果,应该用率的标准化法进行比较。表16.2甲、乙两医院的治愈率科别住院人数治愈人数治愈率(%)甲医院乙医院甲医院乙医院甲医院乙医院内科150050097531565.063.0外科5001500470136594.091.0传染病科50050047546095.092.0合计250025001920214076.885.61.用“标准人口”计算(1)选定标准:两医院各型病人相加;标准的选择方法:选择有代表性、较稳定、数量较大的人群,如全国、全省的历年累计数据;在互相比较的两组资料中,任选其中一组或两组合并作为共同标准。标准化率的计算(直接法)(2)计算甲、乙两医院各型传染病病人的预期治愈人数:各型病人标准人口数分别乘以相应的原治愈率;(3)计算甲、乙两医院传染病的标准化治愈率:各型病人预期治愈人数相加除以标准总人数。表16.3标准人口数计算甲、乙两医院标准化治愈率(直接法)科别标准人原治愈率(%)预期治愈人数口数甲医院乙医院甲医院乙医院内科200065.063.013001260外科200094.091.018801820传染病科100095.092.0950920合计500076.885.641304000乙医院标化治愈率=乙医院预期治愈人数之和/标准组总人数=4000/5000*100%=80%2.用“标准人口构成比”计算(1)将标准病人数换算成构成比;(2)计算甲、乙两医院各型传染病的分配治愈率:标准人口构成比乘以相应原治愈率;(3)计算甲、乙两医院某传染病的标准化治愈率:各型传染病分配治愈率相加。表16.4标准人口构成比计算甲、乙两医院标准化治愈率科别标准人口原治愈率(%)预期治愈率构成比甲医院乙医院甲医院乙医院内科0.465.063.026.025.2外科0.494.091.037.636.4传染病科0.295.092.019.018.4合计1.076.885.682.680.0应用标准化法时的注意事项当各比较组内部构成不同,并足以影响总率的比较时,应对率进行标准化后再作比较;率的标准化的目的是消除混杂因素影响,使其具可比性;各年龄组对应的率出现明显交叉时,宜分别比较各年龄组死亡率,而不用标准化进行比较;如是抽样研究,两样本标准化率的比较应作假设检验。标准化率已不能反映率的实际水平,它只能表明相互比较资料间的相对水平;选定的标准构成不同,所得的标准化率也不同,仅限于采用共同标准构成的组间比较。统计推断统计描述统计分析第十六章分类变量的统计分析第4-6节统计推断刘颖预防医学教研室1率的抽样误差和总体率的估计2率的u检验3检验2一、率的抽样误差和标准误率的抽样误差的大小用率的标准误表示。第四节率的抽样误差和总体率的估计1pn1pppSn例16.5欲了解某种新药对慢性乙型肝炎的疗效,对100名患者进行治疗,其中90人有效,试计算其标准误。10.910.90.03100pppSn一、正态近似法适用条件:np和n(1-p)≥5时,可根据近似正态分布的原理估计其可信区间。例16.5试求该新药有效率的95%可信区间?二、总体率的可信区间估计0.91.960.030.091.960.030.84120.9588ppuS,,二、查表法适用条件:n≤50,特别是p接近0或1时,此时资料呈二项分布,可按二项分布的原理估计总体率的可信区间。一、样本率与总体率比较的u检验目的:推断样本率与总体率的差异是否仅由抽样所致,其差异是否有统计学意义。总体率:一般是理论值、标准值或是经过大量观察所得的稳定值。第五节率的u检验u1pn其中:为样本率为总体率n为样本含量p例16.7某地区一般人群中乙型肝炎的阳性率为15%,现对该地区150名流浪者进行检查,其中阳性30人,问当地流浪者的阳性率是否高于一般人群的阳性率?本例样本率为50%,np和n(1-p)≥5时,可认为呈近似正态分布,故可采用u检验。1.检验假设H0:,当地流浪者阳性率与一般人群相同H1:,当地流浪者阳性率高于一般人群单侧00.1500.052.计算u值3.确定P值,下结论u=1.715>1.645,P<0.05,按a=0.05的检验水准,拒绝H0,接受H1,认为当地流浪者的阳性率高于一般人群。0000.20.15u1.71510.1510.15150pn目的:推断两样本率是否来自同一总体。适用条件:样本率符合近似正态分布的条件(n较大,且P和1-P不太小,即np和n(1-p)≥5时),可用率的u检验。二、两样本率比较的u检验1212u111ccppppnn式中:、为样本率,n1、n2为样本例数,X1、X2为阳性例数,为两样本合并率。cp1p12c12pXXnn2p例16.8欲了解从事工农业生产的50岁以上人群高血压的情况,调查了首钢工人1281人,高血压患者386人,患病率为30.13%;石景山区农民387人,高血压患者65人,患病率为16.80%,试问从事工农业生产的50岁以上人群高血压患病率有无差别?本例两样本的乙肝携带人数均大于5,故可采用样本率的u检验。1.建立检验假设H0:H1:12120.052.计算u值12c12121238665p0.270412813870.30130.1685.1711110.270410.270411281387ccXXnnppuppnn3.确定P值,下结论u=5.17>1.96,P<0.05,按a=0.05的检验水准,拒绝H0,接受H1,从事工业生产和农业生产的50岁以上人群高血压患病率不同。第六节检验检验(chi-squaretest)适用于:分类变量资料中两个或多个样本的总体率是否相同,两个或多个样本的构成比是否相同,配对资料两种属性间的阳性率是否相等。22(一)四格表的检验基本思想可用于两样本率的比较表16-7四格表检验的基本结构一、四格表的检验22处理发生数未发生数合计A组aba+bB组cdc+d合计a+cb+dn2nnnTCRRCncabaT11ndbbaT12ndccaT21ndbdcT22上表中第R行、第C列的理论频数为:因此:如果四格表中实际的发生数用A来表示,可通过下式计算值:2TTA22基本思想:实际频数与理论频数吻合程度。在检验假设成立的情况下,A与T之差一般不会很大,此时值也较小;反之,值较大。检验的自由度:v=(行数-1)(列数-1)22例16.9某医生欲比较A、B两种药物治疗老年期抑郁症的效果,将病情相近的60名患者随机分成两组,分别用两种药物进行治疗,结果见表16-6,问两种药物治疗效果是否有差别?(二)四格表的检验的基本步骤2表16-6A、B两种药物的疗效比较分组有效例数(%)无效例数(%)合计A19(63.33)11(36.67)30B15(50.00)15(50.00)30合计34(56.67)26(43.33)601.建立检验假设H0:H1:12120.052.计算统计量计算各理论频数:21130341760T1230261360T2130341760T2230261360T2222221917111315171513171317131.09ATT3.确定P值,下结论v=(行数-1)(列数-1)=1按v=1,查界值表,,故P>0.05,按a=0.05的水准,不拒绝H0,说明两种药物治疗效果差异无统计学意义。284.32105.0220.051(三)四格表的检验的专用公式2dbcadcbabcad2222ATT(16-13)(16-15)(四)四格表的检验的应用条件P3262