医学统计学-可信区间

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1/35第四章可信区间(confidenceinterval)曾平流行病与卫生统计学教研室2/35例:某地120名12岁男孩身高均数为142.67cm,标准误为0.5477cm,问该地12岁男孩平均身高均数是多少?P36前言3/35实际工作:抽样研究,从总体到样本研究目的:由样本推断总体统计推断(statisticalinference)就是根据样本所提供的信息,以一定的概率推断总体的性质。包括两方面的内容:参数估计和假设检验。4/35统计推断(statisticalinference)统计推断参数估计假设检验点估计区间估计5/35参数估计(parameterestimation)由样本信息估计总体参数点估计(pointestimation)区间估计(intervalestimation)6/354.1.1点估计(pointestimation)直接用样本统计量作为总体参数的估计值方法简单,但未考虑抽样误差的大小在实际问题中,总体参数往往是未知的,但它们是固定的值,并不是随机变量值。而样本统计量随样本的不同而不同,属随机的。该地12岁男孩平均身高均数是142.67cm。7/354.1.2区间估计(intervalestimation)按一定的概率或可信度(1-)用一个区间估计总体参数所在范围,这个范围称作可信度为1-的可信区间(confidenceinterval,CI),又称置信区间。这种估计方法称为区间估计。8/35可信区间的确切涵义可信度为95%的可信区间的确切涵义是:每100个样本所算得的100个可信区间,平均有95个包含了总体参数。9/3510/35下列说法正确吗?算得某95%的可信区间,则:总体参数有95%的可能落在该区间。有95%的总体参数在该区间内。该区间包含95%的总体参数。该区间有95%的可能包含总体参数。该区间包含总体参数,可信度为95%。11/354.1.3可信区间的两个要素可靠性反映为可信度1-的大小精确性用区间长度CU-CL衡量12/354.2均数的可信区间/2,/2,()1Pttt/2,/2,1PttXX-μt=s13/35总体均数的(1-)可信区间定义为:/2,/2,1XXPXtsXts/2,/2,,XXXtsXts14/35大样本资料——近似正态法当样本含量较大时,例如n>100,t分布近似标准正态分布,此时可用标准正态分布代替t分布,作为可信区间的近似计算。相应的100(1-)%可信区间为:/2/2,XXXusXus15/35例4.1随机抽取12名口腔癌患者,检测其发锌含量,得均数为253.05g/g,标准误为27.18g/g,求发锌含量总体均数95%的可信区间。本例自由度=12-1=11,经查表得t0.05/2,11=2.201,则16/35即口腔癌患者发锌含量总体均数的95%可信区间为:193.23~321.87(g/g)。用该区间估计口腔癌患者发锌含量总体均数的可信度为95%。0.05/2,11253.052.20127.18193.23(/)XXtsgg0.05/2,11253.052.20127.18312.87(/)XXtsgg17/35-tt0附表2t界值表概率,P单侧0.250.200.100.050.0250.010.0050.00250.0010.0005自由度双侧0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657127.321318.309636.61920.8161.0611.8862.9204.3036.9659.92514.08922.32731.59930.7650.9781.6382.3533.1824.5415.8417.45310.21512.92440.7410.9411.5332.1322.7763.7474.6045.5987.1738.61050.7270.9201.4762.0152.5713.3654.0324.7735.8936.86960.7180.9061.4401.9432.4473.1433.7074.3175.2085.95970.7110.8961.4151.8952.3652.9983.4994.0294.7855.40880.7060.8891.3971.8602.3062.8963.3553.8334.5015.04190.7030.8831.3831.8332.2622.8213.2503.6904.2974.781100.7000.8791.3721.8122.2282.7643.1693.5814.1444.587110.6970.8761.3631.7962.2012.7183.1063.4974.0254.437120.6950.8731.3561.7822.1792.6813.0553.4283.9304.318130.6940.8701.3501.7712.1602.6503.0123.3723.8524.221140.6920.8681.3451.7612.1452.6242.9773.3263.7874.140150.6910.8661.3411.7532.1312.6022.9473.2863.7334.07318/35例4.2某地120名12岁男孩身高均数为142.67cm,标准误为0.5477cm,计算该地12岁男孩身高总体均数90%的可信区间。因n=120100,故可以用标准正态分布代替t分布,u0.10/2=1.6419/350.10/2142.671.640.5477141.77()XXuscm0.10/2142.671.640.5477143.57()XXuscm即该地12岁男孩平均身高的90%可信区间为:141.77~143.57(cm),可认为该地12岁男孩平均身高在141.77~143.57(cm)之间。20/35附表2t界值表概率,P单侧0.250.200.100.050.0250.010.0050.00250.0010.0005自由度双侧0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657127.321318.309636.61920.8161.0611.8862.9204.3036.9659.92514.08922.32731.59930.7650.9781.6382.3533.1824.5415.8417.45310.21512.92440.7410.9411.5332.1322.7763.7474.6045.5987.1738.61050.7270.9201.4762.0152.5713.3654.0324.7735.8936.8691000.6770.8451.2901.6601.9842.3642.6262.8713.1743.3902000.6760.8431.2861.6531.9722.3452.6012.8393.1313.3405000.6750.8421.2831.6481.9652.3342.5862.8203.1073.31010000.6750.8421.2821.6461.9622.3302.5812.8133.0983.3000.67450.84161.28161.64491.96002.32642.57582.80703.09023.2905-tt021/354.2.2两均数之差的区间估计设两样本之样本含量、均数和方差分别为:n1,n2和s12,s22,根据数理统计结果:21)()(2121XXsXXt服从自由度为=n1+n2-2的t分布。22/351212/2,122()nnXXXXts2)1()1212222112nnsnsnsc(2121121nnsscXX23/35例4.3某医生研究转铁蛋白对病毒性肝炎诊断的临床意义,测得12名正常人和15名病毒性肝炎患者血清转铁蛋白含量,结果如下,试估计正常人和患者的转铁蛋白含量均数之差的95%可信区间。正常人(X1)265.4271.5284.6291.3254.8275.9281.7268.6(n1=12)264.4273.2270.8260.5病毒性肝炎患者(X2)235.9215.4251.8224.7228.3231.1253.0221.7(n2=15)218.8233.8230.9240.7256.9260.7224.424/3589.2711X21.2352Xs12=10.382s22=14.3923679.1632151239.141438.1011222cs95.41511213520.1631121221nnsscXX25/35两组均数之差的95%可信区间为:(271.8917-235.2067)2.0604.95=26.48~46.88可以认为病毒性肝炎患者的血清转铁蛋白含量较正常人平均低36.68,其95%CI为26.48~46.88。26/354.3率的可信区间与均数一样,率也存在抽样误差,率的标准差又称率的标准误为:4.3.1率的抽样误差nppsp)1(27/35率的抽样分布★当总体率<0.5时为正偏态,★当>0.5时为负偏态,★当=0.5时为对称分布。★只有当n较大、率和(1-)都不太小时,例如n和n(1-)均大于5时,率的抽样分布近似于正态分布。28/354.3.2总体率的区间估计正态近似法查表法29/35正态近似法条件:样本例数n足够大,且样本率p和(1-p)都不太小时,即np和n(1-p)均大于5时,样本率p的抽样分布近似正态分布/2/2pppuspus,总体率的可信区间:30/35例从某地人群中随机抽取144人,检查乙型肝炎表面抗原携带状况,阳性率为9.20%,求该地人群的乙型肝炎表面抗原阳性率的95%可信区间。n=144,p=9.20%0.092(10.092)/1440.02412.41%ps95%可信限为:9.20%±1.96×2.41%即该地人群的乙型肝炎表面抗原阳性率的95%可信区间为:4.48%~13.92%。31/35查表法例4.5有人调查29名非吸毒妇女,出狱时有1名HIV(人免疫缺陷病毒)阳性,求阳性率95%可信区间?直接查附表6.2,在行n=29,列x=1交叉处0.1~17.8即为阳性率95%可信区间。32/35正确理解可信区间的涵义(一)可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。所谓95%的可信度是针对可信区间的构建方法而言的。以均数的可信区间为例,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按构建可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。XstX,05.033/35正确理解可信区间的涵义(二)在区间估计中,总体参数虽未知,但却是固定的值(且只有一个),而不是随机变量值。34/35可信区间与参考值范围的区别可信区间用于估计总体参数,总体参数只有一个。参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限。95%的可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%95%的参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。35/35

1 / 35
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功