第十五章总体特征抽样调查的设计与分析主要内容•单纯随机抽样•系统抽样•分层随机抽样第一节单纯随机抽样例15-1某地区共有250名社区医生,一个研究组从名单中随机抽取90名进行调查,发现他们一个月内家访平均次数为4.89,标准差为3.48;其中有40位是医科大学毕业。试估计当地一个月内平均每位社区医生的家访平均次数、全体社区医生的家访总次数以及社区医生中大学毕业者所占的百分比。单纯随机抽样•单纯随机抽样(simplerandomsampling)。•一个月内平均每位社区医生家访的平均次数约为4.89•全体社区医生家访的总次数约为4.89×250=1222.5•社区医生中大学毕业者所占的百分比约为(40/90)×100%=44.4%单纯随机抽样•连续型变量总体均数的估计无限总体(infinitepopulation)从正态分布总体,则样本均数的标准误为总体均数u的可信区间),(2Nnsxx)SE(/2,1SE()nXtX/2SE()XZX单纯随机抽样•有限总体(finitepopulation)样本均数的标准误:可信区间:/2,1SE()nXtXnsNnxx1)SE(/2SE()XZX有限总体校正因子抽样频率单纯随机抽样例15-1:总体均数u的95%置信区间:2935.09048.3250901)SE(x)47.5,31.4()2935.0(96.189.4单纯随机抽样总体中所有X值之和的置信区间可以用u的置信区间乘以N倍来估计,即全体社区医生一个月内家访总次数的95%置信区间:/2,1[SE()]nNXtX)5.1367,5.1077()]47.5,31.4[(250单纯随机抽样•0-1变量总体概率的估计二项分布无限总体:已知在含有n个个体的独立随机样本中,有y个个体具有某种特定属性,则该属性的样本频率样本频率变异性的标准误:nypnppnppp)1(1)1()SE(单纯随机抽样有限总体:总体概率的置信区间:1)1(1)SE(nppNnp)SE(2/pZp单纯随机抽样•例15-1:当地全体社区医生一个月内家访的总次数约介于1077.5和1367.5之间,平均每位社区医生家访的平均次数约介于4.31和5.47之间;而社区医生中,大学毕业者所占的百分比则约介于36.2%和52.6%之间。9040nyp042.0190)90/401)(90/40(2509011)1(1)SE(nppNnp)527.0,362.0()042.0(96.19040单纯随机抽样•样本量的估算•样本量估算的依据样本量的信息:1.总体中个体的变异程度如果个体间变异程度小,则所需样本量也较少;通常用变异系数V来反映个体间变异。2.精度通常用最大的相对误差反映精度的要求,是最终估计范围的半宽度与真值之比。精度要求越高,样本含量就越大。3.置信程度即置信水平反映置信程度。置信程度越高要求的样本含量也越大。单纯随机抽样•连续型变量总体均数估计的样本量需准备如下信息:1.变异系数V即总体标准差与总体均数之比2.相对误差由研究者根据问题的背景自行规定。3.置信水平也由研究者根据问题的背景自行规定。通常取90%,95%,99%。如果取99.7%,理论上认为这时的置信区间基本上覆盖真值,所以称之为“实质上肯定”(virtualcertainty)的水平,此时标准正态分布的临界值V32/003.0Z单纯随机抽样•最小样本量的公式为•续例15-1,将已获得的90名社区医生的资料视为预调查22/VZn712.089.448.3V49]2.0)712.0(96.1[2n单纯随机抽样关于社区医生家访次数的估计,欲使相对误差不超过20%,而保持置信水平为95%,至少需要调查49名社区医生。比由此,为了估计平均家访次数,预调查90名社区医生的资料已经足够了。还少?需要说明的是,如果算出的最小样本量n超过了总体内个体数N,则最小样本量就应该是N,即需要作全数调查。单纯随机抽样•0-1变量总体概率估计的样本量事先需知(1)总体概率的猜测值P可以通过预调查的资料来粗略估计。(2)相对误差由研究者根据问题的背景自行规定。(3)置信水平也由研究者根据问题的背景自行规定概率的变异系数的计算公式为最小样本量的公式为关于社区医生中大学毕业者所占百分比的估计,欲使相对误差不超过20%,而保持置信水平95%,至少需要调查121名社区医生。PppV)1(PPZn222/)1(12105.120)90/40()2.0()90/401()96.1(22n系统抽样•系统抽样需要事先为总体中的个体编号。•如果欲调查的变量值或特定的属性与编号之间没有确定的上升、下降或周期性关系,这时可以按单纯随机抽样的办法来估计参数和估算样本量。•如果个体的编号不具有随机性,就应考虑采用其它的抽样设计和相应的统计方法。第二节分层随机抽样例15-2欲抽样调查某医院病人的药费开支和自费病人所占频率。决定将病人分为内科、外科、妇科、儿科和其他5个“层”;将每一层视为一个小总体,在每一层内作随机抽样。已知一天内5个层的门诊人次数分别:N1=2800,N2=900,N3=700,N4=400,N5=200,总的人次数n=5000,总的样本数n=1000,抽样的比例为n/N=0.2。于是,5个“层”中抽出的样本量分别:n1=560,n2=180,n3=140,n4=80,n5=40。•按单纯随机抽样的计算方法,得到各个层内每人次门诊药费开支(元)的样本均数分别•样本方差分别为•各个层内完全自费者的频率分别为3501x1502x2803x2104x1205x1000021s250022s640023s360024s160025s%301p%502p%403p%404p%205p分层随机抽样•分层随机抽样(stratifiedrandomsampling)。此时可简单估计该医院病人平均每人次门诊的药费开支(元)约为•门诊病人中完全自费者所占频率约为•点估计,需要进行区间估计,其关键仍是估计标准误8.2835000141900020040070090028002001204002107002809001502800350%4.3550001770200400700900280020020.040040.070040.090050.0280030.0分层随机抽样•连续型变量总体均数的估计各层的抽样比例相等总样本量按比例分配(proportionalallocation)到各层,权重为层的相对大小NnNnhhNNWhhNNnnWnhhh分层随机抽样•总的样本均数:上述点估计就是以各层的相对大小为权重,将各层的样本均数作加权平均,以求得总的样本均数•样本均数的方差•自由度=n-LLhhhxWx122SE()1hhhhhnsXNnLhhWx12h2)xSE()SE(分层随机抽样•各层的相对大小为•总体均数的估计56.0500028001W18.050009002W14.050007003W08.050004004W04.050002005W8.283)120(04.0)210(08.0)280(14.0)150(18.0)350(56.01LhhhxWx分层随机抽样•计算各层样本均数的方差•总样本均数的方差为2857.145601000028005601)SE(21x1111.1118025009001801)SE(22x5714.3614064007001401)SE(23x36803600400801)SE(24x32401600200401)SE(25x28.19)32(04.0)36(08.0)5714.36(14.0)1111.11(18.0)2857.14(56.0)SE(2x分层随机抽样•标准误•总体均数的95%置信区间•该医院一天中门诊病人药费总和的95%置信区间•该医院一天中门诊病人的总药费介于1376000和1462000元之间39.4)SE(x)4.292,2.275()39.4(96.18.283)1462000,1376000()]4.292,2.275[(5000分层随机抽样•0-1变量总体概率的估计总的样本频率:将各层的样本频率作加权平均,可以求得总的样本频率样本频率的方差LhhhpWp11)1(1)SE(2hhhhhhnppNnpLhhpWp12h2)SE()SE(分层随机抽样•总体概率的估计当样本量相当大时,总体概率的置信区间:例15-2,总的样本频率为)SE(2/pZp%4.35)2.0(04.0)4.0(08.0)4.0(14.0)5.0(18.0)3.0(56.01LhhhpWp分层随机抽样•各层内样本频率的方差:•总频率的方差:•总频率的标准误0003.01560)3.01(3.028005601)SE(21p0011.01180)5.01(5.09001801)SE(22p0014.01140)4.01(4.07001401)SE(23p0024.0180)4.01(4.0400801)SE(24p0033.0140)2.01(2.0200401)SE(25p000886.0)0033(.04.0)0024(.08.0)0014(.14.0)0011(.18.0)0003(.56.0)SE(2p0298.0)SE(p分层随机抽样•总体概率的95%置信区间•该医院门诊病人中完全自费的比例介于29.6%和41.2%之间)412.0,296.0()0298.0(96.1354.0分层随机抽样•样本量的估算例15-3某社区卫生站成立之初计划调查本辖区一年内平均每人去医院门诊看病的次数。拟按年龄分成30岁以下、30-44岁、45-59岁和60岁以上4个“层”,按比例抽样。已知4个年龄层的人口数分别为n1=5000,n2=5000,n3=6000,n4=4000。4个年龄层一年内平均每人去医院门诊看病的次数分别为0.8,0.5,0.4和1.1;同年龄层内的方差分别为0.65,0.49,0.16和1.14。此项调查要求相对误差不超过20%,置信水平达到95%。试估算样本量。分层随机抽样•连续型变量总体均数估计的样本量类似于单纯随机抽样,事先需准备如下信息变异系数:相对误差置信水平wxV分层随机抽样•最小样本量的公式例15-3,根据以往资料,4个年龄层的均数和方差的加权平均分别22/VZn665.020000)1.1(4000)4.0(6000)5.0(5000)8.0(5000561.020000)14.1(4000)16.0(6000)49.0(5000)65.0(50002wx2786.1)665.0(561.0222wxV分层随机抽样•最小样本量为•按比例分到4个年龄层•4个年龄层的样本量分别为31,31,37和251238.122)20.0()2786.1()96.1(22n3175.302000050001231n3175.302000050001232n379.362000060001233n256.242