1第五节成数及其抽样估计•一、成数及其性质•是非标志(交替标志):只有两种标志表现。•成数—具有某种标志的单位数在总体单位数中所占的比重。•总体单位数为N,具有某种标志的单位用1表示,单位数为N1,成数为•不具有某种标志的单位用0表示,单位数为N0,成数为•※成数的平均数就是成数本身。•◎成数的标准差为PQ的几何平均数。NNP1NNQ0标志表现xf比重是1N1非0N0合计—N1NNP1NNQ0PNNNNfxfxp010101PQNNNPNPffxxp0102122)0()1()(2二、样本成数的分布•1、样本成数•样本单位数为n,具有某种标志者用1表示,单位数为n1,成数为;不具有某种标志者用0表示,单位数为n0,成数为;p+q=1•2、大数定理:只要n足够大(n≥50),样本成数趋于总体成数p→P,样本标准差趋于总体标准差•3、样本成数的分布•数理统计证明,在n不小于50,nP和nQ均不小于5时,样本成数的分布近似于正态分布。•①样本成数的均数等于总体成数。•②样本成数的标准差,重置抽样•不重置抽样nnp1nnq0PpPxpnPQpnPQNnnPQNnNnPQp)1()1(3三、总体成数的抽样估计•据中心极限定理有•极限抽样误差•概率度t与置信概率γ之间的关系查标准正态分布表。•数理统计证明:pq为PQ的偏误估计量,而是PQ的无偏估计量,即•抽样误差:•重置抽样•不重置抽样)(pppPpPpptpqnn1PQpqnnE)1(pnpqnpqnPQp1npqNnnpqNnNnPQp)1(1)1(4成数抽样估计的步骤•1、据样本资料计算p、q•2、检验n≥50np≥5nq≥5•3、用正态分布表依据γ确定t•4、计算抽样误差重置抽样••不重置抽样•5、计算极限抽样误差•6、计算置信区间•7、回答npqnpqnPQp1npqNnnpqNnNnPQp)1(1)1(pptpppp,5•成数抽样估计举例•学生7000人,抽取100人,有男生60人,以90%的置信概率估计全部学生中男生人数。•解:据样本资料可得•检验np=605nq=405n=10050均满足条件•∵γ=90%表正态分布表得t=1.64•抽样误差•极限抽样误差•男生比重置信区间•男生总数置信区间10060p10040q%86.4)70001001(1004.06.0)1(Nnnpqp%98.7%86.464.1ppt%98.7%604759,36416例6-3例3对一批产品4000按不重复抽样方法抽取200件进行检验,发现有废品8件;又知样本容量n为成品总量N的。当概率为95%时,估计这批成品中废品率的区间范围。已知96.1,201,8,2001tNnnn则0384.0)04.01(04.0)1(,%41ppnnp%35.1)2011(2000384.0)1()1(Nnnppp%65.2%35.196.1ppt总体废品率的置信区间为pppPp即%35.1%4%35.1%4p计算结果表明,有95%的可靠程度认为该产品的废品率在[2.65%,5.35%]之间。已知96.1,201,8,2001tNnnn则0384.0)04.01(04.0)1(,%41ppnnp%35.1)2011(2000384.0)1()1(Nnnppp%65.2%35.196.1ppt总体废品率的置信区间为pppPp即%35.1%4%35.1%4p计算结果表明,有95%的可靠程度认为该产品的废品率在[2.65%,5.35%]之间。已知96.1,201,8,2001tNnnn则0384.0)04.01(04.0)1(,%41ppnnp%35.1)2011(2000384.0)1()1(Nnnppp%65.2%35.196.1ppt总体废品率的置信区间为pppPp即%35.1%4%35.1%4p计算结果表明,有95%的可靠程度认为该产品的废品率在[2.65%,5.35%]之间。7例6-5对5000件零件进行抽样调查,测得样本废品率为1.5%,抽样平均误差为0.5%,现以95%的概率保证,估算全部零件的废品数量。已知96.1,005.0%5.0tp又0098.0005.096.1,%5.10pptnnp故全部零件废品率为0098.0015.00098.0015.0P即0248.00052.0P在95%的概率保证下,全部产品中废品数量为26~124件即)(50000248.0~50000052.0件。三、总量指标的抽样推算已知96.1,005.0%5.0tp又0098.0005.096.1,%5.10pptnnp故全部零件废品率为0098.0015.00098.0015.0P即0248.00052.0P在95%的概率保证下,全部产品中废品数量为26~124件即)(50000248.0~50000052.0件。已知96.1,005.0%5.0tp又0098.0005.096.1,%5.10pptnnp故全部零件废品率为0098.0015.00098.0015.0P即0248.00052.0P在95%的概率保证下,全部产品中废品数量为26~124件即)(50000248.0~50000052.0件。8第六节必要样本容量•一、必要样本容量的意义•据大数定理:①样本容量越大,代表性越强,误差越小,估计越可靠,但样本单位数过多,就失去了抽样估计的意义。②反之,样本容量过大,误差太大,也失去了抽样估计的意义。•按事先给定的置信概率和极限抽样误差计算的抽样单位数,称为必要样本容量。•二、影响样本容量的因素•1、抽样推断的可靠程度和精度•2、允许误差的范围•3、总体各单位标志变异程度•4、抽样的方法和抽样的组织方式9•三、必要样本容量的计算公式•估计均数重置抽样∵∴••不重置抽样∵∴•估计成数重置抽样∵∴••不重置抽样∵∴ntx222xxtnNnntx122222tNNtnxxnPQtp22ppPQtnPQtNPQNtnpp222)1(NnnPQtp10四、必要样本容量的应用•1、和未知,①用历史资料②试验性抽样•P和Q未知,①历史资料或试验抽样②用PQ=0.25•2、np必须满足不少于50,nP、nQ均不小于5的条件,否则增加数量,以至达到规定条件。•3、同时估计和P,若用较大数。•◎必要样本容量计算练习•1、对万亩小麦抽样测产,要求允许误差不超过5公斤,置信概率不低于95%,该抽查多少亩?(σ=30公斤)•2、对7000名大学生戴眼镜情况进行抽样调查,允许误差不超过5%,置信概率不低于68.27%,该抽多少人?XXpxnn113.某市有职工96,000户,在职工家庭生活费调查中,已知职工家庭每人平均生活费收入的标准差为40元,在概率保证程度为95.45%的条件下,要求抽样极限误差不超过10元,现进行简单随机不重复抽样,其样本容量确定如下:已知2,)(10,)(40,000,96tNx元元其样本容量应为户6440210000,96402000,962222222222tNNtnx12第六节抽样设计•一、抽样设计的目的•根据调查对象的特点和调查目的的要求,确定合适的样本抽选方式,并对其产生的抽样误差进行估计的工作•抽样方式单阶段抽样简单(纯)随机抽样•类型抽样(分类、分层)•机械抽样(等距、系统)•整群抽样•多阶段抽样以上方法的结合应用•多阶段对称等距抽样•★保证随机性、提高代表性、减少抽样误差、以求效果最佳。13抽样组织方式(不同于调查的组织方式)•阶段抽样另解•单阶段抽样——抽出的样本单位直接就是总体单位•两阶段抽样——先将总体进行分组,从中随机抽取一些组,然后再从中选的组中随机抽取总体单位•多阶段抽样——将总体进行多层次的分组,然后依次在各组中随机抽取,直到抽取总体单位14抽样方法概率抽样非概率抽样重复抽样不重复抽样简单随机抽样等距抽样分层抽样整群抽样多级抽样即放回抽样。比如,要从总体N个单位中随机抽取容量为n的样本,每次从总体中抽取一个单位,把这看作是一次试验,将结果记录后放回总体中,重新参加下一次的抽取;将此过程连续进行n次即不放回抽样,是指从总体中抽取的单位不再放回去,只从剩下的单位中进行抽取等距抽样也称为系统抽样,它是按照某种顺序给总体中所有单元编号,然后随机地抽取一个编号作为样本的第一个单元,样本的其它单元则按照某种确定的规则抽取(如等距原则)先将总体划成许多相互排斥的子总体或群,然后以群为初级抽样单元,按某种概率抽样技术,如简单随机抽样,从中抽取若干个群,对抽中的群内的所有单元都进行调查第一阶段从所有群中抽取若干群,在每个抽中的群中,再抽取若干单元进行调查15二、简单(纯)随机抽样•1、抽样方式•对全及总体的所有•单位不作任何分组排队•的情况下,从中任意抽•取样本单位。•①直接抽取法②抽签法•③随机数法•2、计算公式•3、运用特点•用于单位少变异小的总体估计方式抽样误差抽样单位数均数重置不重置成数重置不重置nx2)1(2NnnxnPQp)1(NnnPQpxxtn22222222tNNtnxxppPQtn22PQtNPQNtnpp22216三、类型抽样(分类、分层)•1、抽样方式将全及总体各单位按一定标志分成若干类型组,然•后在各类型组中抽取样本单位。(分组与抽样结合)•①类型比例抽样大组多抽、小组少抽•②类型最优抽样大组多抽、变异大多抽•类型抽样的特点:•①提高样本的代表性大小搭配、分布接近•②降低抽样平均误差数理统计证明了总方差分解原理•总方差等于组间方差与平均组内方差之和=+•平均组内方差是各组组内方差的平均数。•组间方差是各组平均数之间的方差•●因各组皆查,故组间方差不影响抽样误差。•③估计各组有关特征数2xNnNnNnNnkk2211iiiiiNNnn2i22i2x172、计算公式•以平均组内方差•代替总体方差。•3、运用特点•分组时应尽量缩小•组内方差。估计方式抽样误差抽样单位数均数重置不重置成数重置不重置nx2)1(2NnnxnPQp)1(NnnPQpxxtn22222222tNNtnxxppPQtn22PQtNPQNtnpp22218•类型抽样的抽样平均误差的计算•(1)平均数的抽样平均误差•(2)成数的抽样平均误差重复抽样nix2不重复抽样)1(2Nnnip式中,2i表示总体各组方差的平均数nniii22抽样组织方式重复抽样nPPiip)1(不重复抽样)1()1(NnnPPiip式中,)1(iiPP表示总体各组方差的平均数nnppPPiiiii)1()1(19抽样组织方式例6-7某厂有甲乙两个车间都生产保温瓶胆,乙车间技术先进,其产量是甲车间的2倍,为了调查该厂保温瓶的保温时间,按两车间产量比例共抽查60只瓶胆,其资料如表所示。车间平均保温时间(小时)保温时间的标准差(小时)甲251.2组内乙280.8某厂保温瓶胆保温时间资料现以95.45%的可靠程度推断该厂生产的全部瓶胆的平均保温时间的可能范围。20•a已知44.12.1,28,25,96.1,6022121sxxtn,64.0)8.0(222s20316011NNnn40326022