第7章抽样调查•第一节抽样调查的概念和作用•第二节抽样调查中的几个基本概念•第三节抽样误差•第四节抽样估计•第五节抽样调查的组织形式•第六节必要样本容量的确定例.某服装厂生产了一批棉衣1200件,从中任意抽取了60件进行检验,其中合格品58件,其余不合格,试估计这批棉衣中有多少件不合格?答:这批棉衣中有40件不合格≈解:设这批棉衣中有x件不合格,则:60-58x601200第一节抽样调查的概念和作用•一、抽样调查的概念和特点•1.抽样调查的概念•抽样调查是一种非全面调查,是按照随机原则从所要研究的总体(调查对象)中抽取一部分单位进行调查,用调查所得的指标数值对总体的相应指标数值作出具有一定可靠性的估计和判断的一种统计调查方法。总体样本推断随机抽取二、抽样调查的特点1、是一种非全面调查2、按随机原则抽取调查单位3、根据样本推断总体,并能事先计算抽样误差并控制调节抽样调查的特点•1)按随机原则抽取调查单位•2)用部分单位(样本)的指标数值去推断和估计总体的指标数值•3)抽样调查必然会产生抽样误差,但这个误差是可以事先计算并加以控制的随机原则是指,排除人们主观意愿的干扰,使得总体中每个单位都有同等被抽中的机会。抽样调查的中心问题是如何根据已知的(样本)资料来推断未知的总体情况。通过各种组织措施来控制抽样误差范围,保证抽样推断的结果达到预定可靠程度的要求。抽样调查的作用•1.有些现象不可能进行全面调查,为了测算全面资料,必须采用抽样调查的方法•2.有些现象不必要或很难进行全面调查,也要采用抽样调查•3.对全面调查资料进行检验和修正•4.可以用于工业生产过程的质量控制如调查某地区的矿藏、某城市的空气质量等。如炮弹射程的测量,电视、灯泡等耐用时数的检验等。如某市居民家计调查,某林区的木材储存量调查等。第二节抽样调查中的几个基本概念•一、全及总体和抽样总体•1.全及总体(唯一)•全及总体是指统计研究对象的全体,简称为总体,也叫母体。用字母“N”来表示。•2.抽样总体(多样)•抽样总体是按照随机原则从全及总体中抽取出来的一部分单位组成的小总体。抽样总体也称样本总体,简称样本、子样。用字母“n”来表示。(n≥30时,称为大样本;否则为小样本。)二、全及指标和抽样指标•1.全及指标•全及指标又称总体指标和总体参数,是根据全及总体各单位标志值计算的综合指标,全及指标一般是未知的。•1)总体平均数•在总体未分组的情况下:•在总体分组的情况下:NXNXXNii1FXFFFXXkiikiii11总体成数3)总体数量标志标准差和方差在总体未分组的情况下:在总体分组的情况下:NNP1NNQ01QPNXXNXXNii212FFXXFFXXkiikiii2112总体是非标志标准差和方差PP1)1(2PP抽样指标•抽样指标,又称样本指标和样本统计量,是根据抽样总体计算的统计指标。和全及总体一样,常用的抽样指标也有四种:抽样平均数、抽样成数、样本数量标志标准差及方差,样本是非标志标准差及方差。一般我们用相应的样本指标来估计未知的总体指标。抽样平均数•在抽样总体未分组的情况下:•在抽样总体分组的情况下:nxxfxfx注意:样本指标的符号用小写表示。抽样成数3)样本数量标志标准差及方差•当抽样总体未分组时:•当抽样总体分组时:nnp1nnq01qpnxxS2ffxxS2样本是非标志标准差及方差ppS1ppS12,重复抽样与不重复抽样•1.重复抽样•重复抽样也叫重置抽样,是从全及总体中随机抽取一个样本单位,经调查登记有关标志后将其放回到原总体中去,然后再从总体中抽取第二个样本单位,记录它的有关标志表现后,也把它放回到总体中去,如此下去,直到抽够个样本单位为止。n不重复抽样•不重复抽样也称为不重置抽样,是从全及总体中按随机原则抽取一个样本单位,观察记录其有关标志后,不再将它放回到总体中去参加下一次抽选,而是从剩余的-1个单位中抽取第二个样本单位。如此进行次,就可以得到容量为的样本总体。Nnn(二)样本可能数目指抽样组织和抽样方法一定时,从总体N个单位中随机抽取一个容量为n的样本,该样本不同构成的可能数目。1.重复抽样的样本可能数目重复抽样,通常还要考虑样本单位的排列顺序,如电话号码中的“863”和“368”不同。重复抽样的样本可能数目为:2.不重复抽样的样本可能数目不重复抽样,通常不考虑样本单位的排列顺序,如篮球队的5个队员按其号码“1,2,3,4,5”排队和“5,4,3,2.1”排队是同一个队。不重复抽样的样本可能数目为:nNm重nNCm不重例:设总体有A、B、C、D4个单位,现在要从中随机抽取2个单位构成样本。试分别计算重复抽样的样本可能数目和不重复抽样的样本可能数目。解:编制样本构成表如下:(个);重1642nNm(个)不重624CCmnN重置抽样第二次ABCD第一次AAAABACADBBABBBCBDCCACBCCCDDDADBDCDD不重置抽样第三节抽样误差•一、抽样误差•1.抽样误差的概念•抽样误差是指在遵守随机原则的条件下,用抽样指标代表总体指标所产生的不可避免的误差,抽样误差表现为抽样指标与总体指标之间的绝对离差,即抽样平均数与总体平均数之间的绝对离差和抽样成数与总体成数之间的绝对离差。XxPp抽样误差产生的原因统计误差的产生原因可消除性误差不可消除性误差技术性误差抽样误差登记性误差系统性误差影响抽样误差的因素•1)抽样单位数目的多少抽样误差与样本容量(n)的算术平方根成反比。•2)总体各单位标志变异程度抽样误差与总体标准差(σ)成正比。•3)抽样的组织形式和方法不重复抽样比重复抽样所产生的误差小。常用抽样组织形式的抽样误差由小到大的顺序是:类型(分层)抽样、机械(等距)抽样、纯随机(简单随机)抽样、整群抽样。抽样平均误差•1.抽样平均误差的概念•抽样平均误差是所有可能出现的抽样指标和全及指标之间的平均离差,也就是指所有可能出现的样本指标的标准差,一般用或表示。mxxmXxmiimiix1212xp•例:假设4个工人的日生产量为,甲40件、乙50件、丙70件和丁80件,现在从四人中抽取三个人来估计四个人的日平均生产量。可见四个人总体的日平均生产量为(40+50+70+80)/4=60•现在从四个人中选三个人出来日平均产量,一共有4种可能:可能1:甲乙丙(40+50+70)/3=53.33|60-53.33|可能2:甲乙丁(40+50+80)/3=56.67|60-56.67|可能3:甲丙丁(40+70+80)/3=63.33|60-63.33|可能4:乙丙丁(50+70+80)/3=66.67|60-66.67|日平均产量可见这种抽样的四种可能与总体平均60,存在一定差异。误差•故抽样平均误差应表示为四种可能的平均误差,即mXxix466.67)-(6063.33)-(6056.67)-(6053.33-60222212mXxmiix|60-53.33|+|60-56.67|+|60-63.33|+|60-66.67|————————————————————4•由于有绝对值不利于数学推导和运算,故将抽样平均误差计为:=5.27说明这种抽样方法估计日平均生产量平均来说将会产生5.27件的误差。•所以,抽样平均误是综合衡量一种抽样方法的抽样指标能反映总体指标的代表性,如果某抽样方法抽样平均误差越大则估计的总体指标的代表性越差,反之则越好。抽样平均误差的计算公式•1)平均数的抽样平均误差•重复抽样条件下•在不重复抽样条件下nnx2Nnnx12不重复抽样的修正系数当N很大时,NnNnN11当抽样比(n/N)很小时,11Nn例:总体有A、B、C、D4名学生,其考试成绩分别为5分、4分、4分、3分,总体均值为4分,方差为0.5。现要从中随机抽取2名学生构成样本。试分别计算重复抽样和不重复抽样的抽样平均误差。解:①重复抽样(分)5.0214125.0nx②不重复抽样(分)4082.0613241142425.012NnNnx成数的抽样平均误差•重复抽样条件下•不重复抽样的条件下nPPp)1(NnnPPp1)1(•例:某地区有奶牛2500头,随机抽选400头进行调查,得出每头奶牛年平均产奶量为3000公斤,标准差为280公斤,求抽样平均误差。•用重复抽样公式计算为:•用不重复抽样公式计算为:1440028022nx(公斤)(公斤)Nnnx1283.12250040014002802•例:某厂生产一批电视机共10000台,现从中抽取300台进行质量检测,测得其合格率为94%,试求其抽样平均误差。%37.1300)94.01(94.0)1(nppp%35.1100003001300)94.01(94.01)1(Nnnppp第四节全及指标的推断•1.点估计•点估计,也称定值估计,是直接用实际样本指标数值代替总体指标数值。•关键问题是估计量的选择pPsSxX,,点估计量的优良标准指样本指标的均值应等于被估计的总体指标无偏性ˆˆ设为待估计的总体参数,为样本统计量,则的优良标准为:若,则称为的无偏估计量。ˆ)ˆ(E优良估计量的抽样分布方差小于其他估计量的方差有效性指随着样本单位数n的增大,样本估计量的取值将在概率意义下趋近于总体参数真值一致性抽样估计量的优良标准若对于任意ε0,有1ˆlimPn1ˆ2ˆ)ˆ()ˆ(21VV若则称为比更有效的估计量简单,具体明确优点缺点不知道估计的可靠程度,仅适用于对推断的准确程度与可靠程度要求不高的情况点估计的优缺点2.区间估计•区间估计是根据一定的概率保证程度把样本指标和抽样误差结合起来去推断总体指标所在可能范围的估计方法。•1)总体平均数的区间估计xx≤≤xXx•区间估计的特点:•不指出参数的确定数值,而是在一定的概率保证程度下指出参数的可能范围。•估计的可信程度可知,即为概率保证程度抽样极限误差•抽样极限误差,又称抽样允许误差。它是表示样本指标与总体指标之间产生抽样误差的最大可能范围,表现为样本指标允许变动的上限或下限与总体指标之差的绝对值,用表示。有:XxxPppxx≤≤xXx即,如果知道极限误差,那么就可以得到总体指标的一个估计区间例子说明•要估计某乡粮食亩产,从8000亩粮食作物中,用不重复抽样抽取400亩,求得平均亩产为450公斤。如果确定抽样极限误差为5公斤,这就要求某乡粮食亩产为450±5公斤,即在445公斤到455公斤之间。•要估计某农作物秧苗的成活率,从播种这一品种的秧苗地块随机抽取秧苗1000棵,其中死苗80棵,则样本成活率P=1-80/1000=92%。如果确定抽样极限误差△p为2%,这就要求该种秧苗的成活率P为92%±2%,即是在90%到94%之间抽样误差的概率度•抽样极限误差与抽样平均误差的比值,叫做误差的概率度,用表示xtxxt或xxtppt或ppt借助t和就可以计算极限误差)(xxXxXP如果已知总体平均数,样本平均数的概率表示为:321213二)区间估计1、建立置信区间……极限误差xxXxXXXXxXxxxxxxxx包含总体平均数)该不等式表明区间()()-(式不用未知,这一展开变动,由于)之间为中心,在(数以该不等式表明样本平均)()-(-XxppPpPPPpPPpppppppP