抽样误差参数估计抽样组织设计主要内容本节主要内容:抽样误差;抽样平均误差;抽样极限误差。第一节抽样误差含义:由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。其应等于由实际样本计算得到的指标与总体指标的差异:一、抽样误差(standarderrorofthemean)抽样平均数或抽样成数的标准差。反映了抽样平均数与总体平均数、抽样成数与总体成数的平均误差程度。指所有可能样本的平均数与总体平均数之间误差的平均数,理论上:二、抽样平均误差(标准误)重复抽样和不重复抽样(P108)重复抽样:又称回置抽样。可能组成的样本数目:不重复抽样:又称不回置抽样。可能组成的样本数目:N(N-1)(N-2)……(N-n+1)nN抽样平均误差的实际计算公式1:重复抽样不重复抽样平均数成数抽样平均误差的实际计算公式2:重复抽样不重复抽样平均数成数经常地,未知,用样本方差替代:某公司生产一批灯泡,共1000只,从中随机抽取100只,测其寿命平均为1000小时,样本标准差为60小时,计算其抽样误差。按重复抽样计算:按不重复抽样计算:例:例:一批食品罐头共60000桶,随机抽查300桶,发现有6桶不合格,求合格品率的抽样平均误差?已知:则:样本合格率计算结果表明:不重复抽样的平均误差小于重复抽样,但是“N”的数值越大,则两种方法计算的抽样平均误差就越接近。影响抽样平均误差的因素由公式可以看出:抽样方法:采用不重复抽样比重复抽样的抽样误差小。样本容量:抽样单位数目越多,抽样误差越小;反之,越大。总体的变异程度:总体的变异程度越大,抽样误差越大;反之,则越小。抽样的组织方式:不同的抽样组织方式所抽中的样本对总体的代表性不同,故抽样误差的大小不同。三、抽样极限误差1、抽样极限误差:指抽样指标和总体指标之间抽样误差的可能范围。以绝对值的形式表示:2、抽样极限误差的衡量指标——概率度t抽样极限误差是指用绝对值形式表示的样本指标与总体指标偏差的可允许的最大范围。它表明被估计的总体指标有希望落在一个以样本指标为基础的可能范围。基于理论上的要求,抽样极限误差需要用抽样平均误差为标准单位来衡量。即把极限误差△x或△p相应除以样本平均数或成数的极限误差,得出相对的误差程度t倍(概率度)。抽样平均数的抽样极限误差抽样成数的抽样极限误差重复抽样不重复抽样在抽样估计中,人们往往要求:抽样极限误差即抽样误差范围可以用t倍的抽样平均误差来表示,在抽样平均误差为一定的条件下,当概率度t的值越大,则抽样误差范围越大,估计抽样平均数或成数落在误差范围内的概率越大。即:抽样平均误差一定的条件下,当概率度t的值越大,则抽样误差范围越大,估计全及平均数或成数包含在相应的区间范围内的概率越大,从而抽样估计的可信程度也就越高。如果把可靠程度即概率用p表示,概率度t的大小决定p的大小,即p是t的函数:为了方便计算,在实际工作中,按不同的t值和相应的概率编成正态分布概率表供查用。例如:0.68270.80000.86640.90000.95000.95450.99000.99730.999911.281.51.641.9622.5834t概率度和概率的函数关系式:某农场种植小麦5000亩,收获前夕随机抽取25亩进行实割实测,测得平均亩产500千克,标准差为50千克,试求全部5000亩小麦的平均亩产在480千克至520千克之间的概率。例:例:500—合计3512718510342882587592597510251075800~850850~900900~950950~10001000~10501050~1100灯泡数量f(个)组中值x(小时)耐用时间(小时)以99.73%的置信概率为标准,计算抽样平均数的抽样平均误差和抽样极限误差。某灯泡厂在某一时期内大量生产某种型号的灯泡。现采用随机抽样的调查方式,进行质量检查,其结果:解:由样本资料:抽样平均误差由于,3%,73.991t抽样极限误差:例:某企业生产一批灯泡,共10000只,随机抽取500只作耐用实验。测算结果平均使用寿命为5000小时,样本标准差为300小时,500只中发现10只不合格。求平均数和成数的抽样平均误差。解A.样本平均数的抽样平均误差:采用重复抽样方法:采用不重复抽样方法:B.样本成数的抽样平均误差:设成数为不合格率,则样本成数采用重复抽样方法:采用不重复抽样方法:参数估计就是利用实际调查计算的样本指标值来估计相应的总体指标数值。第三节参数估计一、直观的例子----说明样本与总体的关系设某一总体N=5,抽取n=2的样本,列出所有的可能样本组合.第一次抽取第二次抽取2468102(2,2)2(2,4)3(2,6)4(2,8)5(2,10)64(4,2)3(4,4)4(4,6)5(4,8)6(4,10)76(6,2)4(6,4)5(6,6)6(6,8)7(6,10)88(8,2)5(8,4)6(8,6)7(8,8)8(8,10)910(10,2)6(10,4)7(10,6)8(10,8)9(10,10)10平均数抽样分布频数f频率f/2523456789101234543210.040.080.120.160.200.160.120.080.04合计251.00x总体平均数和总体方差5152212222222468106555246810652.82iiiiXXXX26251019283746554433221)()(62510192837465544332212222222232291912919129191xfxffxxffxfxiiiiiiiiiixiiiii样本平均数的平均数和样本平均数的标准差xXxn结论:样本平均数的平均数和总体平均数的关系:抽样平均误差和总体方差的关系:二、抽样推断的理论依据1、大数定律(Lawoflargenumbers)回答:样本平均数的变动趋势?只有掌握足够多的数据,现象的规律才能充分体现出来(随着样本单位数n的增加,样本平均数接近于总体平均数的趋势,几乎具有实际必然性)。为什么可以由样本估计总体?2、中心极限定理(centrallimitedtheorem)回答:样本平均数与总体平均数的差距有多大?如果总体变量存在有限的平均数和方差,那么,不论这个总体的分布如何,随着样本容量的增加,样本平均数的分布趋于正态分布。),(~2nXNx三、抽样指标分布的性质1、样本平均数的抽样分布的性质2——若总体服从正态分布,样本平均数服从正态分布。——若样本容量足够大,不论总体的分布形式如何,样本平均数的抽样分布近似于服从正态分布。(1)总体方差已知的情况下:x)1,0(~Z),,(~2NnXxnXNx——若总体服从正态分布,样本平均数服从正态分布。——若样本容量足够大,不论总体的分布形式如何,样本平均数的抽样分布近似于服从正态分布。),(~2XNX(2)总体的方差未知的情况下:2当总体服从正态分布时,样本平均数的分布服从t分布当总体为非正态总体时,只要样本足够大,样本平均数服从t分布。)1(~1ntnSXxtn2、样本成数p的抽样分布的性质从总体中抽取一个容量为n的样本,nxxx,...,,21),(~PnBx样本成数的平均数为P,方差为若则认为样本成数服从正态分布。(1)ppn5,5npnq四、参数估计参数估计有点估计和区间估计两种:1、点估计的基本特点:根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本估计量直接作为相应总体参数的估计值。点估计的优良标准是无偏性、一致性和有效性。评价点估计量优劣的准则:——无偏性——有效性——一致性22)(,)(SEXxE1)(limXxPn)ˆ()ˆ(21①根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限,即指出总体参数可能存在的区间范围,而不是直接给出总体参数的估计值。②总体参数区间估计根据给定的概率保证程度的要求,利用实际抽样资料,指出被估计值的上限和下限,即指出总体参数可能存在的区间范围。③总体参数区间估计必须同时具备点估计值、抽样误差范围和概率保证程度三个要素。2、区间估计的基本特点:区间估计的内容包括总体平均数和总体成数的估计。例:某学校进行一次英语测验,为了解学生的考试情况,随机抽选部分学生进行调查,所得资料如下:840222010学生人数90分以上80~9070~8060~7060分以下考试成绩试以95.45%的可靠性估计该校学生英语考试平均成绩的范围及该校学生成绩在80分以上的学生所占的比重的范围。解:列表计算如下:按成绩分人数组中值90分以上8957602708.4880~90408534002822.470~802275165056.3260~70206513002691.260分以下10555504665.6合计100——766012944xffxx2(1)该校学生英语考试的平均成绩的范围:该校学生考试的平均成绩的区间范围是:(2)该校学生成绩在80分以上的学生所占的比重的范围在95.45%概率保证程度下,该校学生成绩在80分以上的学生所占的比重的范围在38.01%—57.99%之间。80分以上学生所占的比重的范围:这是在简单抽样条件下进行区间估计的例题。从上面解法中,我们可以总结出这类计算题的基本做法:先计算出样本指标;然后根据所给条件(重复抽样或不重复抽样、样本平均数或成数分布情况)进行抽样平均误差的计算,抽样极限误差的计算;最后根据样本指标和极限误差进行区间估计。从某年级学生中按简单随机抽样方式抽取40名学生,对公共理论课的考试成绩进行检查,得知其平均分数为78.75分,样本标准差为12.13分,试以95.45%的概率保证程度推断全年级学生考试成绩的区间范围。如果其它条件不变,将允许误差缩小一半,应抽取多少名学生?解:n=40x=78.56σ=12.13t=2(1)=例:△x=tμ=2×1.92=3.84全年级学生考试成绩的区间范围是:(2)将误差缩小一半,应抽取的学生数为:学习本节应从以下三个方面来把握:一、总体参数的点估计总体参数点估计的特点:总体参数优良估计的标准无偏性一致性有效性二、总体参数的区间估计区间估计三要素估计值抽样误差范围概率保证程度总体参数区间估计的特点:三、总体参数区间估计的方法(一)根据给定的抽样误差范围,求概率保证程度分析步骤:1、抽取样本,计算抽样指标。2、根据给定极限误差范围估计总体参数的上限和下限3、计算概率度。4、查表求出概率F(t),并对总体参数作出区间估计。(二)根据给定的概率F(t),推算抽样极限误差的可能范围分析步骤:1、抽取样本,计算样本指标。2、根据给定的F(t)查表求得概率度t。3、根据概率度和抽样平均误差计算极限误差。4、计算被估计值的上、下限,对总体参数作出区间估计。一、简单随机抽样样本单位数的计算方法:通过抽样极限误差公式计算必要的样本单位数。重复抽样:不重复抽样:抽样平均数抽样成数第四节抽样组织设计为分层(类)数;kNxNxkiii,1抽样平均误差kiiiiiixNnnNN1222)1(kiiiixnNN1222重复抽样不重复抽样等比例抽样的情况下nx2)1(2Nnnx二、类型抽样:先对总体各单位按主要标志加以分组,然后再从各组中按随机的原则抽选一定单位构成样本。三、等距抽样:先按某一标志对总体各单位进行排队,然后依一定顺序和间隔来抽取样本单位的一种组织形式。四、整群抽样:将总体各单位划分成许多群,然后从其中随机抽取部分群,对中选群的所有单位进行全面调查的抽样组织形式。(一)确定抽样样本容量的必要性样本容量就是抽样的数目。根据大数定律,在抽样调查中样本容量越多,样本对总体的代表性越