2019/8/21第九章抽样推断1第九章抽样推断本章内容•第一节抽样推断的意义•第二节抽样调查的基本概念及理论依据•第三节抽样平均误差•第四节总体指标的推断•第五节抽样方案设计2019/8/21第九章抽样推断2目的:学习目的在于提供一套利用抽样资料来估计总体数量特征的方法。要求:明确抽样调查的概念、特点、作用;理解抽样误差的影响因素;掌握抽样平均误差的计算方法;掌握抽样估计方法与样本容量确定的方法;理解类型抽样、等距抽样、整群抽样的含义、特点与适用场合。第一节抽样推断的意义一、抽样推断的概念二、抽样推断的特点三、抽样推断的作用一、抽样推断的概念按照随机原则从调查对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法.指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会2019/8/21第九章抽样推断5随机原则是指在抽样调查中,使每一个单位被抽中的概率都相等且不等于0。随机抽样的目的是使样本与总体同分布。2019/8/21第九章抽样推断6样本指标:统计量(已知量)全及总体指标:参数(未知量)统计推断抽样估计2019/8/21第九章抽样推断7与总体分布特征相同与总体分布特征不同并非所有的抽样估计都按随机原则抽取样本,也有非随机抽样随机样本总体非随机样本2019/8/21第九章抽样推断8我国的抽样调查应用主要有:⒈国家和地方统计部门一系列抽样调查制度:1%人口抽样调查、城市和农村住户调查、农产量抽样调查等。三支调查队:城市社会经济调查总队、农村社会经济调查总队、企业调查总队。⒉其他政府部门、社会团体和学术团体妇女生育力调查(国家计划生育委员会)公众科学素养调查(全国科协)语言与文字使用情况调查(教育部与国家语委)⒊专业调查咨询机构央视调查咨询中心、北京华通现代信息咨询有限公司、北京零点市场调查与分析公司等。二、抽样调查的特点⒈抽样调查是非全面调查。⒉抽样调查的结果可以估计和推断总体的有关数量特征。⒊遵循随机原则抽取调查单位。⒋抽样调查以概率论和数理统计为理论基础,所以,抽样推断的结果具有一定的可靠程度,其抽样误差可以估计和控制。三、抽样调查的作用⒈有破坏性、不可能进行全面调查的事物可进行抽样调查。例:对某城市空气污染情况调查(无限总体)森林中树木的采伐量的调查、电子元件的寿命、罐头食品的质量调查。(有限总体)⒉不必要进行全面调查的事物可进行抽样调查。如:家计调查、电视节目收视率调查、居民对某类商品购买意向的调查。⒊在来不及进行全面调查的情况下可用抽样调查。如:农产量调查、物价调查⒋对全面调查资料进行补充或修正。第二节抽样调查的基本概念及理论依据一、全及总体和样本二、总体指标和抽样指标三、重复抽样和不重复抽样四、样本容量与样本的可能数目五、抽样调查的理论依据一、全及总体和样本㈠总体⒈概念:总体又称母体或全及总体,即研究对象的全体。⒉总体的分类总体按各单位标志性质不同,可分为变量总体:各单位可用数量标志计量无限总体:变量值无限,有限总体:变量值有限属性总体:各单位用品质标志描述⒊总体单位数:N㈡样本⒈概念:样本又称子样或总体样本,即从总体中抽取的部分单位称为样本。⒉样本的大小:大样本超过30,小样本小于30二、总体指标和抽样指标1.总体指标与样本指标根据总体各单位的标志值或标志属性计算的,反映总体数量特征的综合指标称为全及指标。全及指标是总体变量的函数,其数值是确定的、唯一的,因此称为参数。常用的总体参数有总体平均数、成数、方差等。根据样本各单位标志值或标志属性计算的,反映样本数量特征的综合指标称为样本指标。样本指标样本变量的函数,用来估计总体参数,因此也称统计量,其值随着样本的不同而不同,因此统计量是个随机变量。常用的样本指标有样本平均数、成数、方差等。2019/8/21第九章抽样推断16变量总体的统计指标主要有:总体平均数(总体均值)NXXNXX22NXX2总体方差总体标准差变量样本的指标:根据样本各单位标志值计算。主要有:样本平均数nxx样本方差122nxxs12nxxs样本标准差称为总体成数(总体的属性比率)NQNPNN01,属性总体的统计指标总体的属性方差设总体中个总体单位某项标志的标志值分别为,其中具有某种属性的有个单位,不具有某种属性的有个单位,则NNXXX,,210N1NPQPPP122019/8/21第九章抽样推断19属性样本的统计指标:设样本中个样本单位某项标志的标志值分别为,其中具有和不具有某种属性的样本单位数目分别为和个,则nnxxx,,210n1n属性样本的统计指标:样本成数样本的标准差)1(pps在计算器上,有σ和s按钮,σ代表总体标准差,S代表样本标准差。在EXCEL“数据分析”“描述统计”中计算的样本方差即是按上面公式计算的。nqnpnn01,三、重复抽样和不重复抽样㈠重复抽样:也称回置抽样。从N个单位中每次抽取1个,抽取后将其号码记下,再放回,一直抽取n个单位组成一个样本。N,n可能样本个数。完全相等,每个单位中选的概率在抽样过程中,化。在抽样过程中,N不变重复抽样每次抽取是独立的被抽中且总体单位有可能多次:2019/8/21第九章抽样推断22例:从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2重复抽样情况下,样本个数=Nn=52=25ABACDEBBCDAECBCDAEDBCDAEEBCDAE2019/8/21第九章抽样推断23㈡不重复抽样:也称不回置抽样从N个单位中每次抽取1个,抽取后不放回,连续抽取n个单位组成一个样本。这种抽样方法相当于一次从总体中同时抽取n个单位组成一个样本。2019/8/21第九章抽样推断24一个样本所包含的单位数。样本单位数大于30个的样本称为大样本,小于30个的样本称为小样本。对社会经济现象的调查常采用大样本。抽样数目的多少,与抽样误差及调查费用有关。样本容量又称样本可能数目。是指从一个总体中可能抽取的样本个数。样本数目与抽样方法有关。样本个数四、样本容量和样本个数2019/8/21第九章抽样推断25注意:对于一次抽样调查,总体是唯一确定的,而样本却是不确定的,一个全及总体可能抽出很多个样本。五、抽样调查的理论依据大数法则:随着抽样单位数的增加,抽样平均数有接近总体平均数的趋势。中心极限定理:如果总体变量存在有限的平均数和方差,则不论这个总体变量的分布如何,随着抽样单位数n的增加,抽样平均数的分布便趋于正态分布。xX2019/8/21第九章抽样推断27三、抽样调查的主要步骤:1、依据调查目的确定总体、总体参数、精度2、确定抽样单元编制抽样框3、确定抽样方案、估计方法、样本容量4、选择收集数据的方法5、调查6、数据处理7、数据分析第三节抽样平均误差一、抽样误差的概念二、抽样平均误差的意义三、影响抽样平均误差的因素四、抽样平均误差的计算一、抽样误差的概念1、抽样误差是指由于抽样的随机性而造成样本指标与总体指标之间的差距。如:和XxPp2、统计调查误差的种类:登记性误差代表性误差系统性:指在抽样调查中,由于抽样时违反随机原则而产生的误差(这种误差称为偏差)。随机性:由于随机抽样的偶然因素使样本的代表性不足而引起的随机误差。抽样误差是随机误差。代表性误差包括系统误差和随机误差。2019/8/21第九章抽样推断30抽样误差包括实际误差和抽样平均误差两种:实际误差或平均误差如:XxPpnx二、抽样平均误差的意义抽样平均误差是一系列抽样指标的标准差。样本可能数目Xx2例:总体为2、3、4,从总体中按重复抽样抽出两个单位组成样本。或抽样平均数(或成数)的标准差。反映抽样指标和总体指标的平均离差程度。求抽样平均误差就是求所有可能样本平均数的标准差。用计算器求2、2.5、3、2.5、3、3.5、3、3.5、4的标准差得序号样本⑴⑵平均数12222232.532434322.553336343.574238433.59444样本变量577.0x即为抽样平均误差。四、抽样平均误差的计算㈠变量总体---抽样平均数的抽样平均误差前面已经举例说明了直接按照可能抽样平均数求标准差的方法计算,但该方法太繁。可以证明:⒈在重复抽样下抽样平均误差nx2019/8/21第九章抽样推断34σ为总体标准差,在总体标准差未知,可用下面方法代替:1.样本单位数较大时,可以用样本标准差代替。2.用以前(近期)的总体标准差代替.n为样本单位数.㈡属性总体---抽样成数的抽样平均误差前面已经介绍过抽样成数的概念,总体成数是总体中具有某种属性的单位占所有单位的比重,用P表示,不具有某种属性的比重用Q表示;样本中具有某种属性用p表示,不具有某种属性用q表示。总体平均数=P总体标准差PPP1样本标准差ppp12019/8/21第九章抽样推断36例:对某天生产的2000件电子元件的耐用时间进行全面检测,又抽取5%进行抽样复测,资料如下:耐用时间全面检测(支)抽样复测(支)3000以下5023000-4000600304000-5000990505000以上36018合计20001002019/8/21第九章抽样推断37根据规定,3000小时以下为不合格,按(不)重置两种方法计算该电子元件平均耐用时间和合格率的抽样平均误差。解:N=2000n=100P=98/100=98%4330(小时)fxfx)(551100)(22小时ffxx2019/8/21第九章抽样推断38)(24.721005511002小时重置:nx%56.110002.098.0)1(nppp)(36.72)20001001(100551100)1(2小时Nnnx%52.1)20001001(10002.098.0)1()1(Nnnppp不重置:使用时间(小时)抽查灯泡个数(个)组中值900以下2875900~9504925950~1000119751000~10507110251050~11008410751100~11501811251150~1200711751200以上31225合计200灯泡使用寿命资料求样本平均数和样本成数(使用时间1000小时以上为合格品)的抽样平均误差。⒈求灯泡平均使用时间、标准差和灯泡合格率(样本)1057fxfx%5.91200183p63.53)(2ffxx⒉求灯泡使用时间抽样平均误差:在重复抽样下抽样平均误差小时79.320063.53nx在不重复抽样下抽样平均误差小时75.311000020010000200163.5322NnNnx⒊求灯泡合格率的抽样平均误差:在重复抽样下抽样平均误差%97.1200085.0915.01nppp在不重复抽样下抽样平均误差%95.111000020010000200085.0915.011NnNnppx2019/8/21第九章抽样推断43三、影响抽样平均误差的因素总体各单位的差异程度(即标准差的大小):越大,抽样误差越大;样本单位数的多少:越大,抽样误差越小;抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;抽样组织方式:简单随机抽样的误差最大。n第四节总体指标的推断一、抽样极限误差二、可信程度三、抽样推断2019/8/21第九章抽样推断45参数估计的两个要求:精度:估计误差的最大范围,通过极限误差来反映。显然,Δ越小,估计的精度要求越高,Δ越大,估计的精度要求越低。极限误差的确定要以实际需要为基本标准。可靠性:估计正确性的一个概率保证,通常称为估计的置信度。一、抽样极限误差㈠概念:抽样极限误差是指总体指标和抽样指标之间误差的可能范围。