第四章抽样总体抽取样本推断总体样本第四章抽样1.抽样的意义与作用2.概率抽样的原理与程序3.概率抽样方法4.非概率抽样方法5.样本规模与抽样误差一、抽样的意义与作用1.抽样的意义与作用人们在研究某个自然现象或社会现象时,往往会遇到不方便、不可能或不必要对所有的对象作调查的情况,于是从中抽取一部分对象作调查,这就是抽样复杂的社会现象有限的研究资源抽样主要涉及和处理有关总体与部分之间的关系问题。抽样作为人们从部分认识整体这一过程的关键环节,其基本作用是向人们提供一种实现“由部分认识总体”这一目标的途径和手段。抽样一、抽样的意义与作用1.抽样的作用抽样是社会研究的主要内容之一,也是社会调查的一个重要步骤。它与研究目的及研究内容紧密相关。它直接关系到资料的收集、整理与分析。它还涉及到整个研究的费用以及应用的范围。抽样是否科学,直接关系到研究的成败侯选人《LiteraryDigest》预测%选举结果%罗斯福4362兰顿5738一个著名的案例——抽样中的泰坦尼克事件1936年美国正从经济大恐慌中复苏,全国仍有9百万人失业.当年的美国总统大选,由民主党员罗斯福与共和党员兰登进行角逐.《文学文摘》(LiteraryDigest)杂志对结果进行了调查预测.他们根据当时的电话号码簿及该杂志订户俱乐部会员名单,邮寄1千万份问卷调查表,回收约240万份.工作人员获得了大量的样本,对此进行了精确的计算,根据数据的整理分析结果,他们断言:在总统选举中,兰登将以370∶161的优势,即以57%比43%,领先14个百分点击败罗斯福.与之相反,一个名叫乔治•盖洛普的人,对《文学文摘》调查结果的可信度提出质疑.他也组织了抽样调查,进行民意测验.他的预测与《文学文摘》截然相反,认为罗斯福必胜无疑.结果,罗斯福以62%比38%压倒性地大胜兰登.这一结果使《文学文摘》销声匿迹,而盖洛普则名声大噪.年代候选人盖洛普民意测验结果(%)总统选举真实结果(%)盖洛普误差(%)2000布什48.047.9+0.11996克林顿52.049.2+2.81992克林顿49.043.3+5.71988老布什56.053.9+2.11984里根59.059.2-0.21980里根47.050.8-3.81976卡特48.050.1-2.11972尼克松62.061.8+0.21968尼克松43.043.5-0.51964约翰逊64.061.3+2.71960肯尼迪51.050.1+0.91956艾森豪威尔59.557.8+1.71952艾森豪威尔51.055.4-4.41948杜鲁门44.549.5-5.01944罗斯福51.553.8-2.31940罗斯福52.055.0-3.01936罗斯福55.762.5-6.8从美国总统大选预测看抽样的效率:一、抽样的意义与作用2.抽样的概念在我们的日常生活中经常存在着抽样。如抽血化验,尝试水温,窥一斑而知全豹。抽样(sampling)从组成某个总体的所有元素的集合中,按一定的方式选择或抽取样本的过程抽样调查,就是从研究总体中抽取一部分代表加以调查研究,然后用所得结果推论和说明总体的特性。总体(population):构成它的所有元素的集合样本(sample)从总体中按一定方式抽取出的一部分元素的集合抽样单位(samplingunit)一次直接的抽样所使用的基本单位一、抽样的意义与作用抽样框(samplingframe)抽样范围,指一次直接抽样时总体中所有抽样单位的名单参数值(parameter)是对总体中某一变量的综合描述,或总体中所有元素某些特征的综合数量表现。最常见的参数值是总体某一变量的平均值。统计值(statistic)是对样本中某一变量的综合描述,或样本中所有元素某些特征的综合数量表现。根据样本计算出来的关于样本变量的数量表现置信度(confidencelevel)总体参数值落在样本统计值某一区间内的概率,或者说,是总体参数值落在样本统计值某一区间内的把握性程度置信区间(confidenceintevalue)上述“某一区间”,就是置信区间二、概率抽样的原理与程序概率抽样:(1)每一个体有同等机会被抽取(2)每一个体的抽取都是相互独立的二、概率抽样的原理与程序概率抽样的逻辑(1)同质性和异质性如果研究总体是完全同质的,抽样就没有必要;社会科学中的研究总体往往具有较强的异质性;为了实现“通过部分认识整体”,样本应该包含总体的各种差异特征。二、概率抽样的原理与程序概率抽样的逻辑(2)无意识抽样导致的偏差方便获取的样本:易得,但缺乏代表性;例如:如何获取由100个学生构成的样本访问者的偏好影响样本的代表性;例如:有意回避具有某些特征(“酷”,“冷”)的受访者抽样的地点影响样本的代表性例如:图书馆门口访问二、概率抽样的原理与程序概率抽样的逻辑(3)代表性和选择的概率如果总体中的每一个体都具有同等机会被选入样本,那么从这一总体中抽取的样本就能够代表总体。概率抽样的优点(1)样本对总体更具代表性(相对其它类型抽样)(2)可以对样本的精确性和代表性作出估计二、概率抽样的原理与程序总体分布、样本分布、抽样分布当样本容量继续增大,样本平均数的分布会进一步发生变化。这种变化趋势是:平均数的范围将逐步缩小(即底部越来越窄);相同的平均数会相应增多;全部平均数的分布向总体平均数集中的趋势也会越来越明显.总体分布(populationdistribution)总体分布:总体中各元素的观察值所形成的相对频数(频率)分布分布通常是未知的(因为几乎得不到总体所有观察值)可以(根据理论分析)假定它服从某种分布总体(sampledistribution)样本分布也称经验分布,指一个样本中各观察值的形成的相对频数(频率)分布。当样本容量n逐渐增大时,样本分布逐渐接近总体的分布。样本抽样分布(samplingdistribution)抽样分布:样本统计量的概率分布,是一种理论分布。在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布样本统计量是样本的函数,依据不同的样本计算出来的值是不同的,所以统计量是随机变量样本均值,样本比例,样本方差等样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布总体分布、样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体分布、总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差5.21NxNii25.1)(122NxNii现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值()x样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5nxx样本均值的分布与总体分布的比较(例题分析)=2.5σ2=1.25的分布形式与原有总体和样本容量n的大小有关14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x5.2x625.02xx总体分布样本均值的抽样分布与中心极限定理=50=10X总体分布n=4抽样分布xn=165x50x5.2x当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)中心极限定理(centrallimittheorem)当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布nx中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体xx中心极限定理(centrallimittheorem)x的分布趋于正态分布的过程抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布1.样本均值的数学期望2.样本均值的方差(方差的概率意义在于刻画了随机变量取值的分散程度。方差越小,随随机变量的取值越集中在期望值附件。)重复抽样样本均值的抽样分布)(xEnx22抽样的一般程序界定总体:对从中抽取样本的总体范围与界限作明确的界定制定抽样框:依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并通过对名单进行统一编号来建立起供抽样使用的抽样框决定抽样方案:选择抽样方法,确定样本规模实际抽取样本:1.先抽好样本,再调查2.一边抽样一边调查评估样本质量:对样本的质量、代表性、偏差等进行初步的检验和衡量概率抽样的方法抽样的类型偶遇抽样判断抽样定额抽样雪球抽样简单随机抽系统多层抽样分层抽样整群抽样多段抽样概率抽样非概率抽样抽样类型三、概率抽样的方法1.简单随机抽样:概率抽样的最基本形式方法:1.总体较少:搅拌抽签;2.总体较多:用随机数表见P269.表4-23.利用EXCEL的randbetween(a,b)函数实现简单随机抽样三、概率抽样的方法1.简单随机抽样概念:一般地,设一个总体的个体数为N,如果通过逐个不放回地抽取的方法从中抽取n(n≤N)个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。要点:它要求被抽取样本的总体的个体数有限它是从总体中逐个进行抽取它是一种不放回抽样它是一种等概率抽样用从个体数为N的总体中抽取一个容量为n的样本,那么每个个体被抽取的概率等于Nn三、概率抽样的方法1.简单随机抽样抽签法(抓阄法)将总体中的所有个体(共N个)编号(号码可以从1到N),并把号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌。抽签时,每次从中抽出1个号签,连续抽取n次,就得到一个容量为n的样本。对个体编号时,也可以利用已有的编号。例如学生的学号,座位号等。三、概率抽样的方法练习1.高二(21)班有53名同学,现要从中抽取8名去参加一个座谈会,请写出用抽签法抽选的过程。2.假设一个总体有5个元素,分别记为a、b、c、d、e,采用抽签法抽取一个容量为2的样本,样本共有多少个?为了考察某公司生产的250克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60件产品进行检查.当总体的个数较多时,将总体“搅拌均匀”比较困难,抽签法产生的样本代表性差的可能性很大。三、概率抽样的方法1.简单随机抽样随机数表法随机数表是统计工作者用计算机生成的随机数,保证表中的每个位置上的数字是等可能出现的用随机数表进行抽样的步骤:将总体中个体编号;选定开始的数字;获取样本号码用随机数表抽取样本,可以任选一个数作为开始,读数的方向可以向左,也可以向右、向上、向下等等。因此并不是唯一的由于随机数表是等概率的,因此利用随机数表抽取样本保证了被抽取个体的概率是相等的练习例:为了考察某公司生产底250克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60件产品进行检查.S1,将800袋牛奶编号,可以编为000,001,……,799;S2,在随机数表中任意选一个数,例如第8行第7列的数7;S3,从选定的数7开始向右读,得到一个三位数,如果这个三位数在000~799范围内,则取出,否则去掉;继续向右读,得下一个三位数;依次下去,直到样本的60个号码全部取出.将总体中的个体编号时从000开始,用意何在?当随机地选定开始