数据分析(方法与案例)作者贾俊平统计学基础第4章抽样与参数估计4.1抽样与抽样分布4.2参数估计的基本方法4.3总体均值的区间估计4.4总体比例的的区间估计4.5样本容量的确定4-3统计学基础2010年学习目标抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法4-4统计学基础2010年统计应用一次失败的民意调查在1936年的美国总统选举前,一份名为LiteraryDigest杂志进行了一次民意调查。调查的焦点是谁将成为下一届总统—是挑战者,堪萨斯州州长AlfLandon,还是现任总统FranklinDelanoRoosevelt为了解选民意向,民意调查专家们根据电话簿和车辆登记簿上的名单给一大批人发了简单的调查表(电话和汽车在1936年并不像现在那样普及,但是这些名单比较容易得到)。尽管发出的调查表大约有一千万张,但收回的比例并不高。在收回的调查表中,AlfLandon非常受欢迎。于是该杂志预测Landon将赢得选举。但事实上是FranklinRoosevelt赢得了这次选举调查失败的主要原因是抽样框出现了问题。在经济大萧条时期由于电话和汽车并不普及,只是富裕阶层才会拥有,调查有电话和汽车的人们,并不能够反映全体选民的观点4-5统计学基础2010年参数估计在统计方法中的地位参数估计假设检验统计方法描述统计推断统计4.1抽样与抽样分布4.1.1概率抽样方法4.1.2抽样分布第4章抽样与参数估计4.1.1概率抽样方法4.1抽样与抽样分布4-8统计学基础2010年有关抽样的几个基本概念1、全及总体全及总体又称总体或母体,是指研究对象的全体,它是由许多个性质相同的调查单位组成的,总体单位数通常用N表示。例如:全部职工、全部学生、全部产品4-9统计学基础2010年有关抽样的几个基本概念2、抽样框目标总体规定了理论上的抽样范围,但是进行抽样的总体单位与目标总体有时是不一致的,因而,在抽样之前,还必须明确实际进行抽样的总体范围和抽样单位。抽样框是指用以代表总体,并从中抽选样本的一个框架。目标总体与抽样框有时是一致的;多数情况下,目标总体的范围要率大于抽样框。4-10统计学基础2010年2、抽样框抽样框的主要形式有三种:①名单抽样框:指可供抽取的所有抽样单位的名录一览表例如:某地区企业名录,某校在籍学生花名册等。②区域抽样框:即按地理位置将实际进行抽样的总体范围划分为若干小区域,以每个小区域为抽样单位。例如:调查不同地区的人均收入水平等。有关抽样的几个基本概念4-11统计学基础2010年③时间表抽样框:把总体的时间过程划分为若干个小的时间单位做为抽样单位。例如:对流水线上24小时内生产的产品进行质量抽查时,以10分钟为一个抽样单位。有关抽样的几个基本概念对于抽样调查来说,样本的代表性如何,抽样调查最终推算的估计值真实性如何,首先取决于抽样框的质量。抽样框在抽样调查中处于基础地位,是抽样调查必不可少的部分,其对于推断总体具有相当大的影响。区域抽样框在商场的大门口在微波炉柜台前在市区街道旁边在某个住宅小区中山路…桥西区桥东区…华北地区东北地区…居民一组居民二组…某外国公司在大连进行微波炉市场调查:时间表抽样框连续出产的产品总体可以编制抽样框:均匀的出产时间、可以预见到的产品总量。连续到加油站加油的汽车总体无法编制抽样框:时间不定、总量也无法确定。4-14统计学基础2010年3、样本总体样本总体,又叫子样,简称样本。它是从全及总体中随机抽取出来,用来代表全及总体的那部分单位构成的总体。样本总体的单位数用小写字母n表示,称为样本容量。从某个城市职工家庭中随机抽取1000户进行调查,则这1000户组成的小总体即为样本,样本容量n=1000。例如:有关抽样的几个基本概念4-15统计学基础2010年对于给定的研究对象,全及总体是唯一确定的,而样本总体不是唯一的,它是随机的。4、抽样比抽样比是指在抽选样本时,所抽取的样本单位数n与总体单位数N之比。一般地讲,n≥30为大样本,n<30为小样本。研究社会经济现象时,通常采用大样本进行抽样调查。有关抽样的几个基本概念4-16统计学基础2010年概率抽样(probabilitysampling)1.也称随机抽样2.特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率4-17统计学基础2010年简单随机抽样(simplerandomsampling)1.从总体N个单位中随机地抽取n个单位作为样本,每个单位进入样本的概率是相等的2.最基本的抽样方法,是其它抽样方法的基础3.特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便4.局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率4-18统计学基础2010年1、重复抽样重复抽样也叫重置抽样,是指每次抽取一个元素后又放回,重新参加下一次的抽选,直到抽取n个元素为止。全及总体单位数始终保持不变,每个总体单位都有被重复抽中的可能。重复抽样通常要考虑单位排列顺序,如电话号码中的“8651”和“1568”不同。其样本可能数目为nNm重抽样方法和样本可能数目4-19统计学基础2010年2、不重复抽样不重复抽样也叫不重置抽样,是指每次从总体中抽取一个元素后不再放回,从剩余的元素中抽取下一个元素,直到抽取n个元素为止。总体单位数在不断减少,每个总体单位不可能被重复抽中。不重复抽样通常不考虑样本单位排列顺序,如篮球队的5个队员按其号码“1,2,3,4,5”排队和“5,4,3,2,1”排队是同一个队。其样本可能数目为nNCm不重抽样方法和样本可能数目4-20统计学基础2010年分层抽样(stratifiedsampling)1.将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本例如:在企业职工收入抽样调查中,可按经济类型将职工分为全民企业职工、集体企业职工、中外合资企业职工等若干类,然后在各类型企业职工中分别抽取一定数目的职工构成样本。4-21统计学基础2010年2.优点保证样本的结构与总体的结构比较相近,从而提高估计的精度可以按自然区域或行政区域进行分层,组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计适用于总体情况复杂、各单位之间差异较大、单位较多的情况。分层抽样(stratifiedsampling)等比例分层抽样不考虑各组单位变异程度,从各组当中按同一比例抽取样本单位不等比例分层抽样按各组单位变异程度大小来确定抽样单位数的多少,变异度大的类型组多抽一些,变异度小的少抽一些,不规定统一的抽样比分层抽样的分类实际工作中,由于事先很难了解各组单位变异程度,因此多采用等比例分层抽样方法在分层抽样方式下,因为是每组都抽取样本单位,所以对于各组来说,可以看成全面调查,没有抽样误差。因此分层抽样方式下,组间方差不影响抽样误差,只有各组组内方差影响抽样误差。组间方差组内方差平均数总方差222x对于给定的总体,方差(即总方差)是一定的,划分层时应尽量增大层间差异,缩小层内差异。这是分层抽样法成功的关键。4-24统计学基础2010年系统抽样(systematicsampling)1.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位,也叫等距抽样或机械抽样。先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位2.优点:操作简便,样本分布均匀,可提高估计的精度3.缺点:对估计量方差的估计比较困难4-25统计学基础2010年系统抽样按照排队时所依据的标志不同,可分为按无关标志排队和按有关标志排队。系统抽样(systematicsampling)按无关标志排队,是指用来排队的标志与调查研究的标志无关例如:研究工人的平均收入水平时,将工人按照姓氏笔画顺序排列;在产品连续生产过程中进行质量检查,每隔一定时间抽取一次样品等4-26统计学基础2010年按有关标志排队,是指用来排队的标志与调查研究的数量有直接关系例如:研究职工工资收入时按职工的职别排队;农产品调查以往年的平均亩产作为排队标志系统抽样(systematicsampling)系统抽样一定是不重复抽样。按无关标志排队,其抽样效果相当于简单随机抽样;按有关标志排队,其抽样效果相当于分层抽样,其样本的代表性优于无关标志排队的系统抽样。4-27统计学基础2010年系统抽样(systematicsampling)系统抽样的实施步骤按照某种顺序给总体中个体排列编号,然后从某个随机位置开始每隔一定号数抽取一个个体,直至抽够。抽样间隔=总体单位数/样本单位数例如:要从500件产品中抽取10件,则间隔为504-28统计学基础2010年系统抽样(systematicsampling)注意:系统抽样的第一个样本单位位置确定以后,其余样本单位的位置也就随之确定了。因此,要避免由抽样间隔和现象本身的周期性节奏相重合而引起的系统性影响。例如,农产品调查时,农作物的抽样间隔不宜和垅的长度相等;工业产品质量检查时,产品的抽样间隔不要和上下班的时间相一致,以防止发生系统性误差。4-29统计学基础2010年整群抽样(clustersampling)1.将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查2.特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差在群间差异性不大或者不适宜单个地抽选调查样本的情况下,可采用这种方式。例如:对农民的人均收入进行调查,可以先将总体分群,如农村的乡、村、组等,然后进行整群抽样;对某工厂生产线生产的产品进行质量调查,在规定时间内,每隔24小时抽取1小时的全部产品加以检查。整群抽样是用抽中群的统计量来估计总体参数,如果所有各群的结构都相同或相近,则被抽中的群就能较好地代表总体的所有群,抽样误差就会很小。所以整群抽样的误差主要取决于群间方差的大小,而与群内方差无关。这一特点刚好与分层抽样相反。4.1.2抽样分布4.1抽样与抽样分布4-32统计学基础2010年抽样的数理基础抽样调查数理基础抽样分布大数定律正态分布中心极限定理4-33统计学基础2010年抽样分布的形成过程总体计算样本统计量如:样本均值、比例、方差样本样本统计量的概率分布4-34统计学基础2010年1.在重复选取容量为n的样本时,由每一个样本算出的该统计量数值的相对频数分布或概率分布2.是一种理论分布3.样本统计量是随机变量样本均值,样本比例,样本方差等4.结果来自容量相同的所有可能样本5.样本统计量为我们提供了长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据抽样分布(samplingdistribution)4-35统计学基础2010年1.容量相同的所有可能样本的样本均值的概率分布2.一种理论概率分布3.进行推断总体总体均值的理论基础样本均值的抽样分布4-36统计学基础2010年样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1、x2=2、x3=3、x4=4。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差5.21NxNii25.1)(122NxNii4-37统计学基础2010年样本均值的抽样分布(例题分析)现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个