第3章抽样与参数估计3.1抽样与抽样分布3.2参数估计的基本方法3.3总体均值的区间估计3.4总体比例的区间估计3.5样本容量的确定学习目标1.理解概率抽样方法2.理解抽样分布3.点估计与区间估计的区别4.评价估计量优良性的标准5.总体均值的区间估计方法6.总体比例的区间估计方法7.样本容量的确定方法参数估计在统计方法中的地位参数估计假设检验统计方法描述统计推断统计3.1抽样与抽样分布一.什么是抽样推断二.抽样方法三.抽样分布四.抽样推断中常用的统计量及其分布3.1.1抽样推断(概念要点)是根据观测到的样本数据对总体作出推测,这种推测伴随某种不确定性,需要用概率来表示其可靠程度,这是统计推断的一个重要特点。统计推断的过程样本总体样本统计量例如:样本均值、比例、方差3.1.2抽样方法抽样方法简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样非概率抽样抽样方式(一)概率抽样(probabilitysampling)1.也称随机抽样2.特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率一次失败的抽样调查简单随机抽样(simplerandomsampling)1.从总体N个单位中随机地抽取n个单位作为样本,每个单位入选样本的概率是相等的2.最基本的抽样方法,是其它抽样方法的基础3.特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便4.局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难抽取样本的方法1、重复抽样:也叫放回抽样,抽样过程中总体单位的总数不变,每个抽中单位有再次被抽中的可能2、不重复抽样:也叫无放回抽样,每个单位只有一次被抽中的机会,总体单位数不断减少。分层抽样(stratifiedsampling)1.将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本层1层2层N总体分层抽样(stratifiedsampling)1.分层抽样的值依赖于层内各元素是同质性(相似的)。使层内差异小,层间差异大2.优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计整群抽样(clustersampling)1.将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查群1群2群N总体整群抽样(clustersampling)1.整群抽样的值依赖于每一群对总体的代表性,当群中元素不同质(不相似)时,整群抽样得到的结果最佳。2.特点抽样时只抽取一个群,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差系统抽样(systematicsampling)1.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位。2.优点:操作简便,可提高估计的精度3.缺点:对估计量方差的估计比较困难多阶段抽样(multi-stagesampling)1.先将总体单位划分成若干大群,大群内再分成若干小群。先按某种方法抽取大群,然后在中选群中抽取小群,再进一步抽样,从选中的群中抽取出若干个单位进行调查2.具有整群抽样的优点,保证样本相对集中,节约调查费用3.适用于大规模的抽样调查,如:我国的农作物产量调查、职工家计调查等多阶段抽样例:全国农作物产量抽样调查,首先由省所有县市级中抽取部分县市作为第一阶段样本,再从被抽中的县市中抽取乡镇作为第二阶段样本,从被抽中乡镇中抽取村作为第三阶段样本,最后从中选村中抽取农户,并从农户的播种面积中抽取部分地块,进行实割实测,计算平均亩产量,然后逐级往上综合计算平均亩产量,并推算全国总产量。非概率抽样(non-probabilitysampling)1.相对于概率抽样而言2.抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。3.有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式。方便抽样1.调查过程中由调查员依据方便的原则,自行确定入选样本的单位。调查员在街头、公园、商店等公共场所进行拦截调查厂家在出售产品柜台前对路过顾客进行的调查2.优点:容易实施,调查的成本低3.缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体判断抽样1.研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本有重点抽样,典型抽样,代表抽样等方式2.判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性3.抽样成本比较低,容易操作自愿样本1.被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本滚雪球抽样1.先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。2.适合于对稀少群体和特定群体研究3.优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低。配额抽样1.先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。2.操作简单,可以保证样本的结构和总体的结构类似。概率抽样与非概率抽样的比较1.概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体2.非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的3.1.3抽样分布抽样中的几个基础概念总体(Population):调查研究的事物或现象的全体个体(Itemunit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体样本容量(Samplesize):样本中所含个体的数量1.总体中各元素的观察值所形成的分布2.分布通常是未知的3.可以假定它服从某种分布总体分布(populationdistribution)总体1.一个样本中各观察值的分布2.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)样本1.样本统计量(如均值、比例、方差等)的概率分布,是一种理论概率分布2.结果来自容量相同的所有可能样本3.根据样本统计量的统计规律进行总体特征的推断。抽样分布(samplingdistribution)抽样分布(samplingdistribution)总体计算样本统计量例如:样本均值、比例、方差样本3.1.4抽样推断中常用的统计量及其分布1、样本平均数分布xμxσ),(2Nnnnn1_x2_x3_xkx_总体__X),(2__xxN原总体变量的总体。就构构成了一,这这许多个样本平均,即有平均数都可以计可以计算出该的样样本,从每一个样n样含量为。从这从这个总体中随σ,标标准差μ,其平均数为变量的总体,即原总体X设有一个变量的总体。就构构成了一,这这许多个样本平均,即有平均数都可以计可以计算出该的样样本,从每一个样n样含量为。从这从这个总体中随σ,标标准差μ,其平均数为变量的总体,即原总体X设有一个n设有一个X变量的总体,即原总体,其平均数为μ,标准差为σ。从这个总体中随机取样含量为n的样本,从每一个样本都可以计算出该样本的平均数,即有,这许多个样本平均数就构成了一个变量的总体。n样本平均数总体变量的平均数是,标准差是.xnxxxx,,,,321x•例1:在掷骰子试验中,样本原总体N=6,其所有的样本空间为X={1,2,3,4,5,6},则该总体有如下均匀的分布和特征数参数:65.17)(5.3665432122NXNXiixifipi110.167210.167310.167410.167510.167610.167Total61.00000.167123456X•当抽样样本容量n=2时,即当掷骰子2次时,其相应的组合如下表:Roll1Roll21,1(1.0)1,2(1.5)1,3(2.0)1,4(2.5)1,5(3.0)1,6(3.5)2,1(1.5)2,2(2.0)2,3(2.5)2,4(3.0)2,5(3.5)2,6(4.0)3,1(2.0)3,2(2.5)3,3(3.0)3,4(3.5)3,5(4.0)3,6(4.5)4,1(2.5)4,2(3.0)4,3(3.5)4,4(4.0)4,5(4.5)4,6(5.0)5,1(3.0)5,2(3.5)5,3(4.0)5,4(4.5)5,5(5.0)5,6(5.5)6,1(3.5)6,2(4.0)6,3(4.5)6,4(5.0)6,5(5.5)6,6(6.0)nnNxfNxfxiixiix即2)2265.17125.17365.52(5.336126360.615.120.11200.167123456fipi1.010.0281.520.0562.030.0832.540.1113.050.1393.560.1674.050.1394.540.1115.030.0835.520.0566.010.028Total361.000ix当n=2时平均数的抽样分布iXXPi012246fx3/841xxn例2:假定一个有限总体指3个一平方米抽样单位中的蛴螬数,观察值为2,4,和6头。倘若从这一总体内抽出所有可能的样本,而每个样本只有一个观察值,则可能出现的数目为2,4,6,样本平均数亦为2,4,6。头头所以, 为因为3/83/])46()44()42[(43/)642(:64,2,,:222321xxxxx例2:如果每个样本有2个观察值,即n=2,这时抽出的所有可能样本数目就有32=9个,这9个样本得到的平均数如下表:第一个观察值第二个观察值样本观察值222224243626442423444464656262446456666总和36x头头3/49/])46()42[(49/)6532(22xx0123423456fx3/442xxn例2:4种不同容量的样本平均数()的抽样分布表xn=1n=2n=4n=8ffff21212.012.0012.2582.542.50362.75112323.0103.002663.255043.5163.507843.75101641434.0194.0011074.2510164.5164.507844.75504525.0105.002665.251125.545.50365.75861616.016.0013981656144448/34/32/31/3xxxxx2不同容量时的分布及参数fx3/442xxn012246051015202523456fffxxx3/841xxn3/244xxn3/148xxn020040060080010001200234560123423456x样本平均数分布的基本性质1.从同一总体抽出的具有相同容量的所有可能平均数分布,其平均数等于该总体平均数即2.样本平均数分布的方差等于总体方差除以样本容量n,即因此样本平均数的标准差是原总体样本的标准误。_xnx22nx_样本平均数分布的基本性质3.从一个正态总体中抽样,无论样本容量大小,其样本平均数分布都遵循正态分布。4.从不是正态分布的同一总体抽出的、具有相同容量的所有可能样本,随样本容量n的增加,其平均数分布逐渐趋向于正态分布,当样本容量n30时逼近正态分布。样本平均数分布的基本性质由于平均数分布在样本容量