第4章抽样与抽样分布•4.1常用的抽样方法•4.2抽样分布•4.3中心极限定理的应用学习目标1.了解抽样的概率抽样方法2.理解抽样分布的意义3.了解抽样分布的形成过程4.理解中心极限定理5.理解抽样分布的性质4.1抽样方法与抽样组织方式一、抽样方法二、抽样组织方式简单随机抽样二、分层抽样三、系统抽样四、整群抽样抽样方法•重复抽样•对抽到的单位,再放回到母体参加下一次随机抽样,一个单位又被重复抽取的可能。•抽样的母体始终不变,前后各次抽样,每个单位被抽取的概率相同。•是最基本的抽样方法,是抽样理论的基础。•不重复抽样•对抽到的单位,不在放回,任何单位没有被重复抽取的可能。•抽样母体逐渐减少,未被抽中的单位被抽中的概率越来越大。•是实践中常用的抽样方法,能提高样本的代表性。抽样方式简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样非概率抽样抽样方式概率抽样1.根据一个已知的概率来抽取样本单位,也称随机抽样2.特点–按一定的概率以随机原则抽取样本–抽取样本时使每个单位都有一定的机会被抽中–每个单位被抽中的概率是已知的,或是可以计算出来的–当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样1.从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中2.抽取元素的具体方法有重复抽样和不重复抽样3.特点–用样本统计量对总体参数进行估计比较方便–简单、直观,在抽样框完整时,可直接从中抽取样本4.局限性–当N很大时,不易构造抽样框–抽出的单位很分散,给实施调查增加了困难–没有利用其他辅助信息以提高估计的效率分层抽样1.将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本2.优点–保证样本的结构与总体的结构比较相近,从而提高估计的精度–组织实施调查方便–既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样1.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位–先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位2.优点:操作简便,可提高估计的精度3.缺点:对估计量方差的估计比较困难整群抽样1.将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查2.特点–抽样时只需群的抽样框,可简化工作量–调查的地点相对集中,节省调查费用,方便调查的实施–缺点是估计的精度较差4.2抽样分布与中心极限定理一、抽样分布的概念二、样本均值抽样分布的形式三、样本均值抽样分布的特征四、中心极限定理抽样分布的概念1.样本统计量的概率分布,是一种理论分布–在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布2.样本统计量(样本均值,样本比例,样本方差)是随机变量3.结果来自容量相同的所有可能样本—称为可能样本数目。4.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据抽样分布抽样分布的形成过程(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本样本均值的抽样分布1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差5.21NxNii25.1)(122NxNii样本均值的抽样分布(例题分析)现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为•3,4•3,3•3,2•3,1•3•2,4•2,3•2,2•2,1•2•4,4•4,3•4,2•4,1•4•1,4•4•1,3•3•2•1•1,2•1,1•1•第二个观察值•第一个•观察值•所有可能的n=2的样本(共16个)样本均值的抽样分布(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布•3.5•3.0•2.5•2.0•3•3.0•2.5•2.0•1.5•2•4.0•3.5•3.0•2.5•4•2.5•4•2.0•3•2•1•1.5•1.0•1•第二个观察值第一个观察值•16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5样本均值的分布与总体分布的比较(例题分析)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x5.2x625.02x中心极限定理样本均值的抽样分布与中心极限定理=50=10X总体分布n=4抽样分布xn=165x50x5.2x当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)中心极限定理(centrallimittheorem)当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布nx中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体xx中心极限定理(centrallimittheorem)x的分布趋于正态分布的过程1.样本均值的数学期望2.样本均值的方差–重复抽样–不重复抽样样本均值的抽样分布(数学期望与方差))(xEnx22122NnNnx样本均值的抽样分布(数学期望与方差)比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n为样本数目MnMxnixix222122625.016)5.20.4()5.20.1()(5.2160.45.10.11Mxniix抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布4.3抽样分布的性质—无偏性与最小方差无偏性无偏性:估计量抽样分布的数学期望等于被•估计的总体参数P()BA无偏有偏ˆˆ有效性有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效AB的抽样分布的抽样分布1ˆ2ˆP()ˆˆ本章小结1.了解抽样的概率抽样方法2.理解抽样分布的意义3.了解抽样分布的形成过程4.理解中心极限定理5.理解抽样分布的性质