_《统计学》第9章抽样与抽样估计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

总体(Population)研究对象的全体称为总体样本(子样)(Sample)从总体中抽取一部分个体进行试验或观察,这种从总体中抽取个体的行为称为抽样。而从总体中抽样所得的一部分个体叫样本总体参数(Populationparameter)描述总体分布特征的数值样本统计量(Samplestatistic)重置抽样(重复抽样)(Samplingwithreplacement)要从总体N个单位中随机抽取一个容量为n的样本,每次从总体中抽取一个单位,把顺序号登记下来之后,重新放回参加下一次抽选,连续反复抽取n次组成所要求容量的样本。不重置抽样(不重复抽样)(Samplingwithoutreplacement)要从总体N个单位中随机抽取一个容量为n的样本,每次从总体中抽取一个单位,被抽中的单位不再放回参加下一次抽选,连续进行次便组成样本。不重复抽样所得样本对总体的代表性较大,抽样误差较小,所以实践中通常采用不重复抽样。简单随机抽样:从总体中抽取样本最常用的方法。从容量为N的总体中进行抽样,如果容量为n的每个可能样本被抽到的可能性相等,则称容量为n的样本为简单随机样本。分层抽样:也称分类抽样或类型抽样,它是按某个主要标志对总体各单位进行分类,然后从各层中按随机原则分别抽取一定数目的单位构成样本。整群抽样:也称丛聚抽样或集团抽样。它是将总体分为若干部分(每一部分称为一个群),然后按随机原则从中一群一群地抽选,对抽中群内的所有单位进行全面调查。系统抽样也称机械抽样。它是先将总体单位按一定顺序排队,计算出抽样间隔(或抽样距离),然后按固定的顺序和间隔抽取样本单位。1.一个样本中各观察值的分布2.也称经验分布3.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本对统计量的所有可能取值及其对应概率的描述,就是统计量的抽样分布,即抽样分布。抽样分布反映样本统计量的分布特征,根据抽样分布的规律,可揭示样本统计量与总体参数之间的关系,计算抽样误差,并说明抽样推断的可靠程度。误差登记性误差代表性误差系统性误差随机性误差登记性误差是指在调查和汇总过程中由于观察、测量、登记、计算等方法的差错或被调查者提供虚假资料而造成的误差。任何一种统计调查都可能产生登记性误差。代表性误差是指用样本指标推断总体指标时,由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。系统性误差是指由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统偏低或偏高。。随机性误差又称偶然性误差,是指遵循随机原则抽样,由于随机因素(偶然性因素)引起的误差。抽样估计中的所谓抽样误差,就是指的这种随机误差。登记性误差:存在于一切调查中代表性误差:仅产生于抽样调查,不可避免。代表性误差抽样误差在实际一次调查中是调查不出来的,但其平均值是可以推算的系统性误差:不随样本量增减而变化随机误差(抽样误差):随样本量增大而减小抽样平均误差:所有可能的样本指标与总体指标间的平均差异程度。抽样极限误差样本指标与总体指标之间允许的误差范围叫抽样极限误差。也称抽样允许误差。它是样本指标可允许变动的上限或下限与总体指标之差的绝对值。即:xpXpPX95.45%的样本99.73%的样本x-368.27%的样本x-2x-X+3X+2X+x重复抽样:(1)总体是正态分布,样本必然是正态分布(2)样本平均数的平均数等于总体平均数(3)样本平均数的方差等于总体方差除以样本容量n(4)n越大,样本平均数越趋近于正态分布【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差5.21NXXNii25.1)(122NXXNii3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值X样本均值的抽样分布1.00.1.2.3P(X)1.53.04.03.52.02.5=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(X)1.00.1.2.31.53.04.03.52.02.5X5.2X625.0225.12X不重复抽样:(1)总体是正态分布,样本必然是正态分布(2)样本平均数的平均数等于总体平均数(3)样本平均数的方差等于总体方差除以样本容量n(4)n越大,样本平均数越趋近于正态分布抽样平均误差(1)均值重复抽样:不重复抽样:抽样平均误差(1)比例重复抽样:不重复抽样:总体被研究标志的变异程度。在其他条件不变的情况下,总体标志的变异程度愈小,则抽样误差也愈小;总体标志的变异程度愈大,则抽样误差也愈大。抽样单位数的多少。在其他条件不变的情况下,抽样单位数愈多,抽样误差愈小;抽样单位数愈少,抽样误差愈大。抽样的方法。在其他条件不变的情况下,重复抽样的抽样误差大于不重复抽样。抽样的组织形式。抽样误差的大小与样本单位数的平方根成反比:如果抽样误差要减少二分之一,则样本单位数必须增大到4倍。例、从某校1000名学生中简单随机抽取50名学生,称得平均体重为50千克,若已知总体标准差为10千克,计算重复抽样及不重复抽样下抽样平均误差。解:重复抽样条件下,不重复抽样条件下,在样本量相同的情况下,不重复抽样的平均误差要小于重复抽样的平均误差。抽样估计必须包括三要素:1)估计值2)估计值的误差范围3)概率保证程度(置信度)一、点估计(Pointestimate)点估计也称定值估计,常用点估计方法有矩估计,极大似然估计。样本均值是总体均值的点估计量,样本方差s2是总体方差σ2的点估计量,样本比例p是总体比例P的点估计量。优良估计量的标准:无偏性有效性一致性区间估计就是根据样本求出总体未知参数的估计区间,并使其可靠程度达到预定要求。(1)总体方差σ2已知时由于,所以对于给定的置信度1-α,有即可见,极限误差的计算公式为则总体均值的置信区间为22{}1/xPzzn(0,1)/xzNn12/nzxPxxznz2/2/),(xxxx解:已知=58,σ=10,zα/2=1.96,n=100=10/10=1(千克)=1.96×1=1.96(千克)置信下限为58-1.96=57.04,置信上限为58+1.96=59.96故所求置信区间为(57.04,59.96)千克。nxxxz2/x由于~t(n-1),对于给定的置信度1-α,有置信下限置信上限在大样本下,总体均值的置信区间为nsxT/1}/{2/2/tnsxtP1}{2/2/nstxnstxP/2(1)sxtnn/2(1)sxtnn/2/2((1),(1))ssxtnxtnnn解:当置信度为95%时,=2.26222.6544=6.00(岁)因为40.7-6.00=34.740.7+6.00=46.7所以该保险公司投保人的平均年龄的置信区间为(34.7,46.7)岁。(岁)7.4010/407nxx(岁)39397.89/1.6341)(2nxxs)(6544.2103938.82岁nsxxxt2/在大样本条件下,若np5,n(1-p)5,则样本比例趋近于正态分布。对于给定置信度,有总体比例的置信区间为小样本条件下,不作介绍。1})1()1({2/2/nPPzpPnPPzpP))1(,)1((2/2/nPPzpnPPzpnPPzzpx)1(2/2/【例】某城市想要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间解:已知n=100,p=65%,1-=95%,z/2=1.96%35.74%,65.55%35.9%65100%)651%(6596.1%65)1(2nppzp该城市下岗职工中女性比例的置信区间为55.65%~74.35%解:已知n=100,p=95%,1-α=90%,查表得zα/2=1.96=0.0218Δp=zα/2=1.96×0.0218=0.0359或3.59%95%-3.59%=91.41%,95%+3.59%=98.59%故该批产品合格率的置信区间为(91.41%,98.59%)10005.095.0)1(nPPpp在重复抽样下,所以,必要抽样单位数在不重复抽样下,必要抽样单位数nzx2/2222/xznnPPzp)1(2/222/)1(pPPzn222/2222/zNNznx)1()1(22/222/PPzNPPNznp例:某市进行职工家庭生活费抽样调查,已知职工家庭平均每人每月生活费收入的标准差为110元,允许误差范围10元,概率把握程度95%,试确定应抽选的户数。解:(户)4651011096.12222222/xzn9704.964002000)96.1()(2222222Ezn解:(1)允许误差范围Δ。当其它条件不变时,允许误差愈小,必要的抽样单位数就需要愈多;反之,允许误差愈大,抽样单位数就可以愈少。(2)总体方差σ2。其他条件不变的情况下,总体方差σ2愈大,总体单位的差异程度愈大,则样本单位数应愈多;反之,样本单位数可愈少。(3)抽样估计的可靠程度1-α。当其他条件不变时,抽样估计的可靠程度愈高,zα/2数值愈大,抽样数目就必须愈多;反之,抽样估计的可靠程度愈低,抽样数目就可以愈少。(4)抽样方法。相同条件下,由于采用重复抽样比不重复抽样的误差大,所以,前者应比后者多抽一些样本单位。除上述因素之外,抽样组织方式也是影响抽样单位数的一个原因。1.总体分布、样本分布、抽样分布2.单总体参数推断时样本统计量的分布3.参数估计的一般问题4.一个总体参数的区间估计5.样本容量的确定第九章抽样与抽样估计抽样调查中的基本概念;总体均值与成数的简单估计;必要样本量的计算不作考试要求。抽样方法重置抽样不重置抽样注意:不重复抽样所得样本对总体的代表性较大,抽样误差较小,所以实践中通常采用不重复抽样。简单随机抽样:分层抽样:整群抽样:系统抽样也称机械抽样。误差登记性误差代表性误差系统性误差随机性误差抽样平均误差(1)均值重复抽样:不重复抽样:抽样平均误差(2)比例重复抽样:不重复抽样:总体被研究标志的变异程度。抽样单位数的多少。抽样的方法。抽样的组织形式。(1)总体方差σ2已知时总体均值的置信区间为xxznz2/2/),(xxxx区间估计其中极限误差为总体均值的置信区间为其中极限误差为nsntx)1(2/))1(,)1((2/2/nsntxnsntx总体比例的置信区间为))1(,)1((2/2/nPPzpnPPzp在重复抽样下,所以,必要抽样单位数在不重复抽样下,必要抽样单位数nzx2/2222/xznnPPzp)1(2/222/)1(pPPzn222/2222/zNNznx)1()1(22/222/PPzNPPNznp(1)允许误差范围Δ。当其它条件不变时,允许误差愈小,

1 / 57
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功