第七章抽样与抽样估计课件

love2004r
0 ℃
2020-11-12

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第七章抽样与抽样估计本章学习目的了解抽样估计的概念和特征、抽样调查的组织方式领会抽样估计中的相关概念掌握抽样估计中常用的统计量（均值、方差、标准差、成数）掌握正态分布总体参数的估计方法（点估计、区间估计）本章重难点提示本章重点：抽样估计的相关概念、抽样分布、样本统计量、区间估计方法本章难点：抽样误差的相关概念、不同已知条件下的区间估计方法第一节抽样及抽样估计中的基本概念（一）抽样及抽样估计的概念1.抽样即抽样调查，是指在总体中选取部分单位组成样本并收集样本单位的数据资料的过程2.抽样估计是在抽样调查的基础上，利用样本的数据资料计算样本指标，以样本特征值对总体特征值作出具有一定可靠程度的估计和判断一、抽样估计的概念和特征(二)抽样估计的特点1.抽样估计是由部分推断总体的一种认识方法2.抽样估计建立在随机取样的基础上3.抽样估计运用的是不确定的概率估计方法4.抽样估计的误差可以事先计算并加以控制二、抽样及抽样估计中的相关概念（一）全及总体和样本1.全及总体：是由被调查对象的全部单位所构成的集合体，简称总体总体容量：总体中的单位数，用N表示2.样本:样本是从总体中抽取的进行调查的部分单位的集合体，又称抽样总体样本容量：样本中的单位数，用n表示大样本和小样本：n＞30时称大样本，n≤30称小样本**应用:在班级40名学生中随机选取15人进行健康状况调查,说明其中的总体、样本及容量二、抽样及抽样估计中的相关概念（二）概率抽样与非概率抽样1.概率抽样:又称随机抽样，是按随机原则抽取样本单位。本章所指的均为概率抽样2.非概率抽样:又称非随机抽样，是指从研究的目的和需要出发，根据调查者的经验或判断，从总体中有意识地抽取部分单位构成样本**应用举例:重点调查、典型调查应为非概率抽样二、抽样及抽样估计中的相关概念（三）重复抽样和不重复抽样1.重复抽样:又称有放回的抽样，从总体中抽取样本时，每次被抽中的单位都再被放回总体中参与下一次抽样2.不重复抽样:又称无放回的抽样，总体中随机抽选的单位经观察后不放回到总体中，即不再参加下次抽样**思考与讨论:从容量为N的总体中随机抽取容量为n的样本，根据概率论与数理统计知识，讨论重复抽样和不重复抽样中各单位依次被抽中的概率，并比较在同等条件下，哪种抽样的代表性好？二、抽样及抽样估计中的相关概念（四）抽样框1.概念:抽样框是包括全部抽样单位的名单框架2.形式名单抽样框:如学生名单、职工名单、企业名单等区域抽样框:如将一个城市按行政区划分为若干区、街道、居委会等时间抽样框:如对流水线上的产品每隔一定时间抽取一定单位（五）总体参数和样本统计量1.总体参数:是反映总体数量特征的数值。在抽样推断中，参数是未知的、待估计的确定值2.样本统计量:是根据样本资料计算的反映样本数量特征的变量，它的值随着样本的不同而变化，因此是一个随机变量二、抽样及抽样估计中的相关概念表7-1总体参数和样本统计量符号总体指标符号样本指标符号总体容量：N总体平均数：总体成数：P总体方差：2总体标准差：样本容量：n样本平均数：x样本成数：p样本方差：2S样本标准差：S（六）抽样误差1.统计误差及分类偏差/系统误差：由于破坏随机原则而产生随机性误差/抽样误差**：即使遵循随机原则以样本指标代表总体指标时的偏差统计误差登记性误差:统计调查中，由于观察、测量、登记、计算等原因或被调查者提供虚假信息所造成代表性误差:以样本指标推断总体指标时产生的代表性程度的差异（六）抽样误差2.抽样误差与抽样误差有关的三个概念（1）抽样实际误差：指某一次具体抽样中，样本指标值与总体参数真实值之间的偏差（2）抽样平均误差：是指所有可能的样本指标与总体指标之间的平均差异程度，即样本估计值的标准差（3）抽样极限/允许误差：又称置信区间，是指一定概率下抽样误差的可能范围，说明样本估计量在总体参数周围变动的范围，记作Δ抽样误差是指不包括登记性误差和系统性误差在内的随机误差，它衡量了抽样估计的精确度抽样平均误差①抽样平均数的平均误差概念：就是抽样平均数的标准差，反映抽样平均数的所有可能值对总体平均数的平均离散程度，记作定义公式：其中：：各个可能样本的平均数：总体平均数：重复抽样条件下所有可能的样本数)(xmxxi2)()(ixm抽样平均误差实际抽样推断中采用的公式重复简单随机抽样不重复简单随机抽样其中，为总体方差为不重复抽样的修正因子nx2)()1()(2NnNnx21NnN抽样平均误差②样本成数（比例）的抽样平均误差重复抽样条件下：不重复抽样条件下：总体中具有某种特征的单位占全部总体单位数的比例称为总体比例，记作，样本中具有此种特征的单位占全部样本单位数的比例称为样本比例，记作PpnPPp)1()()1()1()(NnnPPp抽样极限误差①样本平均数的抽样极限误差：以绝对值形式表示的样本平均数的抽样误差的可能范围，用符号表示为：即：说明样本均值以确定的总体均值为中心，在之间变动。在实际抽样估计中是以样本均值推断总体均值的区间范围，因此，可将上述不等式作如下变换：xxxxxxxxxx抽样极限/允许误差②样本比例的抽样极限误差：以绝对值形式表示的样本比例的抽样误差的可能范围，用符号表示为：即：同理，也可将上述不等式转换为：pPpppPpPpppPp第二节抽样分布一、抽样分布的概念和种类（一）概念精确分布／小样本分布：大多数是在正态分布总体条件下得到的，但应用不广（二）种类渐进分布／大样本分布：样本容量无限增大时统计量的极限分布，可看作是抽样分布的一种近似抽样分布是样本统计量的概率分布。从一个总体中随机抽取容量相等的样本，根据样本资料计算某一统计量所有可能的概率分布，称为这个统计量的抽样分布常见的抽样分布（一）正态分布１.正态分布：如果随机变量的概率密度函数为：-∞＜＜+∞其中，为常数且＞0，则称服从参数为、的正态分布，记作～，＊正态分布是最常见的抽样分布22221)(xexfxXX(N)2常见的抽样分布2.标准正态分布：在正态分布中，当参数=0，=1时，则称服从标准正态分布，记作~，1）标准正态分布的分布密度和分布函数的性质如下：（1）是偶函数，即=（2）=1-（3）如果~，，则的分布函数为上述公式称为正态分布函数的标准化公式XX0(N)(x)(x)(x)(x)(x)(x)(xX(N)2X)()(xxF常见的抽样分布（二）分布设是独立同分布的随机变量，且每个随机变量都服从标准正态分布，即~（0，1），则随机变量=的分布称为自由度为的分布，记作（）。当∞时，分布趋近于正态分布，即（）~（，2）。2nxxx,,,21ix2niix12n22nn2n2nnn常见的抽样分布（三）分布设随机变量与相互独立，~（0，1），~（），则称随机变量服从自由度为的分布，记作()当∞时，分布趋近于标准正态分布。实际应用中，当＞30时，分布可用标准正态分布近似表达tXYXY2nnYXt/nttnnttn常见的抽样分布（四）分布1.设随机变量与相互独立，且分别服从自由度为、的分布，则称随机变量服从第一自由度为、第二自由度为的分布，记作(，)2.分布对于两个总体的方差比的统计推断问题十分重要，是方差分析等统计推断方法的基础。与前两种分布不同的是分布不以正态分布为其极限分布，它总是一个正偏分布FFFF~XY1n2n221//nYnXF1n2n1n2nFF二、样本平均数的抽样分布（一）总体方差已知时，样本平均数的抽样分布[定理7–1]设总体，（）是一个简单随机样本，则有：~（，）将样本平均数标准化，即有：（0，1）上述定理说明：样本平均数的数学期望值等于总体平均数，样本平均数的方差等于总体方差除以样本容量，同时也说明了样本平均数抽样分布具有的基本性质2x),(~2NXnxxx,,,21xNn/2)(xEnxV/)(2~/)(nxxxZ二、样本平均数的抽样分布（一）总体方差已知时，样本平均数的抽样分布[定理7-2]中心极限定理：设是具有期望值，方差的任意总体，则样本平均数的抽样分布将随的增大而趋于总体平均数为，标准差为的正态分布，即渐近服从(，)。将这一正态随机变量进行标准化，则有：0，1)**说明：样本无论抽自正态或非正态总体，只要样本容量足够大，在总体平均数和方差已知和有限的条件下，样本平均数的抽样分布就会趋于正态分布。一般认为样本容量≥30时，即可用定理7-2作为推断的依据。2xX2nnXxNn/2(~/NnxZn2xx二、样本平均数的抽样分布（二）总体方差未知时，样本平均数的抽样分布当总体方差未知时，可以用样本方差代替总体方差，或用样本标准差代替总体标准差，则有：[定理7—3]设总体，）,（）是其一个简单随机样本，样本平均数为，样本标准差，则统计量~（）**即当总体方差未知时，样本平均数服从自由度为的分布2x22S2S(~NX2nxxx,,,21xSnSxt/t1n1nt三、样本比例（成数）的抽样分布当从总体中抽取一个容量为的样本时，样本中具有某种特征的单位数服从二项分布，即有~，)，且有，因此样本比例也服从二项分布，且有：根据中心极限定理，当∞时，二项分布趋近于正态分布。所以，在大样本下，若和均大于5，样本比例近似服从正态分布：nxxnB(PnPXE)()1()(PnPXVnxp/PxEnnxEpE)(1)()()1(1)(1)()(2PPnxVnnxVpVnnP)1(Pn)1(1,~PPnPNP第三节抽样估计的基本方法一、点估计（一）概念1.点估计2.矩估计设总体随机变量的分布函数已知，但它的一个或多个参数未知，若从总体中抽取一组样本观察值，以该组数据来估计总体参数，就称为参数的点估计矩估计法是用样本的矩去估计总体的矩，从而获得总体有关参数的估计量的方法。矩是指以期望值为基础定义的数字特征，如数学期望、方差、协方差等一、点估计（二）矩估计法的评价优点：一、计算简便直观，一般不考虑抽样误差和可靠程度二、适用于对估计准确与可靠程度要求不高的情况局限性：一、它要求总体矩存在二、不能充分利用估计时已掌握的有关总体分布的信息一、点估计（三）应用例题[例7-1]某厂对所生产的电子元件抽取5%进行抽样调查，计算出样本的平均耐用时间为4340小时，样本合格率为98%。根据矩估计法原理，估计该厂所生产的电子元件的平均耐用时间和合格率。解：点估计法是用样本指标直接作为总体指标的代表值，所以，全部电子元件的平均耐用时间即为4340小时；总体合格率为98%二、区间估计（一）区间估计的概念根据样本统计量以一定的可靠程度去估计总体参数值所在的范围或区间，是抽样估计的主要方法（二）抽样估计的置信度与精确度1.置信度：表示区间估计的可靠程度或把握程度，也即所估计的区间包含总体参数真实值的可能性大小，一般以1-表示。其中表示显著性水平，即某一小概率事件发生的临界水平置信度通常采用三个标准：（1）显著性水平=0.05，即1-=0.95（2）显著性水平=0.01，即1-=0.99（3）显著性水平=0.001，即1-=0.999（二）抽样估计的置信度与精确度**2.抽样估计的精确度：用置信区间的大小即抽样极限/允许误差来表示3.抽样估计的置信度与精确度的矛盾关系在样本容量和其他条件一定的情况下，若希望抽样估计有较高的可靠度，则必须扩大置信区间，即必须降低估计的精确度若希望抽样估计有较高的精确度，即置信区间范围缩小，则必须降低估计的把握度即：抽样估计要求的把握度越高，则抽样允许误差越大，精确度越低；反之则相反**思考：在抽样调查中，如何同时提高抽样估计的精确度和把握度？区间估计的应用（一）总体均值的区间估计1.总体方差已知时当，)时，来自该总体的简单随机样本的样本均值