第五章抽样与参数估计

http1112123
1 ℃
2019-12-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

《统计学》讲义第五章-1-第五章抽样与参数估计第一节抽样推断的意义和作用一、抽样推断的概念(一)概念抽样推断是在抽样调查的基础上利用样本的实际资料计算出样本数据，并运用概率估计方法，推断总体相应的数量指标的一种统计分析方法。抽样推断，从其内涵来说，包括抽样调查和抽样推断两部分。抽样调查，是指按照随机原则从调查对象的全部单位中抽取部分单位，进行调查，取得各项准确的数据。抽样推断，是指运用数理统计原理，根据抽样调查资料，对研究对象全体的数量特征，作出具有可靠程度的估计和判断，以达到对象总体正确认识的目的。(二)抽样推断的特点1．按照随机原则，抽选调查单位，是抽样推断的前提；2．运用概率估计法是抽样推断的特有估计方法。3．抽样推断的误差，可以事先计算并加以控制。二、抽样推断的作用1．对有些不可能或不必要进行全面调查，但又需要了解其全部数量情况的社会经济现象，则可以运用抽样推断，实现调查的目的。2．抽样调查与全面调查同时进行，可以发挥互相补充和检查质量的作用。3．抽样推断可以用于工业生产过程的质量控制。4．利用抽样推断法还可以对于某种总体的假设进行检验，判断其真伪，以作出正确的决策。三、抽样推断法中几种基本概念(一)全及总体、抽样总体1．全及总体，简称总体。是指所要研究对象的全体。2．样本总体，又叫了样，简称样本。它是全及总体中随机抽取出来的，用以代表命脉总体的部分单位的集合。3．在抽样推断实践中，一般样本单位达到或超过30个称大样本，在30个以下的称为小样本。(二)全及指标和抽样指标1．全及指标。根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标，称为全及指标。全及总体单位数用N表示，全及指标有:全及总体平均数X、全及总体所数P、全及总体标准差б、全及总体方差б2。2．抽样指标。，由样本总体各个单位的标志值或标志特征计算的综合指标，称为抽样指标。抽样总体单位数用n表示，抽样指标有:抽样平均数x、抽样所数p、样本标准差S、样本方差S2。(三)样本容量样本容量，指样本方法中的单位数。《统计学》讲义第五章-2-(四)抽样方法和样本数目抽样方法，即按随机原则从全及总体抽取样本总体的方法，样本数目，又称样本可能数目，是指一个总体中可能抽取的样本个数。1．按抽取方式，抽样方法可分为两类｜(1)重复抽样；(2)不重复抽样2．按抽样是否考虑顺序，抽样方法又可分为两种｜(1)考虑顺序抽样；(2)不考虑顺序抽样。将上述两种分类，互相交叉就形成四种抽样方法，即｜(1)考虑顺序的重复抽样；(2)不考虑顺序的重复抽样；(3)考虑顺序的不重复抽样；(4)不考虑顺序的不重复抽样。上述四种不同的抽样方法，从总体N个单位中抽取n个单位所构成样本数目是不同的。样本可能数目计算公式列表如下｜抽样方法样本数目公式例｜5个单位中抽3个考虑顺序的重复抽样NN53=125不考虑顺序的重复抽样)!1(!)1(NnnN)!15(!3)!135(＝35（个）考虑顺序的不重复抽样)!(!nNN)!35(!5＝60（个）不考虑顺序的不重复抽样)!(!!nNnN1)35(!3!5＝10（个）第二节抽样误差一、抽样误差抽样误差是指由于随机抽样的偶然因素使样本各单位的结构对总体各单位结构的代表性差别，而引起的样本指标和全及指标之间的绝对离差。如：|Xx|、|p-P|。这种抽样误差是抽样所特有的误差，它是不可避免的，但是可以控制，故又称可控制误差。二、抽样平均误差(一)概念抽样平均误差是抽样平均数(或抽样成数)的标准差。它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。(二)抽样平均误差的计算公式抽样平均误差的计算的方法原则上是一致的，但不同的抽样组织形式和不同的抽样方法，计算抽样平均误差各有其特点。现以简单随机抽样为例，说明抽样平均误差的计算方法。根据抽样平均误差的定义得出其基本表达式：MPppMXxx22)()(式中：x-抽样平均数平均误差；《统计学》讲义第五章-3-p－抽样成数平均误差；x－样本平均数；X－总体平均数；p－样本成数；P－总体成数；M－可能样本数目。在实际中不可能按照上述公式计算抽样平均误差。但它可以根据总体方差、样本容量和抽样方法，通过一定公式进行计算。简单随机抽样平均误差的计算公式如下表：重复抽样不重复抽样平均数抽样平均误差nx212NnNnx成数抽样平均误差nPPp)1(1)1(NnNnPPp（三）影响抽样平均误差的因素1．总体各单位标志值的差异程度。差异程度愈大，则抽样误差愈大，返之则愈小。2．样本单位数的多少。在其他条件相同的情况下，样本单位数愈多，则抽样误差愈小，反之则愈大。3．抽样方法。抽样方法不同，抽样误差也不相同。一般说，重复抽样比不重复抽样误差要大些。4．抽样调查的组织形式。抽样调查的组织形式不同，其抽样误差也不同，而且同一组织形式的合理程度也会影响抽样误差。一般说，类型抽样和按有关标志排队的等距抽样比其他抽样组织形式误差要小一些。三、抽样极限误差抽样极限误差是根据样本指标与总体指标之间抽样误差的可能范围，亦即允许误差范围。抽样指标与总体指标之间的离差，可能是正或负，因此允许误差范围采取绝对值形式，用Δ表示，即：△x＝│Xx│Δp＝|p-P|上两式很容易转化为下列不等式，即：X－△X≤x≤X+△xP_△p≤p≤P+△P上式表明，抽样平均数x是以总体平均数中心，在X△x之间变动，区间（X－△x，X＋△x）的总长度为2△x。同样，抽样成数p是以总体成数为中心，在P△p之间变动，其区间（P－△p,,P+△p）的总长度为2△x。《统计学》讲义第五章-4-由于X和P在抽样时是末知的，它要靠实际测定的x和p来估计，因而△的实际价值是希望X在x△x的范围内变动；P在p+△p范围内变动。因此，上述两个不等式就要转变为：x－△x≤X≤x＋△xp-△p≤P≤p+△p这两个不等式与上面两个不等式是完全等价的。△＝tμ此式表示极限误差与平均误差间的数量关系。由于x值与样本估计值落入允许范围有关，故t称为概率度。第三节抽样估计的原理和方法一、抽样估计的特点1．逻辑上运用归纳推理而不是运用演绎推理；2．在方法上运用不确定的概率估计法；3.估计的结论存在一定的抽样误差。二、抽样估计的理论基础抽样估计是建立在概率论的大数法则基础上，大数法则一系列定理为抽样估计提供了数学依据。大数法则论证了抽样平均数趋近于总体平均数的趋势，为抽样推断提供了重要依据。中心极限定理研究了抽样平均数与总体平均数的离距不超过一定范围的概率大小问题。中心极限定理证明：如果总体变量存在有限的平均数和方差，那么不论这个总体变量的分布如何，随着抽样单位数n的增加，抽样平均数便趋近于正态分布。这个结论对于抽样推断是十分重要的，这为抽样误差的概率估计提供了一个极为有效而且方便的条件。三、抽样估计的优良标准（一）无偏性。是指用样本指标估计总体指标时，要求样本指标的平均数等于被估计总体指标的平均数。（二）一致性。是指用样本指标估计总体指标，当样本容量（n）增加时，样本指标越来越接近总体指标，则称样本指标为总体指标的一致估计量。（三）有效性。指用样本指标估计总体指标时，要求样本指标的方差最小，故有效性亦称最小方差。四、抽样估计方法（一）点估计点估计也称定值估计，它是用样本指标直接估计总体参数。即总体平均数的点估计值就是样本平均数，总体成数的点估计值就是样本成数。（二）区间估计1．抽样估计精度。是指抽样估计的准确程度。它与抽样误差程度是相对的概念。误差率＝△x/x估计精度（亦称准确率）与误差率是相对的，即：估计精度＝1－误差率《统计学》讲义第五章-5-2．抽样估计的置信度抽样误差是一个随机变量，所以抽样指标（x、p）落在一定区间（允许误差范围）不是一个必然事件，而只能给予一定的概率保证。因此，在进行抽样估计时，一方面要考虑抽样误差的允许范围有多大，这是估计的准确度问题，另一方面还要考虑落到这一范围的概率有多少，这是估计的准确性问题。抽样估计置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。抽样误差范围和估计置信度是密不可分的，抽样误差范围愈小，则估计置信度也愈小；反之，抽样误差范围愈大，则估计置信度也愈大。理论已经证明，在样本单位足够多（n≥30）的条件下，抽样平均数的分布接近正态分布。正态分布的特点是，抽样平均数以总体平均数为中心，两边对称分布。其图形如下＿正态分布及曲线下的面积图：x-3u-2u-uX1u2u3u68.27%95.45%99.73%上图正态分布曲线与横轴围成的面积等于1。抽样平均数落在某一区间的概率P，就可以曲线在这一区间所包围的面积表示。经计算结果如下：P（X－μ≤x≤X＋μ）＝P（|x－X≤μ）＝68.27%P（X－2μ≤x≤X＋2μ）＝P（|x－X|≤2μ）＝95.45%P（X－3μ≤x≤X＋3μ）＝P（|x－X|≤3μ）＝99.73%这说明抽样平均数与总体平均数误差范围不超过1µ、2µ、3µ的概率，分别为68.27%、95.45%、99.73%。t为概率度，由于t＝|x－X|/μ，所以抽样误差概率就是概率度t的函数，即P（|x－X|≤tμ）=F(t)。上述关系式，可作如下表述：当t=1时，F（t）=68.27%当t=2时，F(t)=95.45%当t=3时，F(t)=99.73%《统计学》讲义第五章-6-3．区间估计方法区间估计是利用样本指标的数值，在一定可靠程度下给出总体相应指标的可能范围。也就是根据估计可靠程度要求，选定概率t，以及根据极限Δ误差＝tμ，再利用抽样平均数x，定出估计下限x－Δ和估计上限x＋Δ，下限与上限构成区间（x－Δ，x＋Δ）称为置信区间，估计可靠程度F（t）为置信度。区间估计必须同时具备三个要素：估计值、抽样误差范围、概率保证程度。区间估计的特点是并不直接给予总体参数的被估计值，而只是规定总体参数被估计值的上限和下限，即总体参数存在的区间范围，并给予一定的概率保证程度。总体参数X、P的区间估计公式为：平均数的区间估计：x－Δx≤X≤x+△x成数的区间估计：p－△p≤P≤p＋△p4．区间估计小结总体平均数的区间估计：（1）抽取样本后，用简单算术平均或加权算术平均法计算样本平均数x；（2）搜集总体方差2的数据或计算样本方差S2代替总体方差2；（3）计算抽样平均误差x（4）根据概率F（t）确定t，计算极限误差△x；（5）确定总体平均数的置信区间（x－△x，x＋△x）。总体成数的区间估计：（1）抽取样本后，计算样本成数p=n1∕n2；（2）用经验数据或样本是非标准方差p(1-p)代替总体是非标志方差P（1－P）；（3）计算抽样平均误差p；（4）根据概率F（t）确定t计算极限△p；确定总体成数的置信区间（p-△p,p+△p）;5．抽样平均误差的计算（1）重复抽样平均误差的计算平均数平均差公式：《统计学》讲义第五章-7-nx2成数平均误差公式：npp)1(（2）不重复抽样平均误差的计算平均数平均误差公式：)1(2Nnnx成数平均误差公式：)1()1(Nnnppp上式中，p、分别为总体标准差和总体成数，通常用样本标准差S和样本成数P代替。重复抽样与不重复抽样的平均误差公式只相差一个因子（Nn1），这个因子小于1。因此在同样条件下，不重复抽样的平均误差比重复抽样的平均误差要小。例1、某外贸公司出口一批小包装名茶，与外商签订合同规定每包茶叶的平均重量不能低于150克，根据下表的抽样检查结果，以99。73%的把握程度推断这批茶叶是否符合合同规定的要求。检查结果及其计算如下表：每包重量（克）包数（克）f(n)组中值xX·ffxx2)(148-149149-150150-151151-15210205020148.5149.5150.5151.5148529907525303032.412.82.028.8合计100——1503076．0根据表中数据计算：3.15010015030fxfx9973