抽样及抽样分布

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第四章抽样及抽样分布第一节抽样法的概述抽样法的概念与特点总体参数与样本统计量抽样的方法非抽样误差和抽样误差概念抽样调查是一种非全面调查。它按随机的原则从总体中抽出部分单位(简称样本)进行调查,以获得有关的数据资料。抽样推断是根据抽样调查所获得的样本信息,对总体的数量特征做出具有一定可靠程度的估计和推断。按随机原则抽取样本;目的在于用样本指标推断相应的总体指标进行估计、推断;可以计算和控制抽样误差。NEXT总体参数—描述总体数量特征的指标。总体是惟一的,所以参数也是惟一的;样本统计量—描述样本数量特征的指标,由样本计算而得。由于样本是随机的,所以样本统计量是随机变量。nxxPnnp121)(22nxxS212]1)([nxxS总体参数样本统计量样本统计量公式总体平均数样本平均数总体成数样本成数总体方差样本方差总体标准差样本标准差NEXT概率抽样—按随机的原则,从总体抽出样本。每一个总体单位有一定的可能性被抽中。非概率抽样—不遵循随机原则,而是按照人们的主观愿望抽选样本。重复抽样:抽一个容量为的样本时,每次抽出一个单位进行登记。再放回下总体中继续下次抽选,直至抽够个样本点为止。特点是:每个总体单位可能被重复抽中;有个可能的样本;每个总体单位被抽中的可能性为。nnNN/1不重复抽样:抽一个容量为的样本时,每次抽出一个单位进行登记。不再放回总体中,继续进行次抽选,直至抽够个样本点为止。特点是:每个总体单位不可能被重复抽中;不考虑顺序的情况下,有个可能的样本;nnNCn每个总体单位被抽中的可能性为1/。N/1NEXTnNC非抽样误差—在统计调查中,由于主客观原因而引起的诸如测量、登录、计算等误差。该误差可以避免。抽样误差—在抽样调查中由于抽样的随机性而产生的样本指标对总体指标的代表性误差。样本虽然是总体的缩影,但是还不足以完全代表总体,从而产生了误差。抽样误差是随机抽样固有的,可以计算并加以控制,但不可以避免。NEXT第二节抽样分布本节所要讨论的问题是统计推断的基础。要解决以下问题:样本均值服从什么分布?两个样本均值之差服从什么分布?样本成数服从什么分布?两个样本成数之差服从什么分布?样本方差服从什么分布?两样本方差之比服从什么分布?一、样本均值及样本均值差的抽样分布样本均值的抽样分布样本均值差的抽样分布假设A、B、C、D、E5位同学的统计学成绩分别为:80、86、90、92、96。可计算得总体均值为88.8,总体方差为29.76。现在随机从中抽容量为2的样本。重复抽样的所有可能的样本:样本(AA)(AB)(AC)(AD)(AE)均值8083858688样本(BA)(BB)(BC)(BD)(BE)均值8386888991样本(CA)(CB)(CC)(CD)(CE)均值8588909193样本(DA)(DB)(DC)(DD)(DE)均值8689919294样本(EA)(EB)(EC)(ED)(EE)均值8891939496非重复抽样的样本:样本(AA)(AB)(AC)(AD)(AE)均值8083858688样本(BC)(BD)(BE)均值888991样本(CD)(CE)均值9193重复抽样样本均值平均数为88.8,方差为14.88。。不重复抽样样本均值平均数为88.8,方差为11.16。重复抽样:样本均值的数学期望方差不重复抽样:样本均值的数学期望方差)(XEnXD2)()(XE1)(2NnNnXD定理:设总体服从正态分布,从总体中随机容量为的样本。样本平均数服从正态分布。在重复抽样条件下:均值为,方差为。进而有;在不重复抽样条件下:均值为,方差为),(2Nnn2)1,0(~Nnxz或)1(2NnNn)1(2Nnn)1,0(~)1(2NNnnxzXNEXT用途:估计总体的均值。样本均值差的分布用途:当讨论两个总体的均值是否相等时,常用此统计量。定理:和是两个正态总体,均值分别为和,方差分别为和。采用重复抽样方法从两个总体中分别抽出容量为和独立样本,样本均值差服从正态分布,且均值为-,方差为,则服从标准正态分布。1X12221XX2222121nn2221212121)()(nnXXz212n2X1n2121s22s特别:若两总体的方差未知,可以用样本的方差和替代。当样本容量足够大,渐近服从标准正态分布。如果:和是两个非正态总体,当和样本容量足够大,渐近服从标准正态分布。1X2X2221212121)()(nsnsXXzNEXT2221212121)()(nsnsXXz二、样本成数及成数差的抽样分布成数的概念样本成数的分布两个总体样本成数差的分布成数的概念若总体单位的某种标志只有两种表现,总体成数是指具有某种特征和属性的单位在全部总体单位重所占比重。记为p。以代表个总体单位中具有某种特征的单位数,代表个总体单位中不具有某种特征的单位数,N=N1+N0。有1N0NNNP1从总体中随机抽出容量为的样本,具有某种特征的单位数为,则样本的成数为。例如,某工厂生产某种电子元件,某批产品共10000件,其中不合格品100件,则不合格品所占的成数。若从中按随机的原则抽100件,其中有3件不合格品,则样本的成数为。n1nnnp1%1P%3pNEXT样本成数的分布用途:推断或估计总体的成数。例如某项改革方案工人的支持率,产品的正品率等。定理:在一个容量为样本中,具有某种特征的总体单位数是服从二项分布的随机变量,当样本容量足够大,且根据中心极限定理的结论,有其中1n,5nP5)1(PnP)1,0(~)1(NnPPPpzNEXTnnnp1样本成数差的分布用途:比较两个总体的成数。比如,比较两个企业的同类产品的市场占有率,比较新旧工艺生产出的产品废品率是否有显著性差异。定理:设有两总体,总体的成数分别为和。从中分别抽出容量为和的样本。当样本容量足够大,样本的成数之差近似服从正态分布,均值为,方差为,的正态分布。1P2P1n2n21PP222111)1()1(nPPnPP)1,0(~)1()1()()(2221112121NnPPnPPPPppzNEXT三、由正态分布导出的几个重要的分布分布2分布t分布F分布:2用途:讨论某种工艺生产的产品质量是否稳定,是估计总体方差的问题。对总体的方差进行估计时,必须利用样本的方差那么样本的方差服从什么分布?)1/()(122nxxSii定理:设是个相互独立的服从标准正态分布的随机变量,记他们的平方和为则服从自由度为的分布。nXX,,1n2222212nXXXn2nXX,,111iixnx)1/()(122nxxSii222122)1()(Snxxii1n服从自由度为的分布。2定理:若是来自正态总体的一个样本,则其样本均值为,样本的修正方差为则用Excel计算分布的概率给定值计算大于的概率:/统计/Chidist/按对话框的提示键入值和自由度;给定上侧概率值计算:/统计/Chiinv/按对话框的提示键入概率值和自由度。xxfxfpNEXT分布:t用途:对总体的均值进行推断时,通常情况下总体方差是未知的,这就意味着,统计量中含有未知的参数,如果我们用样本的修正方差代换总体的方差,则上式变为它不服从标准正态分布,而服从分布。在总体方差未知时,推断总体均值,需考虑统计量。nxz)1/()(122nxxSii2nSxttt定理:设是服从标准正态分布,服从自由度为的分布,且相互独立,则服从自由度为的分布。XYnnYXt/tn2定理:若是来自正态总体的一个样本,其样本均值为,样本的修正方差为,则服从自由度为的分布。nXX,,1),(2N11iixnx)1/()(122nxxSiinSxt1nt定理:若和是分别来自正态总体和的样本,且相互独立,则其中服从自由度为的分布。1,,1nXX2,,1nYY),(21N),(22N212111)()(nnSYXtw)2(21nnt2)1()1(212222112nnSnSnSw给定值计算单侧或双侧的概率:/统计/Tdist/(tails处,单侧键入1,双侧键入2)。给定双侧概率值计算区间点:/统计/Tinv/按对话框的提示键入相应的变量。xxfxfpNEXTF分布用途:在实际的统计分析工作中,我们常常遇到讨论两个总体的方差是否相等的问题。比如某个工厂采用两种不同的工艺生产某种产品,欲了解哪一种工艺的质量稳定,则需要讨论起质量指标的方差是否相等。?2221?12221定理:设和分别服从自由度为和的分布,则服从第一自由度为,第二自由度为的分布。XY1n2n221nYnXFF2n1n定理:设若和分别是来自正态总体和的样本,且相互独立。样本修正方差分别为则服从第一自由度为和第二自由度为的F分布。1,,1nXX2,,1nYY),(211N),(222N)1/()(1122*1nXXSii)1/()(2122*2nYYSii222*2212*1//SSF11n12n查表求概率F分布的上侧百分位点用Excel计算F分布的概率:给定变量值求大于的概率:/统计/Fdist/按对话框的提示键入相应的变量。给定概率值求相应的值:/统计/FINV/按对话框的提示键入相应的变量。xxfxfpNEXT第三节抽样的组织方式简单随机抽样分层抽样等距抽样整群抽样多阶段抽样简单随机抽样:简单随机抽样又称纯随机抽样,是直接从总体中按随机的原则抽容量为的样本,每一个总体单位有相同的可能性被抽中。特点:在差异较大的总体中,简单随机抽样的样本不一定能保证样本的代表性。nNEXT分层抽样概念:分层抽样又称类型抽样。首先将总体单位按某一个标志分层;然后在各层按随机抽样的方法分别抽出各层的样本。特点:分层抽样在层内是抽样调查,层间是全面调查,所以分层时应该尽量让每层内的变异程度小,而层间的变异程度大。分层抽样的抽样误差较简单随机抽样小,样本具有很好的代表性。抽样平均误差的计算公式:kiiixNNn12211通常情况下,分层抽样的抽样平均误差小于简单随机抽样的平均误差)。方法:1、比例分配法;考虑每层中的总体单位数,按比例在每层中抽出相同比例的样本,即常数kkNnNnNn11NNNNk21NNnnii每层的样本容量kiiiiiiNNnn1是各层的标准差。i2、奈曼最佳分配法;考虑每层中总体单位的变异程度不同,在样本容量一定的条件下,变异大的层样本容量也大,变异小的层样本容量也小。每层的样本容量为3、经济分配法。既考虑每层中总体单位的变异程度不同,又考虑每层的调查费用。所以在样本容量一定的条件下,标志变异大的层样本容量也大一些,调查费用大的层,样本容量相对小些。则kiiiiiiiiCNCNnn1)/(/NEXT等距抽样概念:首先将总体单位按某标志排队,排队的标志可以与调查有关,也可以与调查无关;然后计算抽样的距离;然后随机确定抽样起点最后等距离抽出样本点构成样本。抽样误差的计算:有关标志排队用分层抽样的公式估计抽样误差;无关标志排队等同于简单随机抽样,所以用简单随机抽样的方法计算。nNkNEXT整群抽样概念:首先将总体划分为群;然后按随机的原则不重复抽出群,在每群中进行全面调查。该调查方法适用于单位较多的总体。与分层抽样相反的,整群抽样在群内是全面调查,在群间是抽样调查。Rr计算抽样平均误差的公式:)1(2RrRrx212)(1XxNNiRiiNEXT多阶段抽样:概念:先将一个很大的总体划分为若干个子总体,既一阶单位;再把一阶单位划分为若干个更小的单位,称为二阶单位,照此继续下

1 / 41
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功