抽样推断第一节抽样推断概述第二节抽样误差第三节点估计和区间估计第四节必要样本容量的确定第一节抽样推断概述一、抽样推断的概念抽样推断是按照随机原则从被研究的总体中选取一部分单位进行调查,并利用这一部分单位的数据去估计和推断总体的指标数值的一种统计分析方法。二、抽样推断的特点1.抽样推断遵守随机原则。2.以部分单位的指标值去推断总体的指标值。3.抽样推断的误差可以事先计算和控制。三、抽样推断的作用1.可以用于大规模总体或无限总体的调查2.对于具有破坏性的试验或检验,必须进行抽样推断3.可以对全面调查资料的质量进行检验与修正,补充全面调查资料4.可以用于工业生产过程中的质量控制5.可以进行假设检验,判断真伪,决定行为取舍四、几个基本概念(一)全及总体和样本总体1.全及总体:也叫母体,是我们进行抽样推断所要认识到研究对象的全体,简称总体。全及总体的单位数通常用N表示。2.样本总体:也叫子体,是指从总体中随机抽取出来用以代表全及总体的那部分单位所形成的总体,简称样本。样本总体的单位数称为样本容量,通常用n表示。n≥30,样本称为大样本。n<30,样本称为小样本。随机样本(随机的)与观测样本(确定的)(二)全及指标和样本指标1.全及指标:又叫参数,是根据全及总体计算的统计指标,如:总体平均数、方差、成数等。2.样本指标:又叫统计量,是根据样本总体计算的统计指标,如样本平均数、方差、成数等。(三)重复抽样和不重复抽样1.重复抽样:就是从N个总体单位中,抽取一个单位进行观察记录后,把这个元素放回到总体中再抽取第二个单位,直到抽取n个单位为止,这样的抽样方法称为重复抽样。2.不重复抽样:就是指从N个总体单位中,抽取一个单位进行观察记录后,不再放回去,再抽取下一个单位,这样连续抽取n个单位组成样本的方法。(四)样本容量和样本个数1.样本容量:是指一个样本包含单位数。2.样本个数:又称为样本可能数目,是指一个总体中可能抽取的样本个数。它与样本容量、抽样方式等因素有关。一个总体有多少个样本,样本统计量就有多少种取值,从而可以形成该统计量的分布。(抽样分布)五、抽样推断的组织形式1.简单随机抽样它是不对总体做任何分组或分类,直接按照随机原则从含有N个单位的总体中,抽取n个单位作为样本,这样的抽样方式称为简单随机抽样,也称为纯随机抽样。2.分层抽样在抽样之前先将总体的单位划分为若干层(类),然后从各层中抽取一定数量的单位组成一个样本,这样的抽样方式称为分层抽样,也称为分类抽样。3.系统抽样先将总体中的各单位按某种顺序排列,并按某种规则确定一个随机起点;然后,每隔一定的间隔抽取一个单位,直至抽取n个单位形成一个样本。这样的抽样方式称为系统抽样,也称为等距抽样或机械抽样。4.整群抽样将全部总体单位分为若干部分,每一部分称为一个群,把每一个群作为一个抽样单位,从中抽取部分群,然后对被抽中的群做全面调查,这样的抽样方式称为整群抽样。六、抽样推断的理论依据1.大数定律随着抽样单位数n的增加,抽样平均数有接近总体平均数的趋势,几乎具有实际的必然性。2.中心极限定律不论总体变量的分布如何(只要均值和方差存在),当抽样单位数n很大时,抽样平均数近似地服从正态分布。七、抽样分布某个样本统计量的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每一个样本算出的该统计量数值的相对数频数分布或概率分布。由于现实中我们不可能将所有的样本都抽出来,因此,统计的抽样分布实际上是一种理论分布。(一)样本均值的抽样分布)1,0(~/-),,(~EN2222NnxnNxnxnx等价地有,)(重复抽样:的样本,则:从中抽取样本容量为,,方差为个单位,其均值为设总体共有))1-N(,(~)1-N(E222NnnNxNnnxx,)(不重复抽样:对于无限总体进行不重复抽样时,可以按重复抽样进行处理。对于有限总体,当N很大而抽样比n/N很小时,不重复抽样样本均值的方差也可以按照重复抽样的公式计算。(二)样本成数的抽样分布设总体有N个单位,成数为P,方差为P(1-P),从中抽取样本容量为n的样本,则:))1(P,(~)1(PE2nPPNpnPPpp,)(重复抽样:)1)1(P,(~1)1(PE2NnNnPPNpNnNnPPpp,)(不重复抽样:对于无限总体进行不重复抽样时,可以按重复抽样进行处理。对于有限总体,当N很大而抽样比n/N≤5%时,不重复抽样样本均值的方差也可以按照重复抽样的公式计算。对于一个具体的样本比例p,若np≥5和n(1-p)≥5,就可以认为样本量足够大。第二节抽样误差一、抽样误差的概念抽样误差:是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标与总体指标之间的绝对离差。因此,又称为随机误差,它不包括登记误差,也不包括系统性误差。二、抽样平均误差(一)概念:抽样平均误差:是反映抽样误差一般水平的指标。•通常用抽样平均数的标准差或抽样成数的标准差来作为衡量其抽样误差一般水平的尺度。设以表示抽样平均数的平均误差,表示抽样成数的平均误差,M表示全部可能的样本数目,则:抽样平均误差(公式)2()xxXM2()ppPMxp注:以上公式中的关键是无法得到总体平均数和总体成数,所以按上述公式来计算抽样平均误差实际上是不可能的。抽样平均数的平均误差1、在重复抽样的条件下,抽样平均数的平均误差与总体的变异程度以及样本容量大小两个因素有关:2、在不重复抽样的条件下,抽样平均数的平均误差不但和总体变异程度、样本容量有关,而且还与总体单位数有关:其中,为修正因子。2xnn2()1xNnnN()1NnN抽样成数的平均误差:表明各样本成数和总体成数绝对离差的一般水平。1、在重复抽样的条件下:抽样成数的平均误差(1)pppnn(1)()1pppNnnNn2、在不重复抽样的条件下:如何确定总体标准差?(1)以抽样调查的历史资料中的方差代替,若有若干同类调查的资料,应选最大的方差。(2)用样本标准差s代替总体标准差,用样本是非标志的标准差代替总体是非标志的标准差。(3)组织试验调查,以试验调查的样本方差代替,如有几个试验则取最大的样本方差。(4)成数方差,在资料缺乏时,可以用成数方差的最大值0.25代替。(二)影响抽样误差大小的因素:1)总体各单位标志值的差异程度。2)样本的单位数。3)抽样方法。4)抽样调查的组织形式。三、抽样极限误差在抽样估计时,应根据所研究对象的变异程度和分析目的要求确定可允许的误差范围,我们把这种可允许的最大误差范围称为抽样极限误差。设Δx、Δp分别表示抽样平均数极限误差和抽样成数极限误差。则有:xpxXpPxxppxXxpPp区间称为平均数的估计区间或称平均数的置信区间。区间称为成数的估计区间或称成数的置信区间。(,)xxxx(,)pppp四、抽样极限误差的概率度基于概率估计的要求,抽样极限误差通常需要以抽样平均误差或为标准单位来衡量。把极限误差或分别除以或的得相对数t,表示误差范围为抽样平均误差的t倍。t是测量估计可靠程度的一个参数称为抽样误差的概率度。xpxpxpxxtppt第三节点估计和区间估计一、点估计点估计就是通过计算一个统计量(样本元素的函数),将它作为未知参数的估计。用来估计参数的统计量叫估计量•估计量的优良性准则1.无偏性:如果一个估计量的数学期望值等于被估计参数,则这个估计量称为被估参数的无偏估计量。2.一致性:若随着样本容量n的增大,估计量的值越来越接近于被估计的参数,则该估计量称为一致估计量。AB中位数的抽样分布均值的抽样分布XP(X)3.有效性:一个方差较小的无偏估计量称为一个更有效的估计量。如,与其他估计量相比,样本均值是一个更有效的估计量二、区间估计1.置信区间与置信度(置信水平)•在确定允许的抽样误差范围后,从主观愿望说,希望抽样调查的结果,样本指标的估计值都能够落在允许的误差范围内,但这并非都能实现的事情。•由于抽样指标值随着样本的变动而变动,它本身是个随机变量,因而抽样指标和总体指标的误差仍然是个随机变量,不能保证误差不超过一定范围的这件事是必然的,而只能给以一定程度的概率保证。•抽样估计置信度(置信水平,把握程度)就是表明样本均值落在总体均值的两侧各为t(t为正数)个抽样平均误差范围内的概率。的置信区间叫置信度为称为显著性水平:置信水平,把握程度)置信度1),(1)(-1()10(1)(xxxxxxxxxxxtxtxtxtxPtxtxtxtxttxtP2.区间估计计算总体参数区间估计是根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限,即指出总体参数可能存在的区间范围。)(1)()(1)(tFtxtxPtFtxtxPppxx已知给定的置信度要求,推算极限误差的可能范围计算步骤是:首先抽取样本,计算样本均值(或成数),作为相应总体均值(或成数)的估计值,并计算样本标准差以推算抽样平均误差。其次,根据给定的置信度F(t)要求,查表求得概率度t值。最后,根据概率度t和抽样平均误差来推算抽样极限误差的可能范围,再根据抽样极差求出被估计总体指标的上下限,对总体参数作区间估计。例:某纱厂某时期内生产了10万个单位的纱,按纯随机抽样方式抽取2000个单位检验,检验结果合格率为95%,废品率为5%,试以95%的把握程度,估计全部纱合格品率的区间范围?已知:100000N2000n%95p%51p95.0tF96.1tNnnppp11%48.010000020001200005.095.0%94.0%48.096.1ppt区间下限:%06.940094.095.0pp区间上限:%94.950094.095.0pp第四节必要样本容量的确定nttxx当给定置信水平时,样本容量越大,误差越小,估计的精确度就越高。反之,则估计的精确度越低。但是当样本容量一定时,所要求的把握程度越大,即t越大时,则误差越大,估计的精确度越低,反之,估计的精确度就越高。一、概念在抽样推断中,要想同时提高估计的精确度和把握程度,只有增大样本容量。但是样本容量过大,就会造成不必要的浪费。因此在抽样调查前,就要根据预先确定的精确度和把握程度要求,确定所要抽取的最少样本单位数,即必要样本容量。1.2202220)1(.2.1pxpptntn成数平均数二、必要样本容量的确定推断总体平均数、成数的必要样本容量(一)重复抽样(二)不重复抽样NnnpptNppNtnNnntNNtnpx002221002222211)1()1(.21.1成数平均数例如:一批产品共有10000件,为估计产品的使用寿命,根据试验样本计算得知样本标准差为4000小时,如果使可靠程度在95%以上,极限误差不超过600小时,问至少应抽取多少件产品作为样本?(t=1.96,F(t)=0.95)三、计算必要样本容量应注意的问题1.计算样本容量时,若方差未知,则(1)以抽样调查的历史资料中的方差代替,若有若干同类调查的资料,应选最大的方差。(2)组织试验调查,以试验调查的样本方差代替,如有几个试验则取最大的样本方差。(3)成数方差,在资料缺乏时,可以用成数方差的最大值0.25代替。2.若在同一次调查中,同时推断总体成数和平均数,根据已知条件计算得到两个样本容量,则取较大的那个。3.样本容量应取整数,逢小数就入。4.在实际工作中,由于修正系数(1-n/N)很接近1,有时就用重复抽样的公式计算样本容量。四、影响样本容量的因素1.总体方差