Page 1Page 2抽样基本概念抽样类型Page 3抽样基本概念:总体所要认识对象的全体,是具有同一性质的许多单位的集合。总体可以是有限的,也可以是无限的。在抽样调查中,通常将反映总体数量特征的综合指标称为总体参数。常见的总体参数主要有:总体总和总体均值总体比率R:是总体中两个不同指标的总和或均值的比值。总体比例(成数)P:是总体中具有某种特性的单元数目所占比重。NiyyyyY+++==∑L21NyNYYi∑==/Page 4抽样基本概念:样本由从总体中所抽选出来的若干个抽样单元组成的集合体。影响样本代表性的因素:总体的差异程度。样本容量的大小。抽样方法。抽样调查的组织形式。Page 5抽样基本概念:样本主要的样本统计量有:样本总和样本均值样本比率样本比例Page 6抽样基本概念:样本当N和n一定时,A的多少与抽样方法有关抽样方法重复抽样不重复抽样考虑顺序不考虑顺序nNA=)!(!nNNPAnN−==nnNCA1−+=)!(!!nNnNCAnN−==Page 7抽样类型:非概率抽样非概率抽样是用一种主观的方法从总体中抽选单元。非概率抽样的优点是:快速简便;费用相对较低;不需要抽样框;对探索性研究和调查的设计开发很有用。非概率抽样的缺点是:为了对总体进行推断,需要对样本的代表性做很强的假定;不可能得到可靠的估计值以及抽样误差估计值。Page 8抽样类型:非概率抽样常见的非概率抽样方法:随意抽样:样本单元的抽选以随意的方式进行。志愿者抽样:被调查者都是自愿参与调查。判断抽样:由专家有目的地挑选“有代表性”的样本进行调查。配额抽样:从总体的各个子总体中选取特定数量的样本单元组成样本。Page 9抽样类型:概率抽样概率抽样是依据随机原则进行的抽样,利用概率抽样能使通过对样本的调查,对总体进行推断。概率抽样有两条基本准则:单元是随机抽取的;调查总体中的每个单元的入样概率非零,并且能计算出这些概率。Page 10抽样类型:概率抽样概率抽样的主要优缺点:优点:能得到总体的可靠估计值并能计算每个估计值的抽样误差,因而能对总体进行推断。缺点有:与非概率抽样相比,概率抽样比较复杂,更费时,通常也更费钱。但总的说来,其利远大于弊。Page 11抽样类型:概率抽样方法简单随机抽样系统抽样整群抽样分层抽样多阶抽样Page 12抽样类型:概率抽样方法简单随机抽样:纯随机抽样。是从总体的N个抽样单元中,每次抽取一个单元时,使每一个单元都有相等的概率被抽中,连续抽n次,以抽中的n个单元组成简单随机样本。Page 13抽样类型:概率抽样方法系统抽样:系统抽样也称等距抽样或机械抽样。它是将总体各抽样单元按一定的标志和顺序排列以后,每隔一定的距离(间隔)抽取一个单元组成样本进行调查。设总体由N个单元组成,并按某种顺序编上1到N的号码,要在其中抽取容量为n的样本,先在前K个单元中随机抽选出一个单元,以后每隔K个单元抽取一个单元,由所有抽中的单元共同所组成的样本称为等距样本。可见,抽出了第一个单元就等于决定了整个样本。这种抽样方法就是等距抽样。这里K称为抽样间隔。系统抽样的缺点:如果抽样间距正好碰上总体变化的某种未知的周期性,就会得到一个“差的”系统样本,从而影响抽样精度;Page 14抽样类型:概率抽样方法整群抽样:整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。整群抽样的优点有:由于样本不如简单随机样本那样分散,整群抽样能大大降低数据收集的费用;整群抽样的缺点有:对调查变量,若群内单元有趋同性,则整群抽样的统计效率比简单随机抽样低。Page 15抽样类型:概率抽样方法分层抽样:分层抽样也叫做类型抽样,它是实际工作中昀常用的抽样技术之一。它是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。由此所抽得的样本称之为分层样本。各层所抽的样本也是互相独立的。如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。由此所得到的样本称做分层随机样本。进行分层有三个主要理由:抽样策略的效率较高;能保证欲进行分析的特定研究域有足够的样本量,以便进行分析;避免抽到一个“差的”样本。分层抽样的缺点有:要求抽样框中的所有单元,都必须有能用于分层的辅助信息。Page 16抽样类型:概率抽样方法多阶抽样:面对的总体不但单元数很庞大,而且分布在广大区域内,很难通过一次抽样产生完整的样本。因此应是根据实际情况将整个抽样程序分成若干个阶段,一个阶段一个阶段地进行抽样,以完成整个抽样过程。多阶抽样就是用两个或更多连续的阶段抽取样本的过程。第一阶段抽取的单元称为初级或一级抽样单元(PSU),第二阶段抽取的单元称为次级或二级抽样单元(SSU),以此类推。Page 17抽样误差误差就是调查结果与现象的实际结果之间的偏差。抽样误差是用样本统计量推断总体参数时的误差,它属于一种代表性误差。非抽样误差不是由于抽样引起的,属于人为或仪器精度造成的。Page 18表:样本统计量与总体参数•统计分析:•统计描述:对从样本或总体中收集而来的数据进行组织和描述。在定量分析中,对样本的描述成为统计量(statistic),对总体特征的描述称为参数值(parameter).•统计推论:以对样本的观察和分析所得来预测或推论总体的相关逻辑和程序Page 19Page 20几种常见的概率分布Page 21抽样分布从同一总体中反复抽取不同样本,所有这些样本的统计量所构成的分布,叫做抽样分布(samplingdistribution)。抽样分布是一个理论性的分布,即某一样本统计量所有可能取值的理论上的概率分布,反映的是从同一总体中抽取的具有相同样本规模的所有可能样本的统计量(例如均值、比例、总和)的分布情况。计量所有可能取值的理论上的概率分布。常见的抽样分布有极限分布和精确分布两类。极限分布也叫做大样本分布,它只有正态分布一种形式;精确分布又叫做小样本分布,其前提是总体服从正态分布,它是正态分布的导出分布,包括有t分布、F分布和分布等形式。2χPage 22均值的抽样分布样本的抽样分布近似于正态分布均值的抽样分布的均值(均值的均值)与真实的总体均值相等均值的抽样分布的标准差比总体的标准差要小,即样本均值要更加稳定Page 23抽样均值的标准误计算重复抽样抽样均值的标准误与抽样成数的标准误不重复抽样均值的标准误与抽样成数的标准误重复抽样中,抽样单位数增加2倍时,抽样标准误如何变化?()1pPPnσ−=Xnσσ=10.57733Xnσσ===21XnnNσσ⎛⎞=−⎜⎟⎝⎠()11pPPnnNσ−⎛⎞=−⎜⎟⎝⎠Page 24例:随机抽选某校学生100人,调查他们的体重。得到平均体重为58公斤,标准差为10公斤。问抽样推断的平均误差是多少?某厂生产一种新型灯泡共2000只,随机抽出400只作耐用时间试验,测试结果平均使用寿命为4800小时,样本标准差为300小时,求抽样推断的平均误差?100,58,10nXσ===101()100Xnσσ===公斤2000,400,4800,300NnXσ====30015()400Xnσσ===小时223004001113.42()4002000XnnNσσ⎛⎞⎛⎞=−=−=⎜⎟⎜⎟⎝⎠⎝⎠小时Page 25例:某校随机抽选400名学生,发现戴眼镜的学生有80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时,抽样误差为多大?%20400801===nnp()10.20.80.02400pppnσ−×===Page 26抽样极限误差进行抽样估计时,根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的昀大误差范围。等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。Xxx−=ΔxxxXxΔ+≤≤Δ−Ppp−=ΔppPpp−Δ≤≤+Δ,Page 27抽样极限误差估计某乡粮食亩产和总产水平从8000亩粮食作物中,用不重复抽样抽取400亩,求得平均亩产为450公斤。如果确定抽样极限误差为5公斤,这就要求某乡粮食亩产为450±5公斤,即在445至455公斤之间,而粮食总产量为8000×(450±5)公斤,即在356万公斤至364万公斤之间。估计某农作物秧苗的成活率从播种这一品种的秧苗地块随机抽取秧苗1000棵,其中死苗80棵,则样本秧苗成活率p=1-80/1000=92%。如果确定抽样极限误差△P为2%,这就要求该种秧苗的成活率P为92%±2%,即在90%至94%之间。Page 28抽样误差的概率度抽样误差的概率度是测量抽样估计可靠程度的一个参数。用符号“Z”表示:Z是极限误差与抽样平均误差的比值,极限误差是Z倍的抽样平均误差。/xxZσ=ΔPage 29粮食亩产的标准差为σ=82公斤,总体单位数N=8000亩,样本单位数n=400亩,平均亩产为450公斤。如果确定抽样极限误差为5公斤则可求得抽样平均误差:可以用概率度=5/4=1.25来表示极限误差的范围,即以1.25来规定误差范围的大小。这时就要求某乡的粮食平均亩产为450±1.25公斤。2282400(1)(1)4(4008000xnnNσσ=−=−=公斤)/xxZσ=ΔxσxσPage 30抽样误差的概率度来计算极限误差的范围根据下表,如果Z=1.96,则△x=4*1.96=7.84,即亩产平均在450±7.84公斤的可能性有95%。概率度Z概率F(Z)0.538.29%168.27%1.2880%1.6490%1.9695%295.45%399.73%=*xxZσΔPage 31Page 32抽样估计反映总体指标的参数主要有总体平均数、总体成数、总体方差和总体标准差,如果抽取一个容量充分大的样本,通过反复试验能够证明计算出来的样本指标数值(样本平均数、样本成数、样本标准差等)都接近于被估计的总体指标参数,那么这种估计量就是可取的、优良的Page 33抽样估计优良估计量无偏性:每一个具体的样本指标与总体指标都可能有误差,但如果进行多次反复的抽样,各个样本指标的平均数应等于总体指标,即以这个样本指标作为总体指标的估计量,平均来说是没有偏误的。一致性:是指用样本指标估计总体指标时,随着样本容量不断增大,样本指标逐渐接近总体指标,当样本容量充分地大时,样本指标也充分地接近总体指标。有效性:是指在估计总体指标时,应采用方差昀小的那个估计量,因其方差昀小,昀具有代表性,从而估计更为有效。Page 34抽样估计量总体参数点估计参数点估计又称为定值估计,它的基本特点是根据抽样资料计算样本统计量,直接作为相应总体参数的估计值,代表总体参数,即以实际计算的抽样平均数作为相应总体平均数的估计值,以实际计算的抽样成数作为相应总体成数的估计值等。点估计的推算方法:直接推算法和系数推算法。Page 35总体参数点估计直接推算法就是根据样本指标(平均数或成数)所估计的总体参数与另一个有关的总量指标直接推算所需要的总量指标的一种方法。依据抽样平均数所估计的总体平均数与总体单位数相乘推算总体标志总量的估计值。依据抽样成数所估计的总体成数与总体中某类单位的数目相除推算出总全单位总量的估计值。估计某个水库的现有鱼数从水库各不同的地点捕捞出鱼800条,全部作好标记,仍放回水库里去,隔一段时期后再从水库中随意捞出1000条鱼,查点结果发现其中有4条是带有标记的鱼。采用点估计可以估计出成数P=0.004,同时也知全部鱼中带标记的有800条,由此可以推算出水库中现有全部鱼的估计数:800/0.004=20(万条)Page 36总体参数点估计系数推算法将抽样调查资料和全面调查资料对比,求出一个系数,然后用此系数来推算总体总量或对全面调查资料进行修正,以提高其质量的一种方法。假设某县人口普查数为25