第三章抽样与抽样分布第三节统计抽样与抽样方法第四节抽样分布与中心极限定理第五节抽样分布的其他问题第三节常用的抽样方法一、总体与样本(一)总体(Population)总体是指根据研究目的所确定的所要研究的同类事物的全体,是所要说明其数量特征的研究对象。总体单位:构成总体的个别事物。(二)样本(Sample)从总体中抽取的部分总体单位所构成的整体。大样本:小样本:3030nn总体与样本的指标表示法总体参数样本统计量(Parameter)(SampleStatistic)容量平均数比例方差标准差2XNsspxn2总体参数与样本统计量的特点1.总体参数是客观存在的确定的一个常数.它是唯一的,但一般未知.2.样本统计量是一个随机变量,它随样本的不同而不同.它不是唯一的,它的值可以由样本统计出来.3.计算样本统计量的目的是为了推断总体参数二、概率抽样与非概率抽样从总体中抽取样本的方法有概率抽样和非概率抽样两类。概率抽样最基本的组织方式有:简单随机抽样(Samplerandomsampling)、分层抽样Stratifiedsampling)、系统(等距)抽样(Systematicsampling)和整群抽样(Clustersampling)。抽样方法简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样非概率抽样抽样方式概率抽样(probabilitysampling)1.根据一个已知的概率来抽取样本单位,也称随机抽样2.特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)1.从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量的样本都有相同的机会(概率)被抽中2.抽取元素的具体方法有重复抽样和不重复抽样3.特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便4.局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率分层抽样(stratifiedsampling)1.将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本2.优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematicsampling)1.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位2.优点:操作简便,可提高估计的精度3.缺点:对估计量方差的估计比较困难整群抽样(clustersampling)1.将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查2.特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差概率抽样能有效避免主观选样带来的倾向性误差(系统偏差),可以计算和控制抽样误差。第四节抽样分布与中心极限定理一、总体分布和样本分布假定某公司进口了100000只灯管,从中抽出100只进行检验。这100000只灯管即为总体,抽出的100只即为样本。100000只灯管的分布即为总体分布,抽出的100只的分布即为样本分布。使用寿命(小时)X灯管数比重(%)4000以下34000~4500114500~5000185000~5500355500~6000206000~650096500以上4合计100FF使用寿命XFF0只灯管使用寿命分布图100000FFXX22FXFX总体分布使用寿命(小时)灯管数比重(%)4000以下34000~4500114500~5000185000~5500355500~6000206000~650096500以上4合计100xff格列文科(Glivenko)定理当样本容量足够大时,样本分布将趋于总体分布。即当22SXx时30n使用寿命xff0只灯管使用寿命分布图100fxfx122ffxxs样本分布二、抽样分布(Samplingdistribution)抽样分布是指样本统计量的概率分布。如上例中,将所有可能样本的平均数作为一个新的总体的分布即为样本平均数的抽样分布。将所有可能样本的方差作为一个新的总体的分布即为样本方差的抽样分布。在重复抽样的条件下:可抽取个可能样本:此时:100100000100100000321,,,,xxxx10022100100000100000xxxxxx平均使用寿命(小时)平均使用寿命比重(%)4000以下14000~450054500~5000205000~5500485500~6000206000~650056500以上1合计100xffxx2x抽样分布:10022100100000100000xxxxx一般地,如果总体有N个单位,从中采取重复抽样方法,随机抽取n个单位进行调查,则有:nxxnxNxNx22),(~2xxx中心极限定理(CentralLimittheorem)1.样本平均数的分布形式与总体的分布和样本量的大小有关.2.如果原有总体是正态分布,那么无论样本量大小,样本平均数的分布都服从正态分布.3.不论总体服从何种分布,从中抽取容量为n的样本,当n足够大时,样本平均数的分布服从正态分布。xxxfx),(~2xxNx中心极限定理的作用:当我们要根据样本统计量推断总体参数时,不必考虑总体的分布形态,只需运用正态分布理论,用样本的资料通过计算样本抽样的平均数来估计总体平均数。重点:推断统计的理论基础----大数定理和中心极限定理.二、样本平均数的抽样分布(一)正态总体、方差已知(大、小样本)nNx2,~设则有:2,~NX111xxExEExnnnn、2222221211xxDxDDxnnDxnnnn、dxPnNX求的样本从中抽取容量为若例题,,,~:2dxP:解ndnxPnd0例题1:假设某次高考数学成绩为正态分布,平均为65分,标准差为12分,要求计算(1)随机抽取一人,该人成绩在77分以上的概率;(2)随机抽取9人,其平均成绩在77分以上的概率。772771:9,12,65~:2xPXPnNX求已知771:XP解11110ZP126577XP1587.08413.01772xP0013.09987.019126577ZP310习题3:设,从中抽取容量为25的简单随机样本。试求25,150~NX5.147140xP25,150,2525,150~2nNX解:5.147140xP1405.147xPxP2551501402551505.14700105.21015.2100621.099379.015.210习题4:设为一无限总体,现从中抽取随机样本。若这一等式成立,则样本容量n应是多少?20,200~NX025.092.203xP96.12020092.203n025.092.203:xP解025.02020092.2031nnxP975.02020092.2030n5n(二)大样本()1、方差已知nNx2,~30n设则有:30,,~2nXdxPnX求若例题,30,,~:2dxP:解ndnxPnd0例题2:某工厂从当日生产的大量灯泡中随机抽取64个灯泡以测试其使用寿命。从过去的经验表明,该厂生产的灯泡使用寿命的标准差是160小时。试求这64个灯泡的平均使用寿命与总体均值相差40小时以上的概率。已知:n=6430无限总体40160xP求40:xP解4040xPxP%55.40455.097725.01221210022zPzP64160406416040nxPnxP例题3:袋装食品的机器装的重量均值可以在200-500克之间调节,但标准差独立于均值为3克,若每次抽取36袋检查,要求其平均重量至少是250克的概率为95%,机器应调节至平均装多少克?:95.02503036,3:求已知xPn95.0250:xP解645.1500295.05002005.02502095.0632501ZP82.2502、方差未知30,?,~nXnsNx2,~设则有:dxPnX求未知若例题,,30,?,~:2dxP:解nsdnsxPnsd0264162016/160nxPxP(三)正态总体、方差未知、小样本)1(~ntnsxt30,?,~:nNX设nstxn21,~:则有dxPnNX求未知若例题,,30,?,~:dxP:解nsdnsxPnsdtn1(四)非正态总体、方差未知、小样本KxnX~30,,~2第五节抽样分布的其他问题一、样本容量与抽样平均误差的关系nx习题5:用简单随机重复抽样方法抽取样本单位,如果要使抽样平均误差降低50%,则样本容量需要扩大到原来的()A、2倍B、3倍C、4倍D、5倍二、有限总体的修正系数(Finitepopulationcorrectionfactor)重复抽样(Samplingwithplacement)指从总体的N个单位中抽取一个容量为n的样本,每次抽出一个单位后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。不重复抽样(Samplingwithoutreplacement)指抽中单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。结论:不重复抽样所得样本对总体的代表性较大,抽样误差较重复抽样误差小。如方差已知、大样本下:1,~,~22NnNnNxX习题6、有限总体修正系数可以省略的前提是()。A、n/N<0.5B、n/N>0.5C、n/N<0.05D、n/N>0.05例题4:某家具厂在批量生产的100张椅子中随机抽取36张作检验,每张椅子的评分是0分至10分,根据过去的经验,评分的标准差是2分,试求这36张椅子评分的均值与总体评分均值差别在1分以内的概率。1:2%5%36,303