统计学课件4.1 抽样分布

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第一节抽样与抽样分布一、抽样方法二、抽样的基本概念三、抽样分布1、样本均值、比率的分布2、样本方差的分布3、两个样本统计量的分布概率抽样(根据已知的概率选取样本)也称随机抽样,是指按照随机原则抽取样本。所谓随机原则就是排除主观意愿的干扰,使总体的每个单位都有一定的概率被抽选为样本单位,每个总体单位能否入样是随机的。(一)概率抽样与非概率抽样一、抽样方法概率抽样能有效避免主观选样带来的倾向性误差(系统偏差),使得样本资料能够用于估计和推断总体的数量特征,可以计算和控制抽样误差,能够说明估计结果的可靠程度。概率抽样整群抽样简单随机抽样系统抽样分层抽样简单随机抽样、分层抽样、系统抽样和整群抽样等。概率抽样最基本的组织方式有(1)简单随机抽样总体中每个容量为n的不同样本都有同样的概率被选中,则称此方法为简单随机抽样。所选中的样本称为随机样本。样本总体随机取样也称分类抽样或类型抽样。它是按与调查目的有关的某个主要标志将总体单位划分为若干层(也称类、组或子总体),然后从各层中按随机原则分别抽取一定数目的单位构成样本。(2)分层抽样总体分成不同的互不相交的“层”,然后在每一层内进行随机抽样应用:1)总体差异大,即各层间差异性大,层内个体差异小2)某些样本点很少,为估计小群体的样本点总体层次1层次2…….层次n取样1取样2••••••取样n样本(3)系统抽样也称机械抽样或等距抽样。它是先将总体单位按某一标志排队,计算出抽样间隔,并在第一个抽样间隔内确定一个抽样起点,再按固定的顺序和间隔来抽取样本单位。(4)整群抽样也称集团抽样。它是将总体全部单位分为若干部分(每一部分称为一个群体,简称群),然后按随机原则从中抽取一部分群体,抽中群体的所有单位构成样本。整群抽样对抽中群体内的所有单位进行全面调查,而未抽中群体的单位一概不调查。群1群2群n总体样本随机取样以上几种基本的抽样组织方式,它们各有不同的特点和前提条件,适用于不同的场合。在实际工作中,选择适当的抽样组织方式主要应考虑调查对象的性质特点,对调查对象的了解程度,抽样误差的大小以及人力、财力和物力的条件等方面。也称非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。重点调查、典型调查、配额抽样、方便抽样等就属于非随机抽样。。2、非概率抽样由于非随机抽样的效果取决于调查者的经验、主观判断和专业知识,故难免掺杂调查者的主观偏见,出现因人而异的结果,且容易产生倾向性误差;此外,非随机抽样不能计算和控制其抽样误差,无法说明调查结果的可靠程度。1、重复抽样也叫回置抽样,是指从总体的N个单位中抽取一个容量为n的样本,每次抽出一个单位后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。采用重复抽样,同一总体单位有可能被重复抽中,而且每次都是从N个总体单位中抽取,每个总体单位在每次抽样中被抽中的概率都相同,n次抽取就是n次相互独立的随机试验。(二)重复抽样和不重复抽样也称不回置抽样,是指抽中单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。采用不重复抽样方法,同一总体单位不可能被重复抽中。由于每次抽取是在不同数目的总体单位中进行的,每个总体单位在各次抽样中被抽中的概率不相等,即n次抽取可看作是n次互不独立的随机试验。2、不重复抽样总体、个体和样本总体(Population):调查研究的事物或现象的全体个体(Itemunit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体样本容量(Samplesize):样本中所含个体的数量n二、抽样中的基本概念1、总体概念:指根据研究目的确定的所要研究的同类事物的全体,是所要说明其数量特征的研究对象。其中,构成总体的个别事物(基本单元)就是总体单位,也称个体。(一)总体与样本是指在抽样估计中用来反映总体数量特征的指标,也称总体参数。分析一个总体常常可运用多个总体指标,它们从不同角度反映了总体分布的基本状况和主要特征。所要估计的总体指标有:总体平均数、总体比率、总体标准差、方差等。总体指标:2、样本概念:从总体中抽取的部分单位所构成的一个整体。样本所包含的总体单位个数称为样本容量,一般用n表示。在实际工作中,人们通常把n≥30的样本称为大样本,而把n30的样本称为小样本。又称样本统计量或估计量,是根据样本资料计算的、用以估计和推断相应总体指标的综合指标。常见的样本统计量有样本平均数、样本比率(也称样本成数)、样本标准差、样本方差以及它们的函数。样本统计量是随样本不同而不同的随机变量。抽取不同的样本,得到样本统计量的具体取值是不相同的。样本指标1、实际抽样误差是指某一具体样本的样本估计值与总体参数的真实值之间的离差。实际抽样调查中,由于总体参数是未知数,因此,每次抽样的实际抽样误差是无法计算的。(二)抽样误差所有可能的样本估计值与总体参数的平均差异程度,即样本均值的标准差。2、抽样平均误差nXXX2的标准差:3、抽样极限误差是指一定概率下抽样误差的可能范围,也称为允许误差。则这一概念可以表述为如下不等式:在一定概率下上式表示:在一定概率下可认为样本估计量与相应总体参数的误差绝对值不超过。θΔθθˆ三、抽样分布总体分布、样本分布、抽样分布由样本观测值计算的所有样本指标(如均值、比率、方差等)所形成的概率分布为抽样分布。..1、样本均值的抽样分布2、样本比率的抽样分布3、样本方差的抽样分布4、两个样本统计量的抽样分布(一)抽样分布的概念是指样本统计量作为一种随机变量,其可能样本指标数值及其发生的可能性的概率分布,统计上称为抽样分布.简言之,是指样本统计量的概率分布。若无特别声明,均讨论重复的简单随机抽样。满足条件:(1)x1,x2,…,xn相互独立;(2)每个xi都与总体同分布(二)样本均值的抽样分布..nnn1x3x2x从目标总体抽取容量为n=5销售价格的样本计算均值x由707个销售价格组成的总体...样本均值的理论抽样分布的产生过程所有样本均值的均值和方差结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/nnXVarXX22)(的方差:)(XEXX的数学期望:nXXX2的标准差:对于来自任何一个(无限)总体的容量为n的随机样本,其样本均值X的数学期望、方差、标准差分别为(抽样平均误差)样本均值的抽样分布=50=10X总体分布n=4抽样分布Xn=165x50x5.2x当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X的数学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)总体方差σ2已知时)1,0(~)1,0(,,),,,(),,(~212NnxNnxxxxxxNXn的正态分布。即 Z服从经标椎化后的统计量此时样本均值样本均值为是其一个简单随机样本 设总体本样小大小样本总体方差σ2未知时)1(~)1(,,),,,(),,(~2122ntnSxttnnSxxSxxxxNXn   即 分布。的服从自由度为经标椎化后的统计量均值此时样本样本标准差为值为简单随机样本,样本均是其一个未知, 设总体)1(~2ntnSxt布的标准化:未知下,小样本抽样分例1某企业生产一批灯泡共10,000只,随机抽取400只作耐用时间试验。测算结果表明其平均寿命为5,000小时,标准差为300小时,试计算抽样平均误差。解:由题意知,样本标准差S=300,总体容量N=10,000,样本容量n=400)(15400300)(小时nSnx(三)样本比率P的抽样分布设总体由两种状态数据组成(如“0”,“1”;成功,失败等),其中成功的比例为p。则从总体进行随机抽样可近似地看成二项试验。成功失败10iX容量为n的样本为(X1,X2,…,Xn)n)(1σ的标标差pn)(12σ方差:;E(p)μ的数学期望:p,n2,n10,p,p)n(1)(1npnpnf(p)项分布:2服从pn1iiXn1Xp:则样本中成功的比例为ppp例2已知某厂在2004年1月生产了100000件产品,按简单随机抽样的方式,抽取了2000个单位来检验,合格率为95%,试求抽样平均误差。解:由题意知,样本比例p=95%,样本容量n=2000,因np=19005和n(1-p)=1005,故可运用正态分布计算抽样平均误差%49.0200005.095.0)1(nppp)(抽样平均误差重复抽样不重复抽样(1)pppn(1)(1)11pppNnppnnNnN2xn1NnNnxZ2211xNnnnNnNnxZ例3某企业生产一批灯泡共1000只,随机抽取400只作耐用时间试验。测算表明其平均寿命为5000小时,标准差为300小时,不合格产品10个,试计算重复和不重复抽样下平均误差。)(15400300)(小时nSnx%78.0400975.0025.0)1(nppp)(则在重复抽样条件下,抽样平均误差解:由题意知,样本均值=5000,样本比例p=2.5%,样本标准差S=300,总体容量N=1000,样本容量n=400(大样本,按正态分布计算)x)(62.1110004001400300122小时)(Nnnx%60.010004001400975.0025.01)1(Nnnppp)(则在不重复抽样条件下,抽样平均误差注:通常总体标准差是未知的,可通过以下三种方法解决:①由估计标准差替代;②用样本标准差替代(样本足够大);③用历史资料替代,即过去全面调查或经验资料。1、总体标准差或方差的大小,σ越大,抽样误差越大2、样本单位数的多少,n越大,抽样误差越小3、抽样方法,不重复抽样比重复抽样的抽样误差小4、抽样组织方式,其他组织形式比简单随机抽样误差小影响抽样误差的因素(四)样本方差的抽样分布设总体服从正态分布N~(μ,σ2),(X1,X2,…,Xn)为来自该正态总体的样本,则样本方差与总体方差的比值服从自由度为n-1的2分布将2(n–1)称为自由度为(n-1)的卡方分布)1(~)1(222nsn(五)两个样本方差比的抽样分布设(X1,X2,…,Xn1)是来自正态总体N~(μ1,σ12)的一个样本,(Y1,Y2,…,Yn2)是来自正态总体N~(μ2,σ22)的一个样本,且Xi(i=1,2,…,n1),Yi(i=1,2,…,n2)相互独立,则将F(n1-1,n2-1)称为第一自由度为(n1-1),第二自由度为(n2-1)的F分布)1,1(~21212222222122nnFssssyxyx。分布,记为的自由度为,第二服从第一自由度为则称随机变量布分的自由度为相互独立,且分别服从与设),(,,212121221nnnnnnnnFFYXFYX具有如下性质:础。重要,是方差分析的基方差比的统计推断十分分布对于两个正态总体F)1(是一个正偏分布。限分布不以正态分布为极,)2(FF分布

1 / 40
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功