第一节抽样及抽样组织形式第二节常见的概率分布第三节抽样分布第5章抽样和抽样分布STAT本章重点1、简单随机抽样2、的抽样分布3、的抽样分布4、其他组织形式的抽样本章难点1、抽样分布原理2、中心极限定理xp指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会抽样推断按照随机原则从全部研究对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法。不可能进行全面调查时不必要进行全面调查时来不及进行全面调查时对全面调查资料进行补充修正时抽样推断的应用第一节抽样及抽样组织形式一、抽样的几个基本概念(一)全及总体和样本总体(二)总体参数和样本统计量(三)重置抽样与不重置抽样二、抽样组织形式(一)简单随机抽样(二)分层随机抽样(三)整群抽样(四)等距抽样(五)多阶段抽样STAT一、抽样的几个基本概念(一)全及总体和样本总体STAT全及总体样本总体又称总体或母体,是统计抽样中所要了解的研究对象整体。具有唯一性。又称样本或子样,是指在统计抽样中按照“等机会原则”从全及总体中抽出的部分单位。样本不具唯一性。例如:在100万户居民中,随机抽取1000户居民进行家庭收支情况调查,其中的100万户居民就是全及总体,而被抽中的1000户居民则构成样本总体。n≥30称为大样本,n<30称为小样本.n/N称为抽样比.(二)总体参数和样本统计量根据全及总体各单位变量值计算的反映全及总体某数量特征的综合指标,由于全及总体唯一确定,故称总体参数。根据样本总体各单位变量值计算的反映样本总体某数量特征的综合指标,由于样本总体不具唯一性,故称为样本统计量,它是一个随机变量。STAT总体参数和样本统计量符号STAT统计推断全及总体参数(未知量)样本总体统计量(已知量)抽样推断STAT(三)重置抽样与不重置抽样STAT重置抽样又被称作重复抽样、放回抽样抽出个体登记特征放回总体继续抽取特点同一总体单位有可能被重复抽中,而且每次抽取都是独立进行。(三)重置抽样与不重置抽样STAT不重置抽样又被称作不重复抽样、不放回抽样抽出个体登记特征继续抽取特点总体单位数减少,同一单位只可能被抽中一次。在连续抽取时,每次抽取都不是独立进行。是最为常用的抽样方法,用于无限总体和许多有限总体样本单位的抽样。二、抽样组织形式STAT(一)简单随机抽样(单纯随机抽样)——对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本应用仅适用于规模不大、内部各单位标志值差异较小的总体是最简单、最基本、最符合随机原则随机原则的实现抽签法是将总体中每个单位的编号写在外形完全一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单位。随机数表法将总体中每个单位编上号码,然后使用随机数表,查出所要抽取的调查单位。计算机模拟法是将随机数字编制为程序存储在计算机中,需要时将总体中各单位编上号码,启用随机数字发生器输出随机数字,然后从总体中找到相应总体单位形成样本。随机数字表974523894212764659099874763642265930598416765870063489962435986633289080365223647065436387132769087912870877652136217721987876434648908327692164896589707743443114228900120874321123043757596721325779959424252386487990344321776095542148797544753769799703777976849877808423277800686921337687908262130892953544320821489900857065432549065643322324379098546476793243438700534521648784542176590879216760896543657897964358650841934325253443876707694637567488125487698767432198453248906034076543324587078676983286548900808463421243326577907963645324908743432923769876672137860769880052326743797343433874856049325477690732437004352187799990135878700821257497682365879048876598023412688032359323314766236689743176944327679094232155023233793203622123793478794235...............二、抽样组织形式STAT(二)分层随机抽样(类型抽样)——将总体全部单位分类,形成若干个类型组,然后从各类型中分别抽取样本单位组成样本总体N样本n等额抽取等比例抽取2NkN1N1n2nkn······能使样本结构更接近于总体结构,提高样本的代表性;能同时推断总体指标和各子总体的指标二、抽样组织形式STAT(三)整群抽样(集团抽样)——将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群体的所有单位构成样本例:总体群数R=16样本群数r=4hlpdnnnnnABCDEFGHIJKLMNOPLHPD样本容量简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差二、抽样组织形式STAT(四)等距抽样(机械抽样或系统抽样)——将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。······随机起点半距起点对称起点(总体单位按某一标志排序)按无关标志排队,其抽样效果相当于简单随机抽样;按有关标志排队,其抽样效果相当于类型抽样。二、抽样组织形式STAT(五)多阶段抽样——指分两个或两个以上的阶段来完成抽取样本单位的过程例:在某省100多万农户抽取1000户调查农户生产性投资情况。第一阶段:从该省所有县中抽取5个县第二阶段:从被抽中的5个县中各抽4个乡第三阶段:从被抽中的20个乡中各抽5个村第四阶段:从被抽中的100个村中各抽10户样本n=100×10=1000(户)第二节常见的概率分布一、正态分布二、二项分布三、t分布四、卡方分布五、F分布STAT一、正态分布(一)正态分布的定义及其特征STATxf(x)xxfx,e21)(2221f(x)=随机变量X的概率分布密度函数=总体均值=总体方差=3.1416;e=2.7183正态分布的特征1.概率密度函数在x的上方,即f(x)0。2.正态曲线的最高点在均值,它也是分布的中位数和众数。3.正态分布是一个分布族,每一特定正态分布通过均值的标准差来区分。4.曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交。5.正态曲线下的总面积等于1。6.随机变量的概率由曲线下的面积给出。STAT和对正态曲线的影响xf(x)CAB正态分布的概率abxf(x)?d)()(baxxfbxaP概率是曲线下的面积!(二)标准正态分布标准正态分布的概率密度函数标准正态分布的分布函数STAT221()2xxe221()2uxxedu(二)标准正态分布STATx一般正态分布XZ1Z标准正态分布(三)正态分布的概率计算1.计算概率时,查标准正态概率分布表2.对于负的x,可由(-x)1x得到3.对于标准正态分布,即X~N(0,1),有–P(aXb)ba–P(|X|a)2a14.对于一般正态分布,即X~N(,),有STATabbXaP)(【例】设X~N(0,1),求以下概率:(1)P(X1.5);(2)P(X2);(3)P(-1X3);(4)P(|X|2)解:(1)P(X1.5)=(1.5)=0.9332(2)P(X2)=1-P(2X)=1-0.9973=0.0227(3)P(-1X3)=P(X3)-P(X-1)=(3)-(-1)=(3)–[1-(1)]=0.9987-(1-0.8413)=0.8354(4)P(|X|2)=P(-2X|2)=(2)-(-2)=(2)-[1-(2)]=2(2)-1=0.9545【例】设X~N(5,32),求以下概率(1)P(X10);(2)P(2X10)解:(1)9525.0)67.1(67.135351035)10(XPXPXP(2)7938.0)1()67.1(67.1351351035352)102(XPXPXP二、二项分布进行n次重复试验,出现“成功”的次数的概率分布称为二项分布设X为n次重复试验中事件A出现的次数,X取x的概率为STAT)!(!!),,2,1,0(xnxnxnCnxqpCxXPxnxxn式中:npnpq三、t分布STAT概率分布密度函数:1221[(1)/2]()(1)(/2)dfdftftdfdfdf具有自由度为n的t分布的随机变量T的数学期望和方差为:E(T)=0;D(T)=n/(n-2),对n2当n充分大时,其图形类似于标准正态分布密度函数的图形.0);(nxfLimxt分布的密度函数关于x=0对称,且不难看到,当n充分大时,t分布近似N(0,1)分布.但对于较小的n,t分布与N(0,1)分布相差很大.四、卡方分布STAT)(~22n记为定义:设相互独立,都服从正态分布N(0,1),则称随机变量:所服从的分布为自由度为n的分布.nXXX,,,21222212nXXX22分布是由正态分布派生出来的一种分布2分布的特点1.分布的变量值始终为正2.分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称3.期望为:E(2)=n,方差为:D(2)=2n(n为自由度)4.可加性:若U和V为两个独立的2分布随机变量,U~2(n1),V~2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布STAT2分布选择容量为n的简单随机样本计算样本方差S2计算卡方值2=(n-1)S2/σ2计算出所有的2值不同容量样本的抽样分布n=1n=4n=10n=20总体2由分布的定义,不难得到:),,(2N1.设相互独立,都服从正态分布nXXX,,,21则)(~)(121222nXnii)(~21221nnXX),(~),(~222121nXnX2.设且X1,X2相互独立,则这个性质叫分布的可加性.2应用中心极限定理可得,若,则当n充分大时,)(~2nX若2Xnn的分布近似正态分布N(0,1).则可以求得,E(X)=n,D(X)=2n),(~2nX若1.由统计学家费舍(R.A.Fisher)提出的,以其姓氏的第一个字母来命名则2.设若U为服从自由度为n1的2分布,即U~2(n1),V为服从自由度为n2的2分布,即V~2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为五、F分布21nVnUF),(~21nnFFSTATF分布不同自由度的F分布F(1,10)(5,10)(10,10)即它的数学期望并不依赖于第一自由度n1.0001))(()()()(),;(222221212112121212121xxxxnnxfnnnnnnnnnnnnnX的数学期望为:2)(22nnXE若n22若X~F(n1,n2),