第6章统计量及其抽样分布作者:中国人民大学统计学院贾俊平第6章统计量及其抽样分布学习目标1.了解统计量及其分布的几个概念2.了解由正态分布导出的几个重要分布3.理解样本均值的分布与中心极限定理4.掌握单样本比例和样本方差的抽样分布6.1统计量6.1.1参数和统计量1.参数参数是总体参数的简称,是反映总体数量特征的指标,其数值是唯一的、确定的,但往往是未知的。最常用的参数有总体均值(记为)、总体比率(记为)和总体方差(记为)。2.统计量统计量是样本统计量的简称,是由样本中单位的变量值计算得到的反映样本数量特征的指标,其数值是不确定的,随机的。最常用的统计量有样本平均数(记为)、样本比率(记为p)、样本方差(记为)。22sx统计量(statistic)1.设X1,X2,…,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…,Xn),不依赖于任何未知参数,则称函数T(X1,X2,…,Xn)是一个统计量样本均值、样本比例、样本方差等都是统计量2.统计量是样本的一个函数3.统计量是统计推断的基础6.2关于分布的几个概念6.2.1抽样方法6.2.2抽样分布6.2.3抽样分布的形态与中心极限定理6.2.1抽样方法重复抽样和不重复抽样1.重复抽样:是指从N个总体单位中,抽取一个单位进行观察、记录后放回去,然后再抽取下一个单位,这样连续抽取n个单位组成样本的方法,也称回置式抽样。M=N2.不重复抽样:是指从N个总体单位中,抽取一个单位进行观察、记录后,不再放回去,再抽取下一个单位,这样连续抽取n个单位组成样本的方法。n例如:从A、B、C、D四个单位中,抽出两个单位构成一个样本,问可能组成的样本数目是多少?重复抽样AAACADBABBBCBDABCACBCCCDDADBDCDDNn=42=16(个样本)1.抽样分布的概念某个统计量对应的频率分布或概率分布称为该统计量的抽样分布。常用的抽样分布有样本平均数的抽样分布、样本比率的抽样分布、样本方差的抽样分布。6.2.2抽样分布(samplingdistribution)【例】假设一个总体包含6个单位,分别是。采取重复抽样的方法,从中抽取2个单位组成样本,试描述的抽样分布。解:首先考虑总体的分布情况。显然总体服从均匀分布:6,5,4,3,2,1654321xxxxxxx123456P(x)1/61/61/61/61/61/6x1)样本平均数的抽样分布总体均值为:总体方差为:5.366543211NxNii92.26)5.36()5.35()5.34()5.33()5.32()5.31()(222222122NxNii采取重复抽样的方法从N=6个单位中抽取n=2个单位组成样本,一共可以抽取个样本,对应的可以计算出36个。3662Mx表所有容量为2的样本及其平均数)(,xxxji第二次抽取123456第一次抽取11,1(1.0)1,2(1.5)1,3(2.0)1,4(2.5)1,5(3.0)1,6(3.5)22,1(1.5)2,2(2.0)2,3(2.5)2,4(3.0)2,5(3.5)2,6(4.0)33,1(2.0)3,2(2.5)3,3(3.0)3,4(3.5)3,5(4.0)3,6(4.5)44,1(2.5)4,2(3.0)4,3(3.5)4,4(4.0)4,5(4.5)4,6(5.0)55,1(3.0)5,2(3.5)5,3(4.0)5,4(4.5)5,5(5.0)5,6(5.5)66,1(3.5)6,2(4.0)6,3(4.5)6,4(5.0)6,5(5.5)6,6(6.0)表8-2的抽样分布xxifx频数频率p()1.011/361.522/362.033/362.544/363.055/363.566/364.055/364.544/365.033/365.522/366.011/36我们分别绘制总体分布图和抽样分布图:P(x)xx的分布P()xxx的分布从这两个分布图中我们可以看到,在本例中,虽然总体服从均匀分布,但经过抽样平均后,样本平均数的抽样分布是对称的有了抽样分布的基本印象后,我们还可以进一步探索的数量特征、分布的形态以及抽样平均误差。1.的数学期望x5.33616......25.110.1111Mfxiiix5.3xx2.的方差x2x46.112......211)5.30.6(......2)5.35.1(1)5.30.1()()(2221111112122jjjjjMixixffxMx46.12222nx3.的抽样平均误差xnnMxExMix2212)(4.修正系数上述结论是在重复抽样的条件下得到的,如果是有限总体且不重复抽样,当样本容量超过总体容量的5%时,要对样本方差进行修正,修正系数为1NnN这时样本方差为:的抽样平均误差为:)1(22NnNnxx)1()1()1(22NnNnNnNnNnNExx此公式说明,抽样平均误差与总体标准差成正比,与样本容量成反比。(当总体标准差未知时,可用样本标准差代替)例:某讨论小组有A,B,C,D四名同学,其统计学作业分数分别为80,90,70,60分,现从中有放回地随机抽取两名同学,试计算样本平均分数的抽样平均误差解:总体均值和总体方差分别为因此,抽样平均误差为756070908041)(125)7560(757075907580412222291.72125nEx)(很大时当NnnNNnNnxx1122不重复抽样的平均误差一定会小于重复抽样的平均误差(为什么?)采用不重复抽样:公式表明:抽样平均误差不仅与总体变异程度、样本容量有关,而且与总体单位数的多少有关。例题1:某厂生产一种新型灯泡共2000只,随机抽出400只作耐用时间试验,测试结果平均使用寿命为4800小时,样本标准差为300小时,求抽样平均误差?解:)(15400300小时nExNnnEx12)(42.13200040014003002小时计算结果表明:根据部分产品推断全部产品的平均使用寿命时,采用不重复抽样比重复抽样的平均误差要小。已知:则:N=2000n=400s=300x=48006.2.3抽样分布的形态与中心极限定理中心极限定理(centrallimittheorem)x的分布趋于正态分布的过程由【例】我们自然会做出如下合理的推测:当总体中包含的单位非常多,我们抽取的样本容量足够大时,的抽样分布会越来越趋近于正态分布。大量的试验表明,无论总体服从什么分布,只要总体方差已知,样本容量足够大,样本平均数近似服从正态分布,这个结论就是著名的中心极限定理。x),(),(~22nNNxxx其中:—样本平均数的数学期望,—样本平均数的方差,x2xxnx22数学表达式表示为理解中心极限定理时注意点:1.已知—正态分布;未知—t分布2.总体分布:总体服从正态分布-条件加强总体偏斜-样本容量大3.样本容量足够大;大于30—大样本;小于30—小样本22x标准化变换大样本,总体方差已知条件下)1,0(~NnxZ标准正态分布的分布函数记为)(Z它有三个重要的性质:)()()(abbZap)(1)(aa1)(2)(aaZp•某汽车电瓶商声称其生产的电瓶具有均值为60个月、标准差为6个月的寿命分布,现假设质监部门决定检验该厂的说法是否正确,为此随机抽取50个该厂生产的电瓶进行寿命试验。•则:(1)假定厂商声称是正确的,试描述50个电瓶的平均寿命的抽样分布;•(2)假定厂商声称是正确的,则50个样品组成的样本的平均寿命不超过57个月的概率是多少?例题:6.5x6600.720.8550n由于,2~(60,0.85)xN解:则根据中心极限定理可以推出50个电瓶的平均寿命的分布服从正态分布,即:(2)如果厂方声称是正确的,则观察得到的50个电池的平均寿命不超过57个月的概率为:6057605760(57)()()0.850.850.85(3.529)1(3.529)1(3.529)10.99980.0002xpxppZpZpZF结论:即如果厂方的说法正确,则50个电瓶的平均寿命不超过57个月的概率为0.0002,这是一个不可能事件。根据小概率事件原理,观察到50个电瓶的平均寿命小于或等于57个月的事件是不可能的;反之,如果真的观察得到50个电瓶的平均寿命低于57个月,则有理由怀疑厂方说法的正确性,即可认为厂方的说法是不正确的。6.3样本比例的抽样分布1、只表现为是与否、有或无的标志,称为是非标志,也称为交替标志。成数:总体中,交替标志只有两种表现,我们把具有某种表现或不具有某种表现的单位数占全部总体单位数的比重称为成数。N1表示具有某种标志的单位数;N0表示不具有某种标志的单位数P和q分别表示具有与不具有某种标志的成数P+q=1或q=1-pNNqNNP01或成数(是非标志的方差与标准差)交替标志的平均数PNNNNNNx1010101XfXf1N1(P)P1-p(1-P)2P(1-P)20N2(1-p)0-pP2(1-P)P2合计1P--P(1-P)2+P2(1-P)XX2)(XXfXX2)1(020(12)1()(2PPNPNPffXXN)6.3样本比例的抽样分布总体(或样本)中具有某种属性的单位数与单位总数之比NMnmp(1)总体比例:(2)样本比例:当较大时,样本比例近似服从平均数为,方差为的正态分布.即近似有pnn)1())1(,(~nNp(6.12)(6.13)一般情况下,如果X是一随机变量,C为一常数,则CX与X有相同的分布形状。设则,)(,)(2XDXE.)(,)(22CCXDCCXE例6.6设,试描述的分布.解:由于,则4)(,9)(XDXEX10)2,9(~2NX400)(100)10(90)(10)10(XDXDXEXE于是)20,90(~102NX例6.7设某统计人员在其填写的报表中有2%至少会有一处错误,如果检查了一个由600份报表组成的随机样本,其中至少有一处错误的报表所占的比例在0.025~0.070之间的概率是多少?解:由于,得600,02.0n)0057.0,02.0(~2Np0057.0600)02.01(02.0)1(n根据中心极限定理则近似有,于是1902.0)877.0()77.8()0057.002.0070.00057.002.0025.0()070.0025.0(ZPpP即该统计人员所填写的报表中至少有一处错误的报表所占的比例在0.025~0.070之间的概率为19.02%。6.4两个样本平均数和比例之差的分布前面讨论一个样本平均数和比例的分布,有时需要比较两个总体的平均数和比例.例如,要比较人们的购买行为中喜欢产品甲的比例与喜欢产品乙的比例;比较两种不同投资项目的预期回报等。从而需要讨论两个样本平均数和比例之差的分布.两个样本平均数之差的分布),(~,),(~22222111NXNX),(~2221212121nnNXX222121212121)()(nnXXDXXE设两个总体都服从正态分布,即并且两个随机样本相互独立,则从而(6.14)(6.15)若两个总体都非正态分布,当和较大时近似服从正态分布.2n1n21XX例6.8设有甲、乙两所著名高校在某年录取新生时,甲校的平均数为655分,标准差为20分.而乙