第五章抽样推断法推断统计:利用样本统计量对总体某些性质或数量特征进行推断。随机原则总体参数统计量推断估计参数估计检验假设检验抽样分布案例根据这个流程图,结合一个具体实例,说明数学建模的过程。•工厂加工某种零件有三道工序:粗加工、返修加工和精加工。每道工序完成时,都要对产品进行检验。粗加工的合格品进入精加工,不合格品进入返修加工;返修加工合格品进入精加工,不合格品作为废品处理;精加工合格品为成品,不合格品为废品。•请用流程图表示这个零件的加工过程。抽样分布简单随机抽样和简单随机样本的性质不放回放回放回不放回独立性和同一性同一性当n/N≤5%时,有限总体不放回抽样等同于放回抽样统计量与抽样分布•统计量:即样本指标。样本均值样本成数样本方差如:nXXinnPiˆ22)(11XXnSi•抽样分布:某一统计量所有可能的样本的取值形成的分布。性质数字特征0≤P(Xi)1∑P(Xi)=1均值E(X)方差E[x-E(x)]2方差的平方根即抽样分布的标准差就是推断的抽样误差。抽样误差就是样本平均数分布数列的标准差。,Xxffxxix2)(计算标准分即将原始分数X经过线性变换转变为标准分Z。反映各原始分的平均数为中心的相对位置。)(ZXXXXZiiXOx任何原始分在总体中的位置,用Z倍的σ来测定。计算抽样误差(以平均指标为例)设:样本平均数ix样本平均数的平均数x总体平均数X)(Xxi实际抽样误差)()()(2为样本数简称抽样误差抽样平均误差nnXxix)()(2加权形式或ffXxix样本均值的抽样分布(简称均值的分布)抽样均值均值μ=∑Xi/NnxXi样本均值是样本的函数,故样本均值是一个统计量,统计量是一个随机变量,它的概率分布称为样本均值的抽样分布。抽样方法均值方差标准差(1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样xxE)(xxE)(nx22)1(22NnNnxnx1NnNnx即均值推断的抽样误差和,12NnNnnxx抽样误差抽样误差从正态总体中抽样得到的均值的分布也服从正态分布。从非正态总体中抽样得到的均值的分布呢?中心极限定理:无论总体为何种分布,只要样本n足够大(n≥30),均值()标准化为(z)变量,必定服从标准正态分布,均值()则服从正态分布,即:x)]1(,[~)/,(~),1,0(~/22NnNnNXnNXNnX或x两个样本均值之差的抽样分布抽样抽样?21Axx21估计),,(2111NX),,(2222NX),(~)(2221212121nnNxx则(1)如:(2〕如果两个总体都是非正态总体,只要n1、n2足够大,根据中心极限定理,可知:),(~)(2221212121nnNxx)]1()1(,[(~)(2222221111212121NnNnNnNnNxx)]1()1(,[(~)(2222221111212121NnNnNnNnNxx样本成数(即比例)的抽样分布(简称成数的分布)抽样成数成数P=Ni/N所有可能的样本的成数()所形成的分布,称为样本成数的抽样分布。nnPi/ˆnPPPˆ,ˆ,ˆ21抽样方法均值方差标准差(1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样PnnEPEi)/()ˆ(PnnEPEi)/()ˆ(nPqP/2ˆ)1(2ˆNnNnPqPnPqPˆ)1(ˆNnNnPqP根据中心极限定理,只要样本足够大,的分布就近似正态分布。(np和nq大于5时)抽样误差抽样误差Pˆ两个样本成数之差的抽样分布抽样抽样估计当n1、n2都足够大时,样本成数都近似服从正态分布,两个样本成数之差()也近似服从正态分布。APP21ˆˆP1-P2=?),(~)ˆˆ()1(2221112121nqPnqPPPNPP)]1()1(,[~)ˆˆ()2(2222211111121212NnNnqPNnNnqPPPNPP21ˆ,ˆPP21ˆˆPP一个样本方差的抽样分布抽样若:从一个正态总体中抽样所得到的样本方差的分布),(~2NXn,S2则)1(~/)1(222nSn当分布趋近于正态分布2,30n)1(~2nxX若)1(222nZ则两个样本方差之比的抽样分布抽样从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布。),(~2111NXn1,S12则抽样),(~2222NXn2,S22)1)(1(~//2122222121nnFSSF参数估计点估计以样本指标直接估计总体参数。ˆ评价准则的数学期望等于总体参数,即ˆˆE该估计量称为无偏估计。无偏性有效性当为的无偏估计时,方差越小,无偏估计越有效。ˆ2)ˆ(Eˆ一致性对于无限总体,如果对任意0>0)|ˆ(|nnPLim则称的一致估计。ˆ是充分性一个估计量如能完全地包含未知参数信息,即为充分量估计量区间估计估计未知参数所在的可能的区间。评价准则随机区间置信度精确度随机区间1)ˆˆ(ULP<<)ˆ,ˆ(UL包含(即可靠程度)越大越好。的概率)ˆ,ˆ(UL的平均长度(误差范围)越小越好)ˆ,ˆ(LUE一般形式)ˆ()ˆ(△<<△△ˆ或总体参数估计值误差范围△:一定倍数的抽样误差nZx2△例如:抽样误差n/一定时,2Z越大,x△概率(可靠性)大;随之增大,精确度就差。抽样组织方式和参数的区间估计待估计参数已知条件置信区间△ˆ正态总体,σ2已知正态总体,σ2未知非正态总体,n≥30有限总体,n≥30(不放回抽样)总体均值(μ)nZX/2nZX/2nStXn/)1(212NnNnZXσ未知时,用Sσ未知时,用S222121221)(nnZXX)(21XX21)2(21121nnStpnn222121221)(nnZXX两个正态总体2221,已知两个正态总体2221,未知但相等两个非正态总体,n1,n2≥30两个总体均值之差μ1-μ2待估计参数已知条件置信区间△ˆ无限总体,np和nq都大于5总体成数(p)无限总体,N1P1>5,n1q1>5N2P2>5,n2q2>5两个总体成数之差(P1-P2)有限总体,np和nq都大于5nqPZPˆˆˆ21ˆˆˆ2NnNnqpZP222111221ˆˆˆˆ)ˆˆ(nqPnqPZPP有限总体,N1P1>5,n1q1>5N2P2>5,n2q2>51ˆˆ1ˆˆ)ˆˆ(222222111111221NnNnqPNnNnqPZPP样本数的确定待估计参数已知条件样本数的确定正态总体,σ2已知总体均值(μ)例:误差范围简单随机抽样2222xZn△有限总体,不放回抽样,σ2已知2222222ZNNZnx△2ˆ22pPqZn△PqZNPqNZnp222ˆ22△总体成数(P)服从正态分布有限总体,不放回抽样Pˆxx2ppˆ2ˆ待估计参数已知条件置信区间△ˆ正态总体总体方差两个正态总体两个总体方差之比)(22212222)1(,)1(SnSn2221/21222122221/,/FSSFSS待估计参数已知条件置信区间△ˆ有限总体不放回抽样(n等比例分配于各层)各层nh≥30总体均值(μ)有限总体不放回抽样(n等比例分配于各层)各层nh≥30总体成数(P)21222,)1()(),(hhLhststSNNSNnNnSXSXSZXhhhLhststqpNNNnNnPSPSZPˆˆ)1(1)ˆ()ˆ(ˆ122总体N1N2NLN121222L2L21n2nLn21S22S2LS1X2XLXLhhNN1LhhhNN1样本n2,SXstLhhnn1LhhhstXnnX1)(stXE均值:212hLhhNN212hLhhSnnS平均层内方差:)1()(2NnnSxSst)1(22NnnSZXst置信区间抽样误差估计待估计参数已知条件置信区间△ˆ有限总体不放回抽样,样本群数r足够大总体均值(μ)有限总体不放回抽样,样本群数r足够大总体成数(P)1)(1122rXXSRrRrSZXrribb--rRrRrPPPSPSZPi)-(11)ˆˆ()ˆ()ˆ(ˆ22总体群数RABCDEFGHIJKLMNOPLHPD样本群数rb2xbS2RiiR11riiXrX11)(XERiibR122)(1riibXXrS122)(1估计均值:群间方差:置信区间抽样误差)1()(2RrrSXSb)1(22RrrSZX待估计参数已知条件样本数的确定总体均值(μ)分层抽样总体均值(μ)整群抽样有限总体不放回抽样,等比例分配样本)()(2222222hhxhhNNZNNNNZn△22222222222)(11)(1xxrsXXRZRRZribibhxh△有限总体不放回抽样,服从正态分布Xxx21NnNnxNNNNhhhhh2222h未知用2hs未知用2b2bs