第五章参数估计和假设检验推断统计:利用样本统计量对总体某些性质或数量特征进行推断。随机原则总体参数统计量推断估计参数估计检验假设检验抽样分布抽样分布简单随机抽样和简单随机样本的性质不放回放回放回不放回独立性和同一性同一性当n/N≤5%时,有限总体不放回抽样等同于放回抽样统计量与抽样分布•统计量:即样本指标。样本均值样本成数样本方差如:nXXinnPiˆ22)(11XXnSi•抽样分布:某一统计量所有可能的样本的取值形成的分布。性质数字特征0≤P(Xi)1∑P(Xi)=1均值E(X)方差E[x-E(x)]2方差的平方根即抽样分布的标准差就是推断的抽样误差。样本均值的抽样分布(简称均值的分布)抽样均值均值μ=∑Xi/NnxXi样本均值是样本的函数,故样本均值是一个统计量,统计量是一个随机变量,样本均值的概率分布称为样本均值的抽样分布。抽样方法均值方差标准差(1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样xxE)(xxE)(nx22)1(22NnNnxnx1NnNnx即均值推断的抽样误差和,12NnNnnxx抽样误差抽样误差从正态总体中抽样得到的均值的分布也服从正态分布。从非正态总体中抽样得到的均值的分布呢?中心极限定理:无论总体为何种分布,只要样本n足够大(n≥30),均值()标准化为(z)变量,必定服从标准正态分布,均值()则服从正态分布,即:x)]1(,[~)/,(~),1,0(~/22NnNnNXnNXNnX或关于均值的抽样分布有如下的一些结论:1.对于多数总体分布来说,不论其形态如何,如果样本观察值超过30个,那么均值的抽样分布将近似于正态分布。2.如果总体分布是明显对称的,那么只要样本观察值超过15个,均值的抽样分布也近似于正态分布。3.如果总体是正态分布的,则不管样本大小如何,均值的抽样分布一定是正态分布的。x两个样本均值之差的抽样分布抽样抽样?21Axx21估计),,(2111NX),,(2222NX),(~)(2221212121nnNxx则(1)如:(2〕如果两个总体都是非正态总体,只要n1、n2足够大,根据中心极限定理,可知:),(~)(2221212121nnNxx)]1()1(,[(~)(2222221111212121NnNnNnNnNxx)]1()1(,[(~)(2222221111212121NnNnNnNnNxx样本成数(即比例)的抽样分布(简称成数的分布)抽样成数成数P=Ni/N所有可能的样本的成数()所形成的分布,称为样本成数的抽样分布。nnPi/ˆnPPPˆ,ˆ,ˆ21抽样方法均值方差标准差(1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样PnnEPEi)/()ˆ(PnnEPEi)/()ˆ(nPqP/2ˆ)1(2ˆNnNnPqPnPqPˆ)1(ˆNnNnPqP根据中心极限定理,只要样本足够大,的分布就近似正态分布。(np和nq大于5时)抽样误差抽样误差Pˆ两个样本成数之差的抽样分布抽样抽样估计当n1、n2都足够大时,样本成数都近似服从正态分布,两个样本成数之差()也近似服从正态分布。APP21ˆˆP1-P2=?),(~)ˆˆ()1(2221112121nqPnqPPPNPP)]1()1(,[~)ˆˆ()2(2222211111121212NnNnqPNnNnqPPPNPP21ˆ,ˆPP21ˆˆPP一个样本方差的抽样分布抽样若:从一个正态总体中抽样所得到的样本方差的分布),(~2NXn,S2则)1(~/)1(222nSn当分布趋近于正态分布2,30n)1(~2nxX若)1(222nZ则两个样本方差之比的抽样分布抽样从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布。),(~2111NXn1,S12则抽样),(~2222NXn2,S22)1)(1(~//2122222121nnFSSF参数估计点估计以样本指标直接估计总体参数。ˆ评价准则的数学期望等于总体参数,即ˆE该估计量称为无偏估计。无偏性有效性当为的无偏估计时,方差越小,无偏估计越有效。2)ˆ(Eˆ一致性对于无限总体,如果对任意满足条件0>0)|ˆ(|nnPLim则称的一致估计。是充分性一个估计量如能完全地包含未知参数信息,即为充分量估计量ˆˆˆ点估计常用的求点估计量的方法1.数字特征法:当样本容量增大时,用样本的数字特征去估计总体的数字特征。XXniin1221211SnXXiin例如,我们可以用样本平均数(或成数)和样本方差来估计总体的均值(或比率)和方差。2.顺序统计量法:如果把取得的样本观测值按大小排列起来,那么与排列位置有关的统计量就称为顺序统计量。常用的顺序统计量有样本中位数和极差。当总体服从正态分布时,用样本中位数来估计总体的数学期望:emˆ3.极大似然估计法:极大似然估计是根据样本的似然函数对总体参数进行估计的一种方法。其实质就是根据样本观测值发生的可能性达到最大这一原则来选取未知参数的估计量θ,其理论依据就是概率最大的事件最可能出现。区间估计估计未知参数所在的可能的区间。评价准则随机区间置信度精确度随机区间1)ˆˆ(ULP<<)ˆ,ˆ(UL包含(即可靠程度)越大越好。的概率)ˆ,ˆ(UL的平均长度(误差范围)越小越好)ˆ,ˆ(LUE一般形式)ˆ()ˆ(△<<△△ˆ或总体参数估计值误差范围△:一定倍数的抽样误差nZx2△例如:抽样误差n/一定时,2Z越大,x△概率(可靠性)大;随之增大,精确度就差。参数的区间估计待估计参数已知条件置信区间△ˆ正态总体,σ2已知正态总体,σ2未知非正态总体,n≥30有限总体,n≥30(不放回抽样)总体均值(μ)nZX/2nZX/2nStXn/)1(212NnNnZXσ未知时,用Sσ未知时,用S222121221)(nnZXX)(21XX21)2(21121nnStpnn222121221)(nnZXX两个正态总体2221,已知两个正态总体2221,未知但相等两个非正态总体,n1,n2≥30两个总体均值之差μ1-μ2待估计参数已知条件置信区间△ˆ无限总体,np和nq都大于5总体成数(p)无限总体,n1p1>5,n1q1>5n2p2>5,n2q2>5两个总体成数之差(P1-P2)有限总体,np和nq都大于5nqPZPˆˆˆ21ˆˆˆ2NnNnqpZP222111221ˆˆˆˆ)ˆˆ(nqPnqPZPP有限总体,1ˆˆ1ˆˆ)ˆˆ(222222111111221NnNnqPNnNnqPZPPn1p1>5,n1q1>5n2p2>5,n2q2>5待估计参数已知条件置信区间△ˆ正态总体总体方差两个正态总体两个总体方差之比)(22212222)1(,)1(SnSn2221/21222122221/,/FSSFSS样本数的确定待估计参数已知条件样本数的确定正态总体,σ2已知总体均值(μ)例:误差范围简单随机抽样2222xZn△有限总体,不放回抽样,σ2已知2222222ZNNZnx△2ˆ22pPqZn△PqZNPqNZnp222ˆ22△总体成数(P)服从正态分布有限总体,不放回抽样Pˆxx2ppˆ2ˆ假设检验基本思想检验规则检验步骤常见的假设检验方差分析基本思想•小概率原理:如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。总体(某种假设)抽样样本(观察结果)检验(接受)(拒绝)小概率事件未发生小概率事件发生•假设的形式:H0——原假设,H1——备择假设双侧检验:H0:μ=μ0,H1:μ≠μ0单侧检验:H0:μ=μ0,H1:μ<μ0H0:μ=μ0,H1:μ>μ0假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。检验规则•确定检验规则检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝H0;反之,差异不显著,接受H0差异临界点||0X<||0X拒绝H0接受H0cc判断•两类错误接受或拒绝H0,都可能犯错误I类错误——弃真错误,发生的概率为αII类错误——取伪错误,发生的概率为β检验决策H0为真H0非真拒绝H0犯I类错误(α)正确接受H0正确犯II类错误(β)怎样确定c?α大β就小,α小β就大基本原则:力求在控制α前提下减少βα——显著性水平,取值:0.1,0.05,0.01,等。如果犯I类错误损失更大,为减少损失,α值取小;如果犯II类错误损失更,α值取大。确定α,就确定了临界点c。①设有总体:X~N(μ,σ2),σ2已知。②随机抽样:样本均值),(~2nNX③X标准化:)1,0(~NnXZ④确定α值,⑤查概率表,知临界值||2Z⑥计算Z值,作出判断2Z2Z0接受区拒绝区拒绝区当检验判断为接受原假设H0时,就有可能犯取伪的错误即II类错误。确定犯第Ⅱ类错误的概率β比较困难,具体计算可根据书上的例子。统计上把称为统计检验的势,它是原假设实际上是错误的应该被拒绝的概率。II类错误的概率β的计算1检验步骤根据具体问题的要求,建立总体假设H0,H112选择统计量确定H0为真时的抽样分布3给定显著性水平α,当原假设H0为真时,求出临界值。计算检验统计量的数值与临界值比较4几种常见的假设检验条件检验条件量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ022z(2)H0:μ=μ0H1:μ>μ0(3)H0:μ=μ0H1:μ<μz0z0nxZ0正态总体σ2已知2Z2ZZZ2Z条件检验条件量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ022t(2)H0:μ=μ0H1:μ>μ0(3)H0:μ=μ0H1:μ<μt0t0nsxt02t2t0正态总体σ2未知(n<30)tt条件检验条件量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ022z(2)H0:μ=μ0H1:μ>μ0(3)H0:μ=μ0H1:μ<μz0z02Z2Z0nxZ0nSxZ0非正态总体n≥30σ2已知或未知ZZ条件检验条件量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ222z(2)H0:μ1=μ2H1:μ1>μ2(3)H0:μ1=μ2H1:μ1<μ2z0z02Z2Z022212121nnxxZ两个正态总体2122,已知ZZ条件检验条件量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ222t(2)H0:μ1=μ2H1:μ1>μ2(3)H0:μ1=μ2H1:μ1<μ2t0t02t2t0两个正态总体2122,未知,但相等2)1()1(21222211nnSnSnSptt212111nnsxxtp条件检验条件量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ222(2)H0:μ1=μ2H1:μ1>μ2(3)H0:μ1=μ2H1:μ1<μ20z02Z2Z0两个非正态体n1≥30n2≥302122,已知或未知22212121nnxxZ22212121nSnSxxZzzZZ条件检验条件