1第七章假设检验2机动目录上页下页返回结束第七章假设检验•假设检验的一般理论•正态总体均值与方差的假设检验•分布拟合检验•置信区间与假设检验之间的关系3机动目录上页下页返回结束有许多实际问题,需要通过部分信息量,对某种看法进行判定或估计.例7.1某企业生产一种零件,以往的资料显示零件平均长度为4cm,标准差为0.1cm.工艺改革后,抽查100个零件发现其平均长度为3.94cm.问:工艺改革后零件长度是否发生了显著变化?•假设检验问题的提出4机动目录上页下页返回结束例7.2某厂某天共生产了200件产品,按国家标准,次品率不得超过3%才能出厂.现从该批产品中随机抽取10件,发现其中有2件次品,问这批产品能否出厂.例7.1要判断工艺改革后零件平均长度是否仍为4cm;例7.2要判断该批产品的次品率是否低于3%.进行这种判断的信息来自所抽取的样本这两个例子中都是要对某种“陈述”做出判断:5机动目录上页下页返回结束在本节中,我们将讨论不同于参数估计的另一类重要的统计推断问题.这就是根据样本的信息检验关于总体的某个假设是否正确.这类问题称作假设检验问题.所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设.6机动目录上页下页返回结束假设检验参数假设检验总体分布已知,检验关于未知参数的某个假设非参数假设检验总体分布未知时的假设检验问题7机动目录上页下页返回结束把每一罐都打开倒入量杯,看看容量是否合于标准.这样做显然不行!生产流水线上罐装可乐不断地封装,然后装箱外运.怎么知道这批罐装可乐的容量是否合格呢?例7.3罐装可乐的容量按标准应在350毫升和360毫升之间.7.1假设检验的一般理论8机动目录上页下页返回结束如每隔1小时,抽查5罐,得5个容量的值x1,…,x5,根据这些值来判断生产是否正常.每隔一定时间,抽查若干罐.如发现不正常,就应停产,找出原因,排除故障,然后再生产;如没有问题,就继续按规定时间再抽样,以此监督生产,保证质量.通常的办法是进行抽样检查.9机动目录上页下页返回结束很明显,不能由5罐容量的数据,在把握不大的情况下就判断生产不正常,因为停产的损失是很大的.当然也不能总认为正常,有了问题不能及时发现,这也要造成损失.如何处理这两者的关系,假设检验面对的就是这种矛盾.10机动目录上页下页返回结束在正常生产条件下,由于种种随机因素的影响,每罐可乐的容量应在355毫升上下波动.这些因素中没有哪一个占有特殊重要的地位.因此,根据中心极限定理,假定每罐容量服从正态分布是合理的.罐装可乐的容量按标准应在350毫升和360毫升之间.11机动目录上页下页返回结束它的对立假设是:称H0为原假设(或零假设,解消假设);称H1为备选假设(或对立假设).在实际工作中,往往把不轻易否定的命题作为原假设.0H0:(=355)0H1:0这样,我们可以认为X1,…,X5是取自正态总体的样本,当生产比较稳定时,),(2N是一个常数.2现在要检验的假设是:12机动目录上页下页返回结束那么,如何判断原假设H0是否成立呢?较大、较小是一个相对的概念,合理的界限在何处?应由什么原则来确定?由于是正态分布的期望值,它的估计量是样本均值,因此可以根据与的差距XX0来判断H0是否成立.0||X较小时,可以认为H0是成立的;当0||X生产已不正常.当较大时,应认为H0不成立,即0||X13机动目录上页下页返回结束问题归结为对差异作定量的分析,以确定其性质.差异可能是由抽样的随机性引起的,称为“抽样误差”或随机误差.这种误差反映偶然、非本质的因素所引起的随机波动.14机动目录上页下页返回结束然而,这种随机性的波动是有一定限度的,如果差异超过了这个限度,则我们就不能用抽样的随机性来解释了.必须认为这个差异反映了事物的本质差别,即反映了生产已不正常.这种差异称作“系统误差”.15机动目录上页下页返回结束问题是,根据所观察到的差异,如何判断它究竟是由于偶然性在起作用,还是生产确实不正常?即差异是“抽样误差”还是“系统误差”所引起的?这里需要给出一个量的界限.问题是:如何给出这个量的界限?这里用到人们在实践中普遍采用的一个原则:小概率事件在一次试验中基本上不会发生.16机动目录上页下页返回结束小概率事件在一次试验中基本上不会发生.下面我们用一例说明这个原则.这里有两个盒子,各装有100个球.99个白球一个红球…99个…99个99个红球一个白球17机动目录上页下页返回结束现从两盒中随机取出一个盒子,问这个盒子里是白球99个还是红球99个?小概率事件在一次试验中基本上不会发生.18机动目录上页下页返回结束现在我们从中随机摸出一个球,发现是此时你如何判断这个假设是否成立呢?小概率事件在一次试验中基本上不会发生.我们不妨先假设:这个盒子里有99个白球.…99个19机动目录上页下页返回结束假设其中真有99个白球,摸出红球的概率只有1/100,这是小概率事件.这个例子中所使用的推理方法,可以称为小概率事件在一次试验中竟然发生了,不能不使人怀疑所作的假设.带概率性质的反证法小概率事件在一次试验中基本上不会发生.…99个20机动目录上页下页返回结束概率反证法它不同于一般的反证法概率反证法的逻辑是:如果小概率事件在一次试验中居然发生,我们就以很大的把握否定原假设.一般的反证法要求在原假设成立的条件下导出的结论是绝对成立的,如果事实与之矛盾,则完全绝对地否定原假设.21机动目录上页下页返回结束现在回到我们前面罐装可乐的例中:在提出原假设H0后,如何作出接受和拒绝H0的结论呢?在假设检验中,我们称这个小概率为显著性水平,用表示.的选择要根据实际情况而定.常取0.1,0.01,0.05.22机动目录上页下页返回结束罐装可乐的容量按标准应在350毫升和360毫升之间.一批可乐出厂前应进行抽样检查,现抽查了n罐,测得容量为X1,X2,…,Xn,问这一批可乐的容量是否合格?23机动目录上页下页返回结束提出假设选检验统计量0XZn~N(0,1)2{||}PZzH0:=355H1:≠355由于已知,它能衡量差异大小且分布已知.||0X对给定的显著性水平,可以在N(0,1)表中查到分位点的值,使2z24机动目录上页下页返回结束故我们可以取拒绝域为:也就是说,“2||Zz”是一个小概率事件.C:2||Zz如果由样本值算得该统计量的实测值落入区域C,则拒绝H0;否则,不能拒绝H0.2{||}PZz2z2z~(0,1)ZN()fzz25机动目录上页下页返回结束这里所依据的逻辑是:如果H0是对的,那么衡量差异大小的某个统计量落入区域C(拒绝域)是个小概率事件.如果该统计量的实测值落入C,也就是说,H0成立下的小概率事件发生了,那么就认为H0不可信而否定它.否则我们就不能否定H0(只好接受它).不否定H0并不是肯定H0一定对,而只是说差异还不够显著,还没有达到足以否定H0的程度.所以假设检验又叫“显著性检验”.26机动目录上页下页返回结束如果显著性水平取得很小,则拒绝域也会比较小.其产生的后果是:H0难于被拒绝.如果在很小的情况下H0仍被拒绝了,则说明实际情况很可能与之有显著差异.2z2z~(0,1)ZN()fzz27机动目录上页下页返回结束基于这个理由,人们常把时拒绝H0称为是显著的,而把在时拒绝H0称为是高度显著的.01.005.02z2z~(0,1)ZN()fzz28机动目录上页下页返回结束例7.4某工厂生产的一种螺钉,标准要求长度是32.5毫米.实际生产的产品,其长度X假定服从正态分布未知,现从该厂生产的一批产品中抽取6件,得尺寸数据如下:2(,),N232.56,29.66,31.64,30.00,31.87,31.03问这批产品是否合格?…下面,我们结合另一个例子,进一步说明假设检验的一般步骤.29机动目录上页下页返回结束提出原假设和备择假设01:32.5:32.5HH第一步:能衡量差异大小且分布已知32.5~(5)6XttS第二步:取一检验统计量,在H0成立下求出它的分布已知未知22~(,),XN分析:这批产品(螺钉长度)的全体组成问题的总体.现在要检验是否为32.5.X()EX30机动目录上页下页返回结束即是一个小概率事件.2||(5)tt第三步:对给定的显著性水平,查表确定临界值0.0120.005(5)(5)4.0322tt,使2{||(5)}Ptt得否定域(拒绝域)C:|t|4.0322故不能拒绝H0.第四步:将样本值代入,算出统计量t的实测值|t|=2.9974.0322没有落入拒绝域31机动目录上页下页返回结束假设检验会不会犯错误呢?由于作出结论的依据是小概率原理:小概率事件在一次试验中基本上不会发生.不是一定不发生32机动目录上页下页返回结束如果H0成立,但统计量的实测值落入否定域,从而作出否定H0的结论,那就犯了“以真为假”的错误.如果H0不成立,但统计量的实测值未落入否定域,从而没有作出否定H0的结论,即接受了错误的H0,那就犯了“以假为真”的错误.33机动目录上页下页返回结束•假设检验的两类错误H0为真实际情况决定拒绝H0接受H0H0不真第一类错误正确正确第二类错误34机动目录上页下页返回结束两类错误是互相关联的,当样本容量固定时,一类错误概率的减少导致另一类错误概率的增加.要同时降低两类错误的概率,或者要在不变的条件下降低,或者需要增加样本容量.,•犯两类错误的概率显著性水平为犯第一类错误的概率.P{拒绝H0|H0为真}=,P{接受H0|H0不真}=.35机动目录上页下页返回结束例:某厂生产的螺钉,标准强度为68克/mm2,而实际生产的螺钉强度X服从,若,则认为这批螺钉符合要求,否则认为不符合要求.为此提出如下假设:2(,3.6)N68EX0010:68,:HH现从该厂生产的螺钉中抽取容量为36的样本,其样本均值为,问原假设是否正确?5.68x0.0536机动目录上页下页返回结束若原假设正确,则23.6~(68,)36XN2681.963.66XPz拒绝域为69.1866.824XorX5.68x落入接受域,则接受原假设.37机动目录上页下页返回结束犯第一类错误的概率=P(拒绝H0|H0为真)若H0为真,则)366.3,68(~2NX所以,拒绝H0的概率为,又称为显著性水平,越大,犯第一类错误的概率越大,即越显著.(69.18)(66.824)PXX38机动目录上页下页返回结束H0不真,即68,可能小于68,也可能大于68,的大小取决于的真值的大小.)366.3,66(~2NX0853.09147.01)37.1()3.5(设=66,n=36,犯第二类错误的概率=P(接受H0|H0不真)6.06682.666.06618.69)6618.6982.66(66XP39机动目录上页下页返回结束若=69,n=36,)366.3,69(~2NX6177.00002.06179.0)63.3()3.0(6.06982.666.06918.69)6918.6982.66(69XP取伪的概率较大.40机动目录上页下页返回结束6062.56567.57072.5750.020.040.060.080.10.1267.57072.57577.58082.50.020.040.060.080.10.12/2/2H0真H0不真41机动目录上页下页返回结束仍取=0.05,则96.1025.02zzc681.963.68X由可以确定拒绝域为(,6