六西格玛系列培训之《假设检验》讲师:秦佳琪学习目标1.理解假设检验的基本思想和原理2.掌握假设检验的基本概念和流程3.用minitab进行假设检验检验红宝书第6章6.2假设检验Q1:理解假设检验的基本思想和原理某产品出厂检验规定:次品率p不超过4%才能出厂。现生产了一批产品共一万件,请问该如何判断这批产品能否出厂?10000件全部检查一遍!看次品有没有400个?抽20件吧!看这20件次品率有没有超过4%先抽样检测,然后对次品率和4%有没有显著差异,进行假设检验直立人解法:3/12=0.25>0.04不能出厂现代人解法:假设P≤4%,𝑃12(3)=𝐶123𝑝3(1−𝑝)9=0.00970.05不能出厂代入04.0p抽查12件产品,若结果发现3件次品,问能否出厂?0102直立人解法:1/12=0.083>0.04不能出厂现代人解法:假设P≤4%,𝑃12(1)=𝐶121𝑝1(1−𝑝)11=0.306>0.05能出厂代入04.0p抽查12件产品,若结果发现1件次品,问能否出厂?0102什么是假设检验?(hypothesistest)概念:先对总体的参数提出某种假设,然后利用样本信息判断假设是否成立的过程原理:逻辑上运用反证法,统计上依据小概率原理作用:运用统计学手段,从实际差异和抽样误差的权衡比较中,间接地推断实际差异是否存在Q2:掌握假设检验的基本概念和流程原假设和备择假设——掌握概念,能够正确建立假设假设检验的两类错误——了解假设检验犯错的可能统计量与拒绝域——了解相关概念含义,三种判定方式假设检验的分类——能够根据题意选择合适的检验方法原假设(nullhypothesis)1.是待检验的假设,又称“零假设”2.是研究者想收集证据予以反对的假设3.总是有符号=,≤或≥表示为H0•H0:μ=某一数值•指定为符号=,≤或≥•例如,H0:μ=10cm备择假设(alternativehypothesis)1.也称“对立假设”、“研究假设”2.是研究者想收集证据予以支持的假设3.总是有符号≠,<或>4.表示为H1•H1:μ<某一数值,或μ>某一数值•例如,H1:μ<10cm,或μ>10cm*原假设和备择假设相互对立,必须有一个是成立的,且只有一个成立。原假设•想要予以反对的•形式上带等号的•相等的•无差别的•不证自明的备择假设•想要予以支持的•形式上不带等号的•不相等的•有差别的•待证明的【例】一种零件的生产标准是直径应为10cm,为对生产过程进行控制,质量监测人员定期对一台加工机床检查,确定这台机床生产的零件是否符合标准要求。如果零件的平均直径大于或小于10cm,则表明生产过程不正常,必须进行调整。试陈述用来检验生产过程是否正常的原假设和备择假设。解:研究者想收集证据予以证明的假设应该是“生产过程不正常”。建立的原假设和备择假设为H0:10cmH1:10cm【例】某品牌洗涤剂在它的产品说明书中声称:平均净含量不少于500克。从消费者的利益出发,有关研究人员要通过抽检其中的一批产品来验证该产品制造商的说明是否属实。试陈述用来检验生产过程是否正常的原假设和备择假设。解:研究者抽检的意图是倾向于证实这种洗涤剂的平均净含量并不符合说明书中的陈述。建立的原假设和备择假设为H0:μ≥500H1:μ500500g【例】一家研究机构估计,某城市中家庭拥有汽车的比例超过30%。为验证这一估计是否正确,该研究机构随机抽取了一个样本进行检验。试陈述用来检验生产过程是否正常的原假设和备择假设。解:研究者想收集证据予以支持的假设是“该城市中家庭拥有汽车的比例超过30%”。建立的原假设和备择假设为H0:μ≤30%H1:μ>30%H0:无罪陪审团审判裁决实际情况无罪有罪无罪正确错误有罪错误正确H0检验决策实际情况H0为真H0为假接受H0正确决策(1–α)第Ⅱ类错误(β)拒绝H0第Ⅰ类错误(α)正确决策(1-β)假设检验就好像一场审判过程统计检验过程假设检验的两类错误第Ⅰ类错误(弃真错误)原假设为真时拒绝原假设第Ⅰ类错误的概率记为αα被称为显著性水平第Ⅱ类错误(取伪错误)原假设为假时未拒绝原假设第Ⅱ类错误的概率记为β1-β被称为检出力假设检验的两类错误你不能同时减少两类错误!α和β的关系就像翘翘板,α小β就大,α大β就小α错误和β错误的关系概念:根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量如何发挥作用的:它一定服从于某种分布,因此我们能够对其取值的概率进行研究标准化的检验统计量检验统计量(teststatistic)【例】原来的冷拉钢筋生产线上的钢筋平均抗拉强度是2000kg,标准差为300kg,调整参数改进后,抽取25根钢筋,平均抗拉强度为2150kg。能否断言平均抗拉强度有所提高?第一步,设立原假设和备择假设:第二步,选择检验统计量Z服从标准正态分布N(0,1)H0:μ≤2000,H1:μ>20000临界值拒绝域W样本统计量拒绝H0N(0,1)1-非拒绝域A置信水平观察到的样本统计量【例】原来的冷拉钢筋生产线上的钢筋平均抗拉强度是2000kg,标准差为300kg,调整参数改进后,抽取25根钢筋,平均抗拉强度为2150kg。能否断言平均抗拉强度有所提高?第三步,计算并作出决策①计算出Z=2.5>1.645,拒绝原假设②P=0.006<0.05,拒绝原假设③置信区间:样本均值2150的情况下,以95%的把握断言,总体的均值应该>2051.3,原假设的均值2000并未落入此置信区间,拒绝原假设抽样分布0临界值临界值/2/2样本统计量拒绝H0拒绝H01-置信水平双侧检验•能够拒绝原假设的检验统计量的所有可能取值的集合。•拒绝域W,非拒绝域A•由显著性水平α围成的区域。•如果检验统计量的具体数值落在了拒绝域内,就拒绝原假设,否则就不拒绝原假设。•根据给定的显著性水平确定的拒绝域的边界值,称为临界值。(查表所得)拒绝域决策规则——临界值1.给定显著性水平,查表得出相应的临界值z或z/2,t或t/22.将检验统计量的值与水平的临界值进行比较3.作出决策•双侧检验:I统计量I临界值,拒绝H0•左侧检验:统计量-临界值,拒绝H0•右侧检验:统计量临界值,拒绝H01.在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率•双侧检验为分布中两侧面积的总和2.反映实际观测到的数据与原假设H0之间不一致的程度3.被称为观察到的(或实测的)显著性水平4.决策规则:若p值,拒绝H0决策规则——P值置信区间何时拒绝H0双侧检验样本均值落在置信区间外左侧检验下限样本均值小于下限值右侧检验上限样本均值大于上限值决策规则——置信区间Z检验为例nznz2020,𝜇0−𝑧𝛼𝜎𝑛𝜇0+𝑧𝛼𝜎𝑛参数应用条件检验方法均值在总体标准差已知时,确定样本均值是否与指定值显著不同单样本Z在总体标准差未知时,确定样本均值是否与指定值显著不同单样本t确定两组数据的均值是否显著不同双样本t确定两组配对数据的均值是否显著不同配对t比率确定样本中观测到的事件比率是否与指定值显著不同单比率确定两个组的样本事件比率是否显著不同双比率方差确定样本的方差/标准差是否与指定值显著不同单方差2确定两个组的方差/标准差是否显著不同双方差F假设检验的分类假设检验的分类某机器制造出的肥皂厚度为5cm,今欲了解机器性能是否良好,随机抽取10块肥皂为样本,测得平均厚度为5.3cm,标准差为0.3cm,试以0.05的显著性水平检验机器性能良好的假设。单样本t检验假设检验的分类配对t检验一个以减肥为主要目标的健美俱乐部声称,参加其训练班至少可以使减肥者平均体重减重8.5kg以上。为了验证该宣称是否可信,调查人员随机抽取了10名参加者,得到他们的体重记录如下表:在α=0.05的显著性水平下,调查结果是否支持该俱乐部的声称?训练前94.5101110103.59788.596.5101104116.5训练后8589.5101.5968680.58793.593102假设检验的分类双比率检验对两个大型企业青年工人参加技术培训的情况进行调查,调查结果如下:甲厂:调查60人,18人参加技术培训。乙厂调查40人,14人参加技术培训。能否根据以上调查结果认为乙厂工人参加技术培训的人数比例高于甲厂?假设检验的分类双方差检验一家房地产开发公司准备购进一批灯泡,公司打算在两个供货商之间选择一家购买。这两家供货商生产的灯泡平均使用寿命差别不大,价格也很相近,考虑的主要因素就是灯泡使用寿命的方差大小。如果方差相同,就选择距离较近的一家供货商进货。为此,公司管理人员对两家供货商提供的样品进行了检测,得到的数据如右表。检验两家供货商灯泡使用寿命的方差是否有显著差异?两家供货商灯泡使用寿命数据样本1650569622630596637628706617624563580711480688723651569709632样本2568540596555496646607562589636529584681539617Q3:用minitab进行假设检验选择统计量判断数据形态进行假设检验计算比较P值例2017年和2019年,分别对当年平潮地区14岁女生的身高进行抽样调查,数据如下。问:相比17年,19年的女生身高有没有显著提升呢?平潮地区14岁女生身高样本序号17年19年114815721471583152171415116251591446158148715715281611549154171101511461114915512153145131601671415715615148157平均值153.7156.2153.7156.117年19年1、分析问题和数据类型,选择合适的检验统计量参数应用条件检验方法均值在总体标准差已知时,确定样本值是否与指定值显著不同单样本Z确定均值是否与指定值显著不同单样本t确定两组数据的均值是否显著不同双样本t确定两组配对数据的均值是否显著不同配对t比率确定样本中观测到的事件比率是否与指定值显著不同单比率确定两个组的样本事件比率是否显著不同双比率方差确定样本的方差/标准差是否与指定值显著不同单方差2确定两个组的方差/标准差是否显著不同双方差F2、判断数据的正态性和两组数据是否等方差①正态性检验【统计-基本统计量-正态性检验】2、判断数据的正态性和两组数据是否等方差①正态性检验【统计-基本统计量-正态性检验】P=0.3800.05P=0.4630.052、判断数据的正态性和两组数据是否等方差②等方差检验【统计-方差分析-等方差检验】19年17年10987654P值0.088P值0.250多重比较Levene检验等方差检验:17年,19年标准差的多重比较区间,α=0.05如果区间未重叠,则对应的标准差有显著的差异。2、判断数据的正态性和两组数据是否等方差②等方差检验【统计-方差分析-等方差检验】P=0.0880.053、进行假设检验计算【统计-基本统计量-双样本t检验】4、读取结果并作出判断P=0.2720.05,19年身高相比17年无显著差异。Minitab操作总结一选选择合适的二判判断数据是否和三算进行计算四比比较P值和的大小检验统计量正态等方差假设检验0.05课堂练习90735952808264755368818965685988838679779394716092675595从历史记录上得知,顺丰快递投送从北京到南通的快递,平均送达时间为80小时,标准差为14小时。现随机抽取了28份快递的送达时间记录如下表所示,请用minitab分析北京发到南通的快递平均送达时间是否已低于80小时?总结•基本思想(反证法、小概率)和概念(对总体参数做出假设,用样本信息进行检验)•原假设和备择假设(原假设是想要收集证据予以反对的假设)•两类错误(弃真错误和取伪错误)•检验统计量和拒绝域•三种决策规则(临界值法、P值法、置信区间法)•假设检验的分类(均值、比率、方差)