LeanSixSigmaTraining—ZeroCostCopyright六西格玛培训置信区间和假设检验LeanSixSigmaTraining—ZeroCostCopyright2学习目的介绍基本描述性统计,如:–总体、样本、总体参数、样本统计、样本均值、样本标准偏差显示如何将中心极限定理应用于样本均值分布介绍置信区间以表示样本统计中的不确定性以及如何计算某些普通情况的置信区间对假设检验进行概述熟悉假设检验术语使假设检验与其他统计工具相联系学会如何用Minitab进行假设检验LeanSixSigmaTraining—ZeroCostCopyright3我应当了解什么?计算置信区间以表示样本统计中的不确定性,以及能计算普通情况的置信度了解置信区间随着样本规模改变而改变了解统计检验、检验统计和显著性水平的基础学习有关假设检验使我们能:–正确处理不确定性–更加客观–证实或否定假设–控制做出错误决策或结论的风险–如何设置和说明统计检验LeanSixSigmaTraining—ZeroCostCopyright4问题:为什么这么多分布是正态?为什么这么复杂的东西如此的普遍?μσσσσσσ222)(21)(xexP?LeanSixSigmaTraining—ZeroCostCopyright5总体参数对比样本统计总体的统计参数:均值与标准偏差总体的统计参数:均值与标准偏差xs11,xs22,xs33,xs44,,总体随机抽样,样本量=4xs11,xs22,xs33,xs44,,LeanSixSigmaTraining—ZeroCostCopyright6样本变动例子计算随机数据均匀LeanSixSigmaTraining—ZeroCostCopyright7样本变动例子均匀分布中设n=2500产生25个样本并存入C1-C25栏中。LeanSixSigmaTraining—ZeroCostCopyright8样本变动例子计算行统计量LeanSixSigmaTraining—ZeroCostCopyright9样本变动例子C1-C25均值统计存入C26栏中LeanSixSigmaTraining—ZeroCostCopyright10样本变动例子统计基本统计量显示描述性统计LeanSixSigmaTraining—ZeroCostCopyright11样本变动例子在C1和C25栏中选择若干栏,并同时选择均值统计栏C26。LeanSixSigmaTraining—ZeroCostCopyright12样本变动例子例如,C1-C25中的一个栏。LeanSixSigmaTraining—ZeroCostCopyright13样本变动例子C1-C25均值栏LeanSixSigmaTraining—ZeroCostCopyright14样本统计估计总体参数:样本均值的变动性vs.总体的变动性nnn===135][)ˆ,ˆ(),(][),,(),,(),(2211推论总体估计值样本取样样本总体sxsxsxnxx均值的变动性LeanSixSigmaTraining—ZeroCostCopyright15如果:x1,x2,…,xn是来自总体的独立衡量值,(即,随机样本规模为n),其中X的均值是,X的标准偏差是,那么:分布的均值和标准偏差由下列公式给出:nXX和nXXXnX21中心极限定理当n足够大时,那么X的分布大致是正态的(“钟形曲线”)LeanSixSigmaTraining—ZeroCostCopyright16回到样本变动例子s=0.29LeanSixSigmaTraining—ZeroCostCopyright17样本变动例子S/n=0.286/25=0.286/5=0.057LeanSixSigmaTraining—ZeroCostCopyright18中心极限定理该定理主要用于确定总体均值的合理值,因为假设是正态,它被应用于统计和质量控制的许多方面当进行平均值(置信区间、假设检验、ANOVA、控制图等)的统计检验时,中心极限定理有助于我们满足正态假设。样本规模越大,我们对正态担心越小LeanSixSigmaTraining—ZeroCostCopyright19经允许重印自Schmidt和Berdine的《基本统计学》(1997年)不管总体总体的形状如何,X-bar样本分布很快接近正态分布经验之谈若总体是正态,X-bar对任何样本规模来说都是正态的。若总体至少是对称的,5~20个样本规模应当是可行的。较坏的情况是:不管总体离正态多远,样本规模30个应足以使X-bar接近正态。样本量指南(a)Normal(b)Uniform(c)Exponential(d)ParabolicParentPopulationSamplingDistributionsofxforn=2SamplingDistributionsofxforn=5SamplingDistributionsofxforn=30(a)Normal(b)Uniform(c)Exponential(d)ParabolicParentPopulationSamplingDistributionsofxforn=2SamplingDistributionsofxforn=5SamplingDistributionsofxforn=30LeanSixSigmaTraining—ZeroCostCopyright20总体对比样本样本量通常较小,总体的标准偏差()经常是未知数我们可以用样本标准偏差(S)取代总体标准偏差()为了使我们的分析更加保守,我们使用t-分布而不是正态分布当样本规模较大时,结果是相同的LeanSixSigmaTraining—ZeroCostCopyright21新车假设得到一份新工作,作为付出,您决定购买一辆用了一年的HondaCivic车,以节省汽油钱。以前的车主保留了原来的标签,您很高兴地看到,在该标签上美国环保暑估计该车每加仑汽油能行驶31英里。购买该车后,您立刻将油箱加满,打算全家驱车外出并在第二天上班去。几天后,您再次加满油箱,并计算油箱中的汽油能行驶的英里数。按计算器上的“=”号,显示只有27.1。LeanSixSigmaTraining—ZeroCostCopyright22新车是否将车送到机工那儿检查问题?是否得出结论美国环保暑的估计只不过是错误?是否在代理商应答机上留下难堪的留言?结论是什么?LeanSixSigmaTraining—ZeroCostCopyright23新车您可能想知道两件事情中的一件:–那辆车正常的每加仑汽油行驶英里数是多少。(置信区间)–您所经历的每加仑汽油行驶英里是否正常。(假设检验)LeanSixSigmaTraining—ZeroCostCopyright24新车s=3.46该车每加仑汽油行驶英里数的分布12.8%假如我们知道这个?LeanSixSigmaTraining—ZeroCostCopyright25新车当想知道汽车正常的每加仑汽油行驶英里数范围,以及该范围是否包括代理商声称的每加仑汽油行驶英里数时,可以用下面解释的“置信区间”。LeanSixSigmaTraining—ZeroCostCopyright26估计值±误差范围样本统计±[___X___]置信因子可变动性衡量例如x,s置信区间一般有叠加的不确定性:在有些情况下,不确定性是不对称的(叠加的),如。什么是置信区间?LeanSixSigmaTraining—ZeroCostCopyright27为何需要置信区间?统计,例如均值和标准偏差,只是总体均值()和标准偏差()的估计值,而且是基于有限的数据。因为不同的样本中估计值不尽相同,我们可以用统计学的置信区间来量化不确定性。置信区间为总体参数(和)提供了似真值范围。LeanSixSigmaTraining—ZeroCostCopyright28为何需要置信区间?置信区间会考虑在估计总体或过程数中的随机误差。一般我们计算95%置信区间。这就是说:–我们95%肯定真正的总体参数(如,或)是在我们计算区间内。–换言之,我们用于计算置信区间的样本有95%的可能会给我们一个包括真正总体参数的区间。LeanSixSigmaTraining—ZeroCostCopyright29nstxμnstx1nα/2,1nα/2,nstx1nα/2,或在未知标准偏差情况下均值的置信区间要记住非常重要的一点是,在许多情况下我们并不知道总体标准偏差。我们通常依靠样本来估计均值和标准偏差。样本规模小于100时,最好使用稍后解释的t分布。再次强调,在许多情况下,真正总体未知,所以我们用样本估计值(s)。在这种情况下,置信区间变成:LeanSixSigmaTraining—ZeroCostCopyright30例如炼油厂顾客期望平均每桶石油为55.0加仑。您决定随机取20桶样本来确定实际平均数。在20桶样本中,发现样本均值x等于54.860加仑,标准偏差s是1.008加仑。实际数据如下:54.1,53.3,56.1,55.7,54.0,54.1,54.5,57.1,55.2,53.8,54.1,54.1,56.1,55.0,55.9,56.0,54.9,54.3,53.9,55.0对于每桶石油的真正均值来说,95%的置信区间是什么?在未知标准偏差情况下均值的置信区间LeanSixSigmaTraining—ZeroCostCopyright31用Minitab计算置信区间练习:文档HT&CI工作表炼油LeanSixSigmaTraining—ZeroCostCopyright32用Minitab计算置信区间现在选择:统计基本统计量图形化汇总LeanSixSigmaTraining—ZeroCostCopyright33用Minitab计算置信区间的95%置信区间:54.388255.3318的95%置信区间:0.76661.4724在95%置信情况下,实际均值介于54.3882和55.3318之间。有5%的机会不在此范围在95%置信情况下,实际均值介于54.3882和55.3318之间。有5%的机会不在此范围LeanSixSigmaTraining—ZeroCostCopyright34练习让我们观察一个正态分布的总体,–已知均值=65–标准偏差=4–这些来自数据集置信区间班上每名成员从总体(在Minitab中,用计算随机数据来自列的样本)中随机抽取25个数据点从C1中抽取25个数据行并将结果存入C2中以25个样本数据点为基础,运用图形描述性统计计算均值和sigma的95%置信区间。它们是否包括均值65和sigma4?如果班级人数为25,我们预计一个置信区间不包括均值65,也不包括sigma4。LeanSixSigmaTraining—ZeroCostCopyright35置信区间的灵敏度变量(2或S2)样本量(n)置信水平(1-)置信区间??????LeanSixSigmaTraining—ZeroCostCopyright36回到新车当您想知道所遇到的每加仑汽油行驶英里数是否如他们开始所宣称那样具有代表性时,可以采用以下将说明的“假设检验”。LeanSixSigmaTraining—ZeroCostCopyright37应用实例生产-A双目镜透镜厂商启动第二条生产线以生产特定型号的透镜。公司要确认两条生产线生产的透镜是相同的,使得它们可以互换,同时不致于引起图象变形。交易-订单输入部经理想比较两种订单输入步骤,以确定是否有一种比较快些。设计-A设计师想比较两种样机,以确定是否有重大性能差别。LeanSixSigmaTraining—ZeroC