六西格玛统计工具介绍(二)——2014年2月2精益六西格玛理论体系全景图客户流程描述控制计划测量系统控制过程能力分析多变量分析实验设计VoC分析失效模式分析流程图(I/O)因果矩阵统计过程控制定性分析定量分析头脑风暴+KJ失效树鱼骨图Why-Why分析PFMEA对标分析访谈现场调研流程观察……回归分析软件使用项目管理精益六西格玛意识统计基础精益工具基本图表精益六西格玛持续改进体系精益六西格玛推行综合管理3课程大纲假设检验概述相关与回归4统计基础-数据类型计数型数据(离散型数据,属性型数据):通常表示事物的分类−不良品数量/不良率−缺陷品数量/缺陷率−机器A,机器B,机器C−白班/中班/夜班计量型数据(连续型数据):通常是通过测量仪器测量得到的数据−压力−时间−长度−重量5目录假设检验相关基础概念−总体参数及样本统计量−推定−置信区间假设检验介绍−目的与意义−假设检验概念介绍−假设检验原理−假设检验步骤−假设检验常见路径−双样本T与配对T的区别讨论及问答6假设检验相关基础概念总体参数与样本统计量s=样本标准差X=样本平均值参数估计统计量=总体平均值=总体标准差抽样(Sampling)AABDDDCCCCBAAAAAAABBBBBBCCCCCCDDDDDDD总体标本7估计的概念点估计:通过抽样用一个具体的值估计总体的参数−举例:通过抽样调查中秋月饼的保质期是3个月−点估计的种类:平均的估计、标准差、方差的估计、比率的估计等区间估计:通过抽样用一个具体的值估计总体的参数−举例:通过抽样调查中秋的月饼的保质期是1-6个月8置信区间置信区间的概念(ConfidenceInterval)−误差是α,相同样本量的样本重复抽样测量样本中存在实际总体参数的可能性的区间,即100(1-α)%置信水平(ConfidenceLevel)−是指区间估计时,能够包含总体参数的能力水平,即1-α。05.0z05.0z%90%5%5%1525.0z25.0z%50%25%25=0.5(50%)=0.1(10%)信赖水准信赖区间误差9置信区间90%的置信区间举例如下图−如下图总体平均为μ,连续抽取10个样本,其中有一个样本不包含总体平均95%置信区间的解释:−大约100个置信区间中有95个会包含总体参数,或者−我们有95%的把握确定总体参数在置信区间内−通常我们计算95%的置信区间总体的平均样本1样本2••••••样本10μ10置信区间置信区间的计算−通用公式:•置信区间C.I.=统计量±K*S(标准偏差)•统计量=平均值、方差、Cp等•K=统计分布常数−正态分布的置信区间公式(σ知道的时候):−样本的置信区间公式(σ不知道,只能计算S):•样本的平均遵循t分布nZX2/nStXn1,2/11置信区间Minitab中置信区间的计算这些都可以计算出置信区间12假设检验假设检验的目的−假设检验是对差异较小的情形进行差异性比较,从而通过数据作出客观的判断。−是为了解决选择的困难性假设检验的意义−用统计的方法,通过数据进行客观的判断−把我决策的风险,提高决策水准−假设检验是我们政府部门最需要的工具之一。13假设检验假设检验的概念−对观测的样本资料分析后对总体差异的估计−是作出选择与否判断的统计性方法假设检验术语−假设设定:对要进行判断的情况进行假设设定•H0-NullHypothesis:说明没有变化或者差异的设定•Ha-AlternativeHypothesis:说明有变化或者差异的设定假设设定练习:−为了确认小学生男女身高是否有差异−为了确认小学生男生比女生高−为了确认小学生身高和性别是否有相关性14假设检验假设检验的种类−单边检验One-sidedhypothesis−双边检验Two-sidedhypothesis15假设检验的两种错误−第1种错误(TypeⅠError,α-风险)•不顾NullHypothesis真实.NullHypothesis放弃的错误•把良品判断为不良的时候(误判)•既,可以说生产者危险•1-α就是置信区间−第2种错误(TypeⅡError,β-风险):•不顾NullHypothesis假的.NullHypothesis接受的错误•不良品当成良品的时候(漏失)•即,可以说顾客危险•1-β是检定力,即检出能力16假设检验的两种错误说明你的判定接受Ho真实情况Ho对Ho错I类错误(α-风险)II类错误(β-风险)正确正确拒绝Ho17假设检验的两种错误举例陪审团的判决他无罪事实实际清白他有罪实际有罪正确正确清白的人进监狱罪犯逍遥法外I类错误(α-风险)后果:II类错误(β-风险)后果:18假设检验假设检验原理−假设检验其实是个比较的过程−两种假设的比较,是A还是B?−我们总是用H0来说话−我们的初衷多数时候是想看区别和差异,所以我们总是想放弃H0−放弃H0的决策不会总是正确的,任何决定都会有风险−但风险的高低及严重度,会影响我们决策−于是我们很急切的指导,我们做出放弃H0的决策的风险有多大?−于是我们通过抽样数据进行运算,算出放弃H0的决策的风险的大小就是我们长见的P值(P-value)19假设检验假设检验原理(续)−知道了做出放弃H0的决策的风险的大小,那么风险小于多少时我们才敢于做出放弃H0的决策呢?−于是我们需要提前设定一个风险判断标准α而根据我们承受力的大小及后果的严重度,这个标准各有不同,0.01、0.05、0.1等−但我们通常设定α为0.05−这也就是我们通常拿P值和0.05进行大小比较的原因。−如果P0.05接受H0;P0.05放弃H0(PLowH0Go)−理解练习•为什么正态检验,等方差检验P要大于0.05?20假设检验假设检验原理(续)−α(SignificanceLevel)置信水平:风险判断标准−P-value做出放弃H0的决策犯错误的最大风险值p值Ho选择域Ho弃却域Ho选择域Ho弃却域p值P值α放弃H0认为有差异或影响P值α接受H0不能做决策,不能说有差异TPTαTPTα21假设检验假设检验步骤假设设定检定统计量选择留意水准决定p-value计算(弃却域,检定统计量计算)判定(统计结论)p-value时Ho弃却实际结论遵循假设检验路径图22Stat-Tables-Chi-squareTestStat-BasicStats-2proportionStat-BasicStats-1proportionHo:1=2H1:12Stat-BasicStats-2-Samplet“assumeequalvariances”“假定等方差选择按钮”选择Ho:M1=M(中值)H1:M1M(中值)Stat-Nonparametric-1Sample-Sign或者Stat-Nonparametric-1Sample-Wilcoxon数据形态检验假设检定One-wayANOVA计数型数据Chi-square检定Ho:1=2=3=...H1:至少一个是不一样Stat-Anova-One-wayHo:跟随正态分布,H1:不是正态分布Stat-BasicStat-NormalityTest置信水平=0.05时候:P-值0.05时Ho接受P-值0.05时Ho放弃正态数据标准偏差的置信区间一个总体两个以上的总体2Samplet(方差相等)2Samplet(方差不相等)1Samplet或者1SampleZHo:1=(平均值)H1:1(平均值)Stat-BasicStats-1Sample-t(不知道时候)1SampleZ(知道时候)1Sample-Sign或者1Sample-WilcoxonMann-WhitneyTest两个以上的总体两个母集团1-Proportion2-Proportion一个总体两个总体两个以上的总体非正态数据等方差YesNoKruskal-WallisTest一个总体一个总体两个以上的总体Ho:M1=M2H1:M1M2Stat-Nonparametric-Mann-WhitneyHo:M1=M2=M3=...H1:至少一个是不一样Stat-Nonparametric-Kruskal-WallisHo:1=2H1:12Stat-BasicStats-2-Samplet“assumeequalvariances”“假定等方差选择按钮”不选择TestforEqualVariances(Levene’sTest)TestforEqualVariances(FTestorBartlett’sTest)Ho:1=2=3=...H1:至少有一个不一样Stat-Anova-TestforEqualVariances两个总体比较的时候用F-testHo:1=(标准差)H1:1(标准差)标准差的置信区间使用Minitab路径Stat-BasicStatistics-DisplayDescriptiveStats计量型数据数据稳定性研究(控制图)配对T(PairedT)Ho:D=0(差值)H1:D0(差值)要对差值进行正态性检验Minitab路径Stat-BasicStatistics–Pairedttest(配对T)假设检验-常用路径图23假设检验-单样本T检验24“单样本t检验”解决什么问题?典型的问题为:“我们抽取了新坐席员Bob的30通电话录音数据,想知道坐席员A的话后整理时长的平均值是否刚好等于考核要求的25秒?”当然问题也可以是“Bob的平均整理时长大于25秒吗?”或者“Bob的平均整理时长刚好小于25秒吗?”251.建立零假设和备选假设:平均整理时间等于目标值平均整理时间不等于目标值2.决定显著性水平:=0.05(5%)3.随机抽取30通电话的整理时间数据作为样本4.选取适合方法计算P值(参考下页详细步骤)5.依据P值结果做出结论秒25:0=H秒25:1H按照以下步骤完成如果P值大于或等于0.05,不能推翻零假设H0如果P值小于a,推翻零假设H026选取适合方法计算P值——详细过程使用控制图检验样本数据稳定性样本量不足,n25样本量足够多,n25不是正态分布是正态分布单样本T检验单样本T检验单样本T检验先把数据转换为正态后再使用单样本T检验检验数据正态性数据不稳定应先解决稳定性问题NOYES算出P值样本数据n个27打开文件1-MakingComparison.JMP分析路线图–单样本T28步骤1:检验稳定性29步骤1:检验稳定性我们得到什么结论?是否有任何明显的变化趋势或模式,足以证明数据并非来自单一的总体/流程?212223242526272829Bob3691215182124273033样本平均数=24.85控制下限=21.67控制上限=28.03Bob的单个测量01234“Bob”的移动控制范围3691215182124273033样本平均数=1.20控制下限=0.00控制上限=3.91Bob的移动控制范围控制图30步骤2:检验正态性123431步骤2:检验正态性P值0.05,数据非正态P值0.05,数据是正态32步骤3:检验均值假设值实际估计值df标准差2524.8482290.86932检验统计量p值|t|p值tp值t-0.9564t检验0.34680.82660.173424.524.724.925.125.325.5检验均值=值Ho:均值(Bob)=25Ha:均值(Bob)=25我们得到什么结论?无法推翻零假设33结论的陈述由于p值大于临界置信水平(本例中P=0.34680.05),或者说,由于均值的置信区间包含了目标值,我们可以作出下述结论:我们没有足够的证据拒绝零假设。是否可以说零假设是正确的(Bob的均值=25秒)?不!但是,我们通常在假定零假设是正确的情况下执行操作。34延伸…如果问题是:“Bob的平均整理时长大于25秒吗?”或者“Bob的平均整理时长刚好小于25秒吗?”如何构造零假设和备选假设?