六西格玛基本统计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

六西格玛内训课件基础统计基础统计理论目录41235统计目的数据分类统计概述基本图表六西格玛度量的种类第一部分统计目的你看到了什么?你需要整个图片!数据的重要性数据是来自观察的,由一个过程所搜集得来的数据可让我们描绘过程,了解过程,改善过程甚至控制过程.Data数据驱动决策和行动数据对六西格玛很重要使用统计学来解决真实的问题真实的解决方案统计学解决方案统计学问题真实的问题把问题转换为数字(Y)定义Y的规格(可接受范围)理解(xi)与流程输出(Y)的关系Y=f(x1,x2,x3...)影响流程表现的关键因子是什么?找到因子(xi)的水平和操作窗口,保证输出(Y)是在可接受范围内控制输入(xi)避免输出/缺陷统计思想所有作业是相互关联的工序的系统例)线路板作业过程原料投入贴插装清洗喷胶所有工序中都存在散布可避免原因不可避免原因同样原料同样生产工艺同样作业者同样方法发生散布统计思想是遵守以下四种根本原则的学习,思考和实践的一种哲学。调查散布和减少散布的活动减少工序散布的活动减少产品质量散布顾客满足费用降低考虑判断失误的错误注意从样本数据的结果判断时发生错误统计思想不是单纯的数字组合或计算,而是为质量革新而思考的方法,也是思考的过程。统计思想不是统计知识或工具,更不是软件的具体操作,而是学会用统计思维看待和分析问题,避免只看到表面层次的现象就去下结论作决策。统计思想举例:去年公司的顾客满意率为80%,今年调查了100位顾客,有85位顾客表示满意,满意率达到85%。能否说今年的顾客满意率比去年提高了5%?当重复测量时,经常产生不同的结果,这就是偏差偏差的类型:通常原因的偏差:测量中的差异是被期望的并可以预测的特殊原因的偏差(随机):测量中的差异是不可预测的偏差我们是期望能够观察出偏差的,如果没有偏差那肯定会有问题如果所有的区域的产品的销售量完全相同,我们将怀疑数据的真实性.偏差的存在使我们的工作更有挑战性我们通常不相信来源于单个数据的结果,通常收集多个数据并注意收集的方法以减少偏差结论:偏差是自然存在的,被期望的并是统计的基础偏差统计领域用下列方法处理偏差描述型统计--用图表或总结性的数字(中心值,方差,标准偏差)来描述一系列数据的特征.统计推论--当结果的差异可能因为随机偏差或不能归属为随机偏差时所作的决定。(置信区间和假设检验)试验设计(DOE)--收集并分析数据,以估计过程并改变效果.统计领域中偏差的处理过程偏差–确定过程是否稳定如果过程不稳定,鉴别并消除不稳定的要因–确定过程的平均值的位置-它在目标线上吗?如果不在,确定影响平均值的变量,并决定最优的设置以达到目标值–估计总散布的幅度-与顾客的要求(规格限)比起来,是可接受的吗?如果不是,确定散布源,而后消除或减少他们对过程的影响。第二部分数据分类数据的种类•不间断的•总是可以以更小的单位来测量•经常与测量系统一起出现•不可以以更小的单位来测量•只能选择几个有限的数值连续型的离散型的举例–时间,重量,金额,长度举例–二元的:男/女,好/坏,Yes/no–分类的:周一-周日,地点(Paris,London,Beijing,...)–计数:一张发票上的错误数目,一个月内发生意外的次数连续型数据益处:1.能够为使用相对小范围抽样的过程提供详细的信息2.适用于低缺陷率3.能够预估发展趋势和情况缺点:1.通常较难得到数据2.分析更为复杂离散型数据益处:1.容易得到数据,并且计算方法简单2.数据容易理解3.数据随时可得缺点:1.无法显示缺陷怎样发生及过程如何变化2.不适合低缺陷率(需要大量的抽样)3.不能预测发展趋势和情况数据类型比较连续型数据离散型数据连续数据计数数据通常为正态分布通常为二项式分布或泊松分布实际数值合格/不合格实际定义严谨数据定义较差需少量抽样需大量抽样练习:这是什么种类的数据?申请贷款所需要的时间每张发票上的错误数目每张发票上的缺陷百分比一天内销售酒的数量导线的长度办公室的地点申请贷款所需要的时间(天)销售人员一天内拜访的客户数量赢得招标的百分比销售人员的销售额销售人员的名字第三部分统计概述总体想要测量对象的全部参数用总体的所有数据计算出的数值(如均值,标准差),称为总体的参数x参数•总体平均值•总体标准差总体σ统计学基本术语统计学基本术语样本从总体抽出的部分数据统计量用样本的所有数据计算出的数值(如均值,标准差),称为样本的统计量x统计量•样本平均值•样本标准差s总体样本描述计量型数据集一组计量型数据能显示以下3个特性:中央趋势(均值,中值,众数)变异(全距,标准差,方差)形状参数和统计量符号Mean均值Variance方差StandardDeviation标准差Proportion比例总体(参数)μσσπ样本(统计量)хs2sp数据位置测量中心趋势均值中值众数四分值样本均值若样本(样本量为n)的观测值为x1,x2,…xn,则样本均值为:类似地,一个有着大量但限个(N个)观测值的总体,其总体均值为:均值xNxNii1nxnxxxxniin121...练习三10个连接线的拉拔强度为:260230240236248248252278265262拉拔强度的均值是多少?10个观测值的均值为:10262...2402302601nxxnii均值练习四199X年一个行动中,战机进行了3000次战斗,总共用时6900小时。那末每次战斗平均用时多少?每次战斗平均用时为:hoursNxNii3.2300069001注意所使用的符号均值均值的计算使用了每个观测值;每个观测值对均值都有影响。所有观测值对均值的偏差的总和为零。均值对极端的观测值很敏感,极端值会导致均值向他偏移。Xxxxxxx6351274△6△2△4x均值的特性将一组观测值按大小顺序排列,位于中心的数值即为中值若观测值的个数为偶数,则中值为中间2个数值的平均若观测值的个数为奇数,则位于中心的数值即中值中值样本中值假如x(1),x(2),…,x(n))是按大小排序的样本值,则样本中值为:中值的优点是不受极端大或极端小的观测值的影响。2)1]2/([)2/()2/]1([nnnxxxMe为奇数noddisnif为偶数nevenisnif中值练习五(a)假设一个样本观测值为:3124786样本均值和样本中值是多少?这2个值是测量数据中心趋势的合理指标吗?中值(b)假如最后一个数值改变为:3124782680则样本平均值和样本中值是多少?据此你有何结论?中值MedianvsMean中值与均值因为中值不象均值对极端值敏感,因此,当有极端大或极端小值时,中值比均值更能代表数据的位置典型的例子是一个城市居民的收入中位值中值中值有时会有欺骗性50%-50%Rule?一半一半准则?以下一组数据的中值是多少?2,2,2,2,2,2,90可以用一半一半准则吗?众数是样本中出现次数最多的观测值。众数可以是唯一的,也可以有不止一个,有时并不存在众数。众数练习六如果样本观测值为:(a)69135813461311013(b)691358134613110625613(c)4372681众数是什么?具有一个众数,两个众数或多于两个众数分布的数据分布叫什么?(单峰分布…)众数为何使用众数?当观测值为分类式(如名义数据,序列数据)时.众数是描述数据位置的最好的指标.典型的例子是,一个公司内员工收入的众数众数的重要信息当众数不止1个时,从中抽取样本的总体通常是多个总体的混合众数均值、中值、众数的比较x21xMOMe21MeMOx正态分布偏上分布偏下分布xMOMe≥≥xMOMe==xMOMe≤≤四分值将一组按大小顺序排列的数据平均分为四部分,分界点即四分值.第一四分值(低四分值),约25%的观测值小于它.第二四分值,约50%的观测值小于它,即中值.第三四分值(高分值),约75%的观测值小于它.练习七以下为20个电灯泡失效期间的观测值,已按递增顺序排列.2102162523003664546247208169241216129613921488154224802856319235283710请确定三个四分值.计算方法:先确定位置再计算四分值Q1的位置:(n+1)/4Q2的位置:2(n+1)/4=(n+1)/2Q3的位置:3(n+1)/4四分值答案Q1的位置:(n+1)/4=(20+1)/4=21/4=5.25Q2的位置:2(n+1)/4=2(20+1)/4=2*21/4=10.5Q3的位置:3(n+1)/4=3(20+1)/4=3*21/4=15.75则:Q1=366+(454-366)*0.25=388Q2=924+(1216-924)*0.5=1070Q3=1542=(2480-1542)*0.75=2245.5四分值数据散布的测量(变异)Range极差Variance方差StandardDeviation标准差Inter-QuartileRange四分植极差极差样本极差为样本中最大和最小观测值之间的差别,即:极差是测量数据散布或变异的最简单的方法但它忽略了最大和最小值之间的所有信息r=xmax-xmin试考虑以下的2个样本:{102050607090}and{10,40,40,40,90}具有相同的极差(r=80)但是,第二个样本的变异只是2个极端数值的变异,而在第1个样本,中间的数值也有相当大的变异.当样本量较小(n≤10)时,极差丢失信息的问题不是很严重极差方差与标准差若x1,x2,…,xn是一个具有N个观测值的样本,则样本方差为:样本标准差是样本方差的算术平方根,即:1)(122nxxsnii1)(12nxxisni方差计算练习八:计算下列观测值的方差和标准差.305070901101301)(122nxxsnii1)(122nxxsniiixixi-x(xi-x)2130-502500250-30900370-10100490101005110309006130502500480ix0)(xxi70002)(xxi806480x400,1)16(000,72s方差计算方差与标准差再考虑以下2个样本.SampleA:102050607090SampleB:104040404090SampleASampleBRange极差8080Variance方差????StandardDeviation标准差????类似于样本方差S2,用总体的所数据计算出总体变异—总体方差(σ2)总体的标准差(σ)是总体方差的算术平方根对于包含N个数值的有限总体,其方差为:σ2=NxNii12)(方差与标准差方差特性方差计算使用了所有观测值,每个观测值对方差都有影响方差对极端值很敏感,因平方的缘故,极端大的观测值会严重的放大方差。四分值极差四分值极差是测量散布的另一指标:IQR=Q3-Q1四分值极差不如极差对极端值敏感当分布显著不对称时,用它衡量散布会更好样本(10,20,50,60,90)和(10,40,40,40,90)的四分值极差分别是40和0.正态分布正态分布是一种具有特定的、非常有用的特性的数据分布这些特性对我们理解所研究之过程的特性十分有用大部分自然现象和人造过程是正态分布或可有正态分布描述标准正态分布标准正态分布,也叫Z分布,有下列参数:Z代表距离均值的标准差的数量μ=0σ=1yz-4σ-3σ-2σ-1σμ1σ2σ3σ4σ特性1:只需知道下述两项参数就可完整描述正态分布均值标准差分布1分布2分布3此三项正态分布有何区别?正态分布正态曲线和概率特性2:曲线下面的面积可用来估算某一特定事件发生的累积概率得到在两个值之间的某个价值的累积概率99.73%95%68%离均值的标准差数目样本值的概率40%-30%-20%-10%-0%-正态分布

1 / 87
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功