版权所有:CharlesWu数据分析及工序能力Confidential2数据分析Confidential3数据分析数据的分类:连续数据(Continousdata)-时间,压力,高度,长度等;也称作Variabledata离散数据(Discretedata)-颜色,班别,缺陷类别,产品种类等,也称作AttributedataConfidential4数据分析基本概念:数学期望:租凭一台设备租金每天500,如果下雨则不能使用,收益为0,如果天晴,使用设备可以获得1000元收益,若降雨概率为20%,租凭设备收益的期望(Expectation)值是多少?E=1/5*(-500)+4/5(1000-500)=300实际上如果只租凭一天,则获利300元是不可能的,要不亏损500,要不获利500,,期望值给出客户长期租用可获利的平均水平。因此数学期望可以看做是各种结果的加权平均。均值(Mean),方差(Variance),标准偏差(StandardDeviation),极差(Range)都是重要的期望值。均值用来表示分布的中心位置,方差、标准差和极差用来表示分布的散布散程度Confidential5数据分析基本概念:均值E(X),(µ)µ=方差Var(X)(Ϭ2)Ϭ2=标准偏差(Ϭ)极差(R)=R=xmax-xmin实际应用中,我们分析的都是有限的数据,无法得到整体数据的均值和方差(标准偏差),所以一般都用无偏估计值来代替整体值进行分析。Confidential6数据分析无偏估计(有限样本的计算值):平均值E(X)=方差(Variance)Var(x)=s2标准偏差(StandardDeviation)极差(Range)R=xmax-xmin1nxxsσ2n1iiˆd2是常数,只与样本量有关,一般样本量少时用,样本量大时用,样本量2时,比较准确。Confidential7数据分析•质量管理中常见的数据分布•常见离散分布1)0-1分布每次实验中,只有2种结果(如合格/不合格,正面/反面)的分布E(X)=p,Var(X)=p(1-p),p为概率Confidential8数据分析2)二项分布一批产品的不合格率为p,抽取n个产品,每检测完一个,再放回到这批产品中(放回抽样),X为样品中的不合格数,则X服从二项分布。=n!/(x!*(n-x)!)Confidential9数据分析3)超几何分布有N件产品,知道其中有M件不合格品,抽取n件样品(无放回抽样),X为样品中的不合格数,X服从超几何分布,来料抽样不良数,六合彩抽奖等都符合超几何分布彩票36选7中特等奖,N=36,M=7,n=7,x=7,其概率p为×÷=1/(36!/29!×7!)=1.198*10-7组合函数=combin(),阶乘函数=fact()029C77C736C***当nN×10%,二项分布近似与超几何分布Confidential10数据分析4)泊松分布一件产品上缺陷的个数X一般服从泊松分布P(X=x)=e-λ*λ-x/x!Confidential11数据分析•质量管理中常见的数据分布•常见连续分布1)正态分布—也叫高斯分布,是质量管理中最常见的连续型随机分布,其概率密度函数为:它有两个参数µ和Ϭ,记为X~N(µ,Ϭ2)E(X)=µ,Var(X)=Ϭ2Confidential12数据分析正态分布X~N(µ,Ϭ2)的概率密度曲线µ=0,Ϭ=1的正态分布叫标准正态分布LSLUSLConfidential13数据分析1)µ越接近设计的期望值,越好2)Ϭ越小越好(相对于产品规格区间),Ϭ越小分布越陡峭(集中)µ不同,Ϭ相同的分布Ϭ不同,µ相同的分布(Ϭ1Ϭ2)Confidential14数据分析•质量管理中常见的数据分布•常见连续分布2)指数分布—产品的MTTF(平均故障时间)和MTBF(两次次维修间的平均时间)一般都服从指数分布;3)对数正态分布----英文单词的长度,化学反应试讲等都服从对数正态分布4)威布尔分布—威布尔分布是寿命试验和可靠性试验的基础Confidential15数据分析几个重要的公式1)对于任意2个随机变量X1,X2E(X1±X2)=E(X1)±EX2Var(X1±X2)=Var(X1)+Var(X2)可以推广到多个2)如果X1,X2…Xn为n个独立同正的随机变量,如果n(n≥30比较理想)足够大则Xi的平均值近似服从(µ,Ϭ2/n)的正态分布,平均值没变,方差小了n倍;Xi的和近似服从(nµ,nϬ)的正态分布,平均值和方差都大了n倍;Confidential16过程能力分析Confidential17过程(工序)能力分析•过程能力(ProcessCapability),简称PC----过程(工序)生产合格品的能力•研究过程能力是基于下列2个假设情况下进行的:1)过程是稳定的,且过程的输出特性服从正态分布X~N(µ,Ϭ2)2)产品的规格(下限规格LSL和上限规格USL)能准确反映客户的要求•过程的能力取决于什么呢?Confidential18数据分析正态分布X~N(µ,Ϭ2)的概率密度曲线LSLUSLConfidential19过程(工序)能力分析•过程的能力取决于什么?---------µ和Ϭ1)Ϭ越小(相对于容差),过程能力越高2)µ月接近于设计的期望值,过程能力越高3)容差越大(相对于Ϭ),过程能力越高***容差:规格上限-规格下限•如何定量化的来比较过程能力呢?1)必须要有一个基数2)和基数进行比较,确定高低•为了过程的能力与容差进行比较,著名质量学家朱兰博士引入了能力比概念,即第一代的过程能力CpConfidential20过程(工序)能力分析Cp=容差/6Ϭ=(USL-LSL)/6Ϭ1)6Ϭ即±3Ϭ2)在正态分布情况下,如果过程控制在µ±3Ϭ范围内,认为过程是稳定的3)Cp和均值没有关系,不能真实反映过程能力,故也称作潜在过程能力指数,反映过程的潜在能力•为了真正反映过程的能力,引入了过程能力指数Cpk由于过程中心通常在规格限(LSL,USL)之间,因此用过程中心µ与两个规格限最近的距离Min(USL-µ,µ-LSL)与3Ϭ之比作为过程能力指数,记为CpkConfidential21过程(工序)能力分析Cpk=Min{(USL-µ),(µ-LSL)}/3Ϭ规格上限LSL规格下限USL规格中心M容差TConfidential22过程(工序)能力分析Cpk=Min{(USL-µ),(µ-LSL)}/3ϬCpu=(USL-µ)/3Ϭ,单侧上限过程能力指数;Cpl=(µ-LSL)/3Ϭ,单侧下限过程能力指数其中,T是容差=USL-LSL,M是规格中心=(USL+LSL)/2Confidential23过程(工序)能力分析Cpk=Min{(USL-µ),(µ-LSL)}/3Ϭ={(USL-LSL)-2*abs(M-µ)}/6ϬConfidential24过程(工序)能力分析Cpk只能知道过程的能力,但不清楚数据的分布,对过程改善帮助不大,要想知道数据的分布,必须做直方图。直方图-常常用于了解数据的分布情况,是一组数据的图形表示,通过它较容易看到数据的分散程度和中心趋势.用Minitab做直方图Confidential25过程(工序)能力分析用EXCEL做直方图1.Skewness-偏度,不对称的度量.0表示完全对称,较大的正值表明该分布具有右侧较长尾部。较大的负值表明有左侧较长尾部2.Kurtosis-峰度系数,3的峰度系数说明观察量更集中,有比正态分布更短的尾部;3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。标准正态分布的峰度为3.Confidential26工序能力分析当把目标值m引入过程能力指数时,得到另外2个新的过程能力指数Cpm和Cpmk•Cpm,CpmkConfidentialCpk是用来计算Ϭ的Ppk是用来计算Ϭ的27工序能力分析•Pp和Ppk-----长期过程能力Cpk和Ppk的区别实际应用中大家所说的Cpk就是Ppk.前面excel计算公式里的标准偏差就是Confidential28工序能力分析•过程能力原则上来说越高越好,到底多高才可以Cpk和不良率的关系CPKPPM010000000.25485060.42301390.6718610.816395127001.23181.33661.56.81.670.541.80.0720.0026Ϭ是什么样一个质量水平?如果平均值=规格中心,且服从正态分布,Cpk=2,不良率为2/10亿;平常大家听到6Ϭ=3.4PPM,是考虑到实际中平均值≠规格中心,给了1.5Ϭ便宜后得出的数据,也就是Cpk=1.5Confidential29工序能力分析•过程能力原则上来说越高越好,到底多高才可以等级Cpk值处理原则A++Cpk≥2.0特优,可考虑成本的降低A+2.0Cpk≥1.67优,应当保持之A1.67Cpk≥1.33良,能力良好,状态稳定,但应尽力提升为A+级B1.33Cpk≥1.0一般,制程因素稍有变异即有产生不良的危险,应利用各种资源及方法将其提升为A级C1.0Cpk≥0.67差,制程不良较多,必须提升其能力D0.67Cpk不可接受,其能力太差,应考虑重新整改设计制程。Confidential30SPC(控制图表)(StatisticalProcessControl)Confidential31控制图表控制图是有沃尔特·休哈特(WalterShewhart)于1924你首先提出来的,主要用来管理过程,发现过程中的异常波动。过程的波动•一个过程内有许多波动源;•过程有波动是正常的,无波动是虚假现象或测量仪器的分辨率太低;•消灭波动是不可能的,但减少波动是可能的;•管理过程就是要把过程波动控制在允许范围内,超出范围就要设法改善•波动分为偶然波动和异常波动•偶然波动-过程固有的,不易识别且对过程的影响不显著,消除困难,如机器波动,夹具的正常磨损,温度的正常波动等•异常波动-非过程固有的,由特殊的异常原因引起的,对过程影响显著,理论上可以消除,如刀具破损,员工操作失误,材料变更等Confidential32控制图表控制图表的原理根据正态分布的概率特性可以算出:界限µ±kσ界限内的概率(%)界限外的概率(%)µ±1σ68.2631.74µ±2σ95.454.55µ±3σ99.730.27µ±4σ99.99370.0063因为±3σ覆盖了99.73%的概率,超出此范围的概率很小,可以认为是异常,所以通常用µ±3σ作为控制图表的控制限。为了方便使用和记录,休哈特还建议把正态分布图及其控制限同时旋转90°,以时间或编号为横轴,以过程参数为纵轴,就得到我们今天普遍使用的控制图-4σ-3σ-2σ-1σ01σ2σ3σ4σ95%99.73%68%Confidential33控制图表常用控制图表的使用范围及特点图表类型适用数据特点X-MR图单件的连续数据n=1,测量值少时才用,精度差Xbar-R图分成子组的连续数据,得到并标出这些子组的平均值和极差n=2~9,精度较好,使用方便Xbar-S图分成子组的连续数据,得到并标出这些子组的平均值和标准差n2,精度最高,计算量大,测量值多是用它p图与np图离散数据样本,包括缺陷数以及样本大小,算出缺陷比例用以监测产品缺陷的稳定情况Confidential34控制图表常用控制图表的控制限计算公式CLUCLLCLX-MR(I-MR)X图单值移动极差控制图MR图Xbar-R图均值-极差控制图R图Xbar-s图均值-标准差控制图S图控制图名称与符号P图不合格品率控制图np图不合格数控制图RΑX2RΑX2RD4RD3RS3ΑXS3ΑXXXS4BS3B)/np-(1p*3p)/np-(1p*3pp)/np-(1pn*3pn)/np-(1pn*3pnXXpnSXRREX2REX2RD4RD3E2=3/D4Confidential35子组容量A2A3B3B4D3D4d221.882.65903.2670