质量分析与质量改进培训内容21、质量改进用的随机变量分布连续随机变量的概率分布问题。采用概率密度的概念,即是随机变量(连续)单位长度上的概率p(x)概率密度函数是概率密度与随机变量(自变量)的变化关系,显然p(x)≥0,它与x轴所夹的面积恰好为1。其在区间(a,b)上取值的概率P(a≤x≤b)为概率密度曲线下,区间(a,b)上的面积。一、随机变量分布技术正态分布:①概率密度函数a、根据函数可知图形以值构成纵向对称,呈钟形曲线;b、为正态分布均值,是分布中心位置,是正态分布的方差,表明分散性。决定了正态分布曲线的形状,故正态曲线用表示;c、曲线围绕横轴的总面积等于1;d、固定,不同的,则曲线形状不变,只是在横轴上的位置改变;e、固定,改变,则曲线位置不变,只是改变了形状。222(,)xN222()212xe正态概率分布函数②标准正态分布当的正态分布,称标准正态分布,记为u~N(0,1)。其随机变量记为u,概率密度函数记为标准正态曲线只有一条(唯一),因而可制成表绘成图,可以根据u的大小在表中查得对应的概率。标准正态概率密度和标准正态概率分布表起同样的作用22()21()2()0()1xmPxmedxPP有二条渐近线,是递增函数01=,=(u)22/2/2,uuueedu11(u)=(u)=22根据定义及图形可获得如下的计算公式:③标准正态分布的分位数N(0,1)的分位数是一个在分位数左侧面积为,右侧面积恰好为的分界线,即分位数是满足下列等式的实数就是分位数,可根据概率的大小在标准正态表中查到。尾数可用内插法决定。()(),()1()()1()()()()()[]()()()[1()]2()1PuaaPuaaPaaPaubbaPuaPauaaaaaaⅠⅡⅢⅣ1()aPuuaau例1:求的分位数因为表中都大于0.5,不能直接查表,故需变换,根据对称性知:例2:求的分位数因为正态分布表中不能直接查,只有由于刚介于0.9495与0.9505中间,故0.250.250.750.750.25,0.6750.675uuuu故=-0.950.950.94950.95051.64,1.65uu0.950.950.95050.94950.950.94951.651.640.0010.00050.010.0051.640.0051.645xxxu--=-④正态分布的计算任一正态变量x经过标准化变换后都可以变换成标准正态变量u。例:因此以下正态分布的概率计算可方便的利用标准变换。22x-10x~N(10,2)u=~(0,1)zy-z~(2,0.3)u=~(0,1)0.3NyNN经标准化变换经()/xu2~(,),)()(),()1())()1())()()()xNabbaaPxbPxaabPxabacPaxb设,则对任意实数有式中为标准正态分布函数,可以直接查表。()举例1:电阻器的规格限为,服从正态分布,均值80.80k,则其低于的概率和超过的概率分别为804k1.3k76slLk76slUk7680.80()(76)()1.3(3.7)0.0001()(84)1()8480.801()1(2.46)0.00691.3LslUslppxLpxxppxUpx不合格品率p=0.0001+0.0069=0.0070举例2:已知:1、受控情况下,产品质量特性的分布2、产品规格限,包括上规格限和下规格限,它们是依据文件中的规定,顾客要求,公认的标准,企业下达的任务书等来决定的。问题一:分布中心与规格中心重合时,产品的质量特性x超出规格限的不合格品率。2(,)xNSLUSLL,:()1()()()LULUSLUSLSLLSLPPPPPUPPxUUPPxL低于下限的概率,:高于上限的概率2SLSLLUM36及3[(3)](3)1(3)10.998651350PPxppm3[(3)]1(3)0.001351350PPxppm规格限合格品率(%)不合格品率(ppm)68.2731730095.454550099.73270099.99376399.9999430.5799.99999980.002610123456问题二:分布中心与规格中心不重合时。不合格品率的计算。1、允许有的偏移;2、偏移只在一个方向上,不能上下同时发生。1.5(1)M3()1(1.5)10.933266800(4)(4.5)1(4.5)3.4(2)M60()1(4.5)3.43.40.00PxppmPxppmPxppmppmULLU当规格限为时,距上规格限1.5,距下规格限4.5,则P1.5P.5当规格限为时,距上规格限4.5,距下规格限7.5时。PP4.5=比不偏时的2ppm增加了许多2、统计量与抽样分布⑴、统计量样本通过加工把零散的信息集中起来以反映总体的特征,其中构造样本函数是一种有效的方法,不同函数反映总体的不同特征,通常我们将不含未知参数的样本函数称为统计量。统计量举例1212212,,...,1,1b(),1c,nniiniixxxxxnSxxnSs设是来自某总体的一个样本,则常用的统计量有如下几种:a、样本均值=它提供总体均值的信息。、样本方差它提供总体方差的信息。、样本标准差它提供总体标准差的信息。⑵、抽样分布统计量的分布称抽样分布抽样分布的解释1()2()(1)22maxmind,,1[],2e,nnnxxxxnxxxnxRxx以上三个统计量是统计学中最重要、最常用的统计量。在样本量n较小时,还有两个统计量,它们是:、样本中位数为了获得它,先要把样本排序成为有序样本,当样本量为奇数时,取其中间一个作为,当样本量为偶数时,取其中间两个的平均值作为,具体是:为奇数为偶数样本中位数提供总体均值的信息。、样本极差它提供总体标准差的信息。样本1样本2样本3样本411911121140109911910108111181313109.810.210.810.4总体8991110911121013910111310109101012x•计算每个样本的均值,它们不全相等•为什么这些样本均值不全相等呢?因为抽样的随机性•若取更多的样本,会发生什么呢?会产生样本均值分布样本1样本2样本3样本41.301.931.481.14s•计算每个样本的标准差,它们也不全相等•由于抽样的随机性,该样本标准差不全相等•若取更多样本,会产生样本标准差的分布抽样分布的解释可以得出:1)每个统计量都有一个抽样分布;2)不同统计量有不同的抽样分布,当样本来自时,其样本均值,方差,以及它们的某种组合所组成的抽样分布,在理论上已经导出;3)抽样分布是统计推断的基础。⑶、正态分布的抽样分布。①当已知时,正态总体的样本均值分布为这可通过标准化变换得到,2(,)Nx22,,Fut和2(,)N2(,/)Nn(0,1)/xuNn②当未知时,即用样本标准差S代替上式中的,此时。称服从自由度为n-1的t分布,即t(n-1)i.t(n-1)与N(0,1)的概率密度函数类似,是对称分布;ii.t(n-1)的峰值比N(0,1)略低,底部略宽;iii.当自由度(n-1)超过30时,两者区别不大。③正态样本的分布——分布定义:正态样本方差除以总体方差的(n-1)倍的分布,是自由度为(n-1)的分布,记为2()(1),t/1()1ixnxttnsnxxn统计量2S222(1)n2S2分布的概率密度函数在正半轴上是偏态函数④两个独立的正态样本方差之比的分布——F分布定义:a、两个独立的正态总体方差相等;b、是分别来自的两个样本,它们互相独立;c、这两个样本方差之比的分布是自由度为n-1和m-1的F分布222221(1)()/(1)niinSxxn2221122(,),(,)NN11nnxxyy和211(,),N222(,)N2212221()1(1,1),F1()1FnimixxSnFnmSyym统计量其中:n-1称分子自由度,m-1分母自由度分布的概率密度函数在正半轴上呈偏态分布二、参数估计在实际问题中,总体的参数都是未知的,需要选用适当的统计量作为未知参数的估计,此统计量称为点估计量。㈠点估计⑴定义:用样本的某一函数作为总体中未知参数的估计。设是总体的某个未知参数,X是该总体的随机变量,是总体的一个样本量为n的样本,若构造一个统计量,用它作为对的估计,则称是的点估计。如抽取到一个,就可计算出值,此乃估计量中的一个具体值。12,,....nxxx12(,,....)nxxx12,,....nxxx⑵点估计优良性标准是随机的,不能用某个具体的估计值来评价是否接近的优劣,应从多次使用中来评定。与之间总有偏差,即,但因未知,其差也无法得到,通常用多次采样,将不同的进行的平均。即用来表征估计量的优劣,因此此时称是无偏的,否则称有偏的,无偏性是表示估计优良性的一个重要指标,在选择估计值时尽量选用无偏估计量。式中是估计量的方差,希望方差愈小愈好,这是估计优良性的另一指标。()E2222()[()][()]()()var()[()]()()0()EEEEBEEEBBE设称偏倚,当=时,=var()⑶点估计方法无论是总体均值或总体方差都可用样本的均值或方差作出估计,这就是点估计:①用样本矩去估计相应的总体矩。②用样本矩的函数去估计相应的总体矩的函数。此法简单实用,对的估计是无偏的,对的估计也是无偏的,但这种估计未必总是有效的,也不唯一。⑷点估计举例(正态总体参数的无偏估计)例:把钢材弯成钢夹,其间隙大小是一个重要特性,现从生产线上随机取5个钢夹测量其间隙,得数据如下:0.750.700.650.700.60已知钢夹间隙服从正态分布,试定出参数的无偏估计。x2S22(,)N2,,解:用样本均值估计,用样本方差估计:22Sx22222224R2R2(0.750.700.650.700.60)/50.681[0.070.020.030.020.08]0.0325510.940,0.03250.0610.9405572.326/(0.750.ssxSscnndRdd标准差的估计,还可以选用,由于n=5,从附表7中查得c则=由于,也可以选用,由于,从附表查得,则:=60)/2.3260.064这里两者相差不大。㈡区间估计⑴概述:点估计只给出参数的一个具体估计值,未给出估计精度,而区间估计是用一个区间来估计未知参数,区间体现了估计的精度。⑵区间估计定义是总体的待估计参数,其一切可能取值组成参数空间。记是总体的样本量为n的样本,对给定的确定两个统计量:若对任意,则称随机区间是的置信水平为的置信区间。12,,....nxxx1212(,,....)(,,....)UULLnnxxxxxx与(01),()1LUp有(,)LU(1):,LULU置信下限,:置信上限。(1-)置信区间:随机区间[]覆盖未知参数的概率为(1-)⑶正态总体参数的置信区间①总体均值的置信区