第七章质量控制的统计方法7.1概率及统计的基本知识7.1.1概率与统计基本概念1.随机现象:在一定的环境下进行实验往往会出现不同的结果,而且每一次实验结果都是无法提前预知的,即无法百分之百地确定最终的结果,这种现象就叫做随机现象。随机现象反映了条件和结果之间的不确定关系,但在大量重复的实验中,却具有一定的统计规律性。随机事件的特征该事件或现象能够在相同的条件下重复进行该事件或现象带来的最终结果不止一个,同时能够事先确定最终结果的所有可能每一次重复发生该事件或现象时,都无法确切预知可能的结果。2.必然事件:在一定的条件下重复进行试验时,有的事件在每次试验中必然会发生,这样的事件叫必然发生的事件,简称必然事件。必然事件发生的概率是1,即P(必然事件)=1(必然事件:体育运动时消耗卡路里不可能事件:1秒钟跑完100米随机事件:体育运动中肌肉拉伤3.不可能事件:概率论中把在一定条件下不可能发生的事件叫不可能事件。人们通常用0来表示不可能事件发生的可能性。即:不可能事件的概率为0。但概率为0的事件不一定为不可能事件。例1.指出下列事件是必然事件、不可能事件还是随机事件:(1)某体操运动员将在某次运动会上获得全能冠军;(2)同一门炮向同一目标发射多发炮弹,其中50%的炮弹击中目标;(3)某人给朋友打电话,却忘记了朋友电话号码的最后一位数字,就随意地在键盘上按了一个数字,恰巧是朋友的电话号码;(4)技术非常发达后,不需要任何能量的“永动机”将会出现。解:根据必然事件、不可能事件及随机事件的定义,可知(1)、(2)、(3)是随机事件;(4)是不可能事件。例2指出下列事件是必然事件、不可能事件,还是随机事件。(1)在标准大气压下且温度低于0℃时,冰融化;(2)在常温下,焊锡熔化;(3)掷一枚硬币,出现正面;(4)某地12月12日下雨;(5)如果a>b,那么a-b>0;(6)导体通电后发热;(7)没有水分,种子发芽。解:(5)、(6)是必然事件;(1)、(2)、(7)是不可能事件;(3)、(4)是随机事件。基本事件:在试验中不能再分的最简单的随机事件,其他事件可以用它们来表示,这样的事件称为基本事件。基本事件空间:所有基本事件构成的集合称为基本事件空间。基本事件空间常用大写希腊字母Ω表示。例如,掷一枚硬币,观察落地后哪一面向上,这个试验的基本事件空间就是集合{正面向上,反面向上}。即Ω={正面向上,反面向上}。或简记为Ω={正,反}。掷一颗骰子,观察掷出的点数,这个事件的基本事件空间为Ω={1,2,3,4,5,6}。1、概率概率—又称机率、或然率或可能性。是对随机事件发生的可能性的度量,范围在[0,1]内。即[0,1]内的任何一个实数可以用来表示一个随机事件发生的可能性的大小。概率的公理化定义为:设随机试验M的样本空间为Ω,若按某种方法,对M的每一个事件A赋予一个实数P(A),且满足以下公理:非负性:P(A)≥0;规范性:P(Ω)=1;可列(完全)可加性:对于两两互不相容的可列无穷多个事件A1,A2,…,An,…有P(A1∪A2∪…∪An∪…)=P(A1)+P(A2)+…+P(An)+…,则称实数P(A)为事件A的概率。概率小案例DeweyG.统计了约438,023个英语单词中各字母出现的频率,发现各字母出现的频率不同:A:0.0788B:0.0156C:0.0268D:0.0389E:0.1268F:0.0256G:0.0187H:0.0573I:0.0707J:0.0010K:0.0060L:0.0394M:0.0244N:0.0706O:0.0776P:0.0186Q:0.0009R:0.0594S:0.0634T:0.0987U:0.0280V:0.0102W:0.0214X:0.0016Y:0.0202Z:0.0006从中我们看到字母E出现的频率最大而字母Z出现的频率最小等等结果,而且这些字母的频率可以大致看成它们出现的概率。对于计算机键盘的设计和文字的研究,这些结果都有重要意义。概率小案例投资总具有一定风险,因此在选择投资方向时,计算其期望收益常是可代考虑的决策方法之一。现某人有10万元现金,想投资于某项目,预估成功的机会为30%,可得利润8万元,失败的机会为70%,将损失2万元。若存入银行,同期间的利率为5%,问是否应作此项投资?以X记投资利润,则而存入银行的利息为10×5%=0.5(万元),因此从期望收益的角度看,应选择投资,当然这里要冒一定的风险。2、统计统计是指对某一现象有关的数据的搜集、整理、计算、分析、解释、表述等活动。有效的统计分析结果能够反映某个现象的规律,为后续的质量控制活动提供可借鉴的基础。在数理统计中,研究对象的全体称为总体或母体,组成总体的每一个元素称为个体。从总体中抽出的若干个个体称为样本,从总体中抽取若干样本的过程叫做抽样。所有抽取的样本集合称为样本空间。对各个样本统计规律的研究能够反映总体的分布规律。比如,我国每10年会进行一次全国人后普查,像男女比例、各年龄段人口比率、就业率、出生率和死亡率等,这可都是关系到国计民生的大事。学校要统计升学率,班上要统计成绩和名次,你自己爱也要统计自己的总分或平均成绩的升降。企业经营也需要进行统计。没准什么时候你在家里会突然接到一个电话,原来是电视台打来的,他们在统计节目的收视率。收视率越高,他们的广告就卖的越贵。7.1.2统计量样本统计量是由样本数据加工出来的,是对样本数据进行分析、检验的变量,反映样本数量特征的函数,不含任何未知数。常见的样本统计量有平均数、中位数、众数、极差等。在质量控制中,常见的统计量有如下几种形式:1、表示位置的统计量算术平均数和中位数在质量控制的过程中常常用来反映产品质量特性的位置效应。(1)、平均数平均数的几种计算方法:①简单的算术平均数计算方法为:nxxxxn...21nnxxxx...21inxnxxxnx11...1121②加权算术平均数计算方法为:③调和平均数的计算方法为:④几何平均数的计算方法:nnnfffxfxfxfx......212211(2)、中位数中位数是数据位置的代表值,不受极端变量的影响。对于有限个数据的中位数,把所有数据按照大小依次排列,就可以确定中位数。中位数的确定受到数据个数奇偶性的影响:数据数量为奇数时,最中间的那个数即为中位数;数据数量为偶数时,计算最中间两个数值的平均数,该平均数即为中位数。例1:一组数据3、7、21、15、56、10,求该组数据的中位数?首先,判断该组数据的个数为6,是偶数。其次,将该组数据按照从小到大的顺序排列,3、7、10、15、21、56.然后,找到中间的两个数,求均值,(10+15)/2=12.5.所以,该组数据的中位数为12.5.例2,一组数据3、7、21、15、56、10、45,求该组数据的中位数?首先,判断该组数据的个数为7,是奇数。其次,将该组数据按照从小到大的顺序排列,3、7、10、15、21、45、56.然后,找到最中间的那个数,为15.所以,15即为该组数据的中位数。2、表示离散程度的统计量(1)方差是各个数据与该组数据平均数之差的平方和的平均数,是度量随机变量与其均值之间的离散程度,通常用符号σ2表示。在数理统计中,方差用来衡量随机变量与其数学期望值之间的偏离程度,也就是随机变量与中心值偏离的程度。如果方差较小,则整体数据的分布比较集中,反之则整体数据的分布比较分散。(2)离散趋势1.平均差2.方差与标准差(2)总体方差与标准差未分组总体数据的方差已分组总体数据的方差:未分组总体数据的标准差:已分组总体数据的标准差..xxADn221NiiXXN()2211KiiiKiiXXff()21NiiXXN()211KiiiKiiXXff()(3)样本方差与标准差未分组总体数据的方差已分组总体数据的方差:未分组总体数据的标准差:已分组总体数据的标准差2211niixxSn()=22111kiiikiixxfSf()=211nixxSn()=2111kiikiixxfSf()=(2)标准差方差σ2的二次开方即为标准差,记为σ。在质量控制的过程中,通常用标准差衡量产品性能的波动。同方差一样,标准差σ越小,产品性能的波动就相对较小,比较稳定。反之,产品性能的波动就相对较大,表现为不稳定状态。例如,两名射击运动员,在10次射击中,甲乙两名运动员射击技术的平均值都为8.5环。经过计算,甲的标准差为0.4,乙的标准差为0.7。此时,应该选择甲运动员参加比赛。因为甲运动员的标准差σ相对较小,就说明甲比乙要稳定,波动较小。(3)极差极差是数据集合中最大值减去最小值的差值,反映了数据集合中最大值和最小值的差距。极差反映了一组数据的离散程度和数据波动的范围。极差越大,数据的离散程度越大。极差越小,数据的离散程度越小。例如一组数据2、4、7、5、15、9,极差为15-2=13.3、表示分布形状的统计量(1)峰度描述分布形态的陡缓程度。通常正态分布的峰度为3,如果一组数据计算出来的峰度为3,则表示整体形状与正态分布相同。峰度大于3,表示比正态分布陡峭,小于3则表示比正态分布平坦。(2)偏度是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。直观看来,就是密度函数曲线尾部的相对长度。正态分布的偏度为0,两侧尾部长度相等。如果一组数据的偏度小于0,则表示左偏态。此时数据位于均值左边的比位于均值右边的少,即分布左边的尾部相对于右边的尾部要长。如果偏度大于0,称为右偏态,此时数据位于均值右边的比位于均值左边的少,即分布右边的尾部相对于左边的尾部要长。7.2数据的收集和整理7.2.1数据的收集数据收集就是按照统计分析的目的,运用科学有效的方法,针对性地收集反映客观现实的统计数据的活动过程。(1)数据的分类按照获取途径不同,可分为原始数据:即第一手资料,是通过原始问卷调查、原始实验、实地检测等手段收集到的数据。次级数据:即为第二手资料,通常是在原始资料难以收集的情况下,直接收集报纸、期刊、因特网、统计书籍等媒介上的资料或政府机构公布的资料(如统计局每年公布的GDP、各行业生产总值等数据)。原始数据的真实性、准确度相对次级数据要好。因此为了更加确切地获得某一现象或某一事件客观存在的规律,要尽可能地使用原始数据。数据定量数据定性数据离散型数据计数值数据连续型数据计量值数据数据分类情况(2)数据收集的方式1)统计调查①普查。普查是根据一定的统计目的而进行的一次全面调查,进而收集能够反映现象总体的全面资料。所以,普查是通过调查总体的方式来收集数据的。②抽样调查。抽样调查的范围是总体的一部分,是一种非全面性的调查。其按照一定的统计方法,从总体中抽取样本,进而用样本数据来判断总体情况的数据获取方式。因此抽样调查是通过调查样本的方式来进行数据收集的。只对一部分客户进行的调查叫抽样调查。抽样调查非常有用,要知道大片的森林里有多少棵树,只需选择几个小块的区域进行调查,算出平均密度再乘上总面积,而不用去摸遍每一个山头;要知道灯泡的平均使用寿命,只要拿少量灯泡进行试验,而不用把所有的灯都用到坏;要知道一个大型养鸡场里明天有多少母鸡会下蛋,也只用挑选几十只验一验就够了,而不用摸每只母鸡的屁股。抽样调查能给我们的生活带来很大的方便。保险公司也不必去统计每个人的真实寿命,它只要抽样调查,一样可以获得满意的数据。看上去,抽样调查真是个投机取巧的好办法。导致破产的预言抽样调查的结果不是绝对的正确的,即使有99.9%的把握,仍然有0.1%的意外会超出误差允许的范围,那是不可避免的,是可以允许的正常范围。然而,有些抽样调查却会产生非正常的错误。1936年美国总统选举开始了,大部分人认为现任总统罗斯福—民主党的候选人—将会胜利。但是有个杂志《文学文摘