正态概率图(normalprobabilityplot)方法演变:概率图,分位数-分位数图(Q-Q)概述正态概率图用于检查一组数据是否服从正态分布。是实数与正态分布数据之间函数关系的散点图。如果这组实数服从正态分布,正态概率图将是一条直线。通常,概率图也可以用于确定一组数据是否服从任一已知分布,如二项分布或泊松分布。适用场合·当你采用的工具或方法需要使用服从正态分布的数据时;·当有50个或更多的数据点,为了获得更好的结果时。例如:·确定一个样本图是否适用于该数据;·当选择作X和R图的样本容量,以确定样本容量是否足够大到样本均值服从正态分布时;·在计算过程能力指数Cp或者Cpk之前;·在选择一种只对正态分布有效的假设检验之前。实施步骤通常,我们只需简单地把数据输入绘图的软件,就会产生需要的图。下面将详述计算过程,这样就可以知道计算机程序是怎么来编译的了,并且我们也可以自己画简单的图。1将数据从小到大排列,并从1~n标号。2计算每个值的分位数。i是序号:分位数=(i-0.5)/n3找与每个分位数匹配的正态分布值。把分位数记到正态分布概率表下面的表A.1里面。然后在表的左边和顶部找到对应的z值。4根据散点图中的每对数据值作图:每列数据值对应个z值。数据值对应于y轴,正态分位数z值对应于x轴。将在平面图上得到n个点。5画一条拟合大多数点的直线。如果数据严格意义上服从正态分布,点将形或一条直线。将点形成的图形与画的直线相比较,判断数据拟合正态分布的好坏。请参阅注意事项中的典型图形。可以计算相关系数来判断这条直线和点拟合的好坏。示例为了便于下面的计算,我们仅采用20个数据。表5.12中有按次序排好的20个值,列上标明“过程数据”。下一步将计算分位数。如第一个值9,计算如下:分位数=(i-0.5)/n=(1-0.5)/20=0.5/20=0.025同理,第2个值,计算如下:分位数=(i-0.5)/n=(2-0.5)/20=1.5/20=0.075可以按下面的模式去计算:第3个分位数=2.5÷20,第4个分位数=35÷20以此类推直到最后1个分位数=19.5÷20。现在可以在正态分布概率表中查找z值。z的前两个阿拉伯数字在表的最左边一列,最后1个阿拉伯数字在表的最顶端一行。如第1个分位数=0.025,它位于-1.9在行与0.06所在列的交叉处,故z=-1.96。用相同的方式找到每个分位数。如果分位数在表的两个值之间,将需要用插值法进行求解。例如:第4个分位数为0.175,它位于0.1736与0.1762之间。0.1736对应的z值为-0.94,0.1762对应的z值为-0.93,故这两数的中间值为z=-0.935。现在,可以用过程数据和相应的z值作图。图表5.127显示了结果和穿过这些点的直线。注意:在图形的两端,点位于直线的上侧。这属于典型的右偏态数据。图表5.128显示了数据的直方图,可进行比较。概率图(probabilityplot)该方法可以用于检验任何数据的已知分布。这时我们不是在正态分布概率表中查找分位数,而是在感兴趣的已知分布表中查找它们。分位数-分位数图(quantile-quantileplot)同理,任意两个数据集都可以通过比较来判断是否服从同一分布。计算每个分布的分位数。一个数据集对应于x轴,另一个对应于y轴。作一条45°的参照线。如果这两个数据集来自同一分布,那么这些点就会靠近这条参照线。注意事项·绘制正态概率图有很多方法。除了这里给定的程序以外,正态分布还可以用概率和百分数来表示。实际的数据可以先进行标准化或者直接标在x轴上。·如果此时这些数据形成一条直线,那么该正态分布的均值就是直线在y轴截距,标准差就是直线斜率。·对于正态概率图,图表5.129显示了一些常见的变形图形。短尾分布:如果尾部比正常的短,则点所形成的图形左边朝直线上方弯曲,右边朝直线下方弯曲——如果倾斜向右看,图形呈S型。表明数据比标准正态分布时候更加集中靠近均值。长尾分布:如果尾部比正常的长,则点所形成的图形左边朝直线下方弯曲,右边朝直线上方弯曲——如果倾斜向右看,图形呈倒S型。表明数据比标准正态分布时候有更多偏离的数据。一个双峰分布也可能是这个形状。右偏态分布:右偏态分布左边尾部短,右边尾部长。因此,点所形成的图形与直线相比向上弯曲,或者说呈U型。把正态分布左边截去,也会是这种形状。左偏态分布:左偏态分布左边尾部长,右边尾部短。因此,点所形成的图形与直线相比向下弯曲。把正态分布右边截去,也会是这种形状。·如果翻转正态概率图的数轴,那么弯曲的形状也跟着翻转。比如,左偏态分布将是一个U型的曲线。·记住过程应该在受控状态下对图形作出有效判断。·尽管作直方图能马上知道数据的分布,但它却不是判断这些数据是否来自同一特定分布的好办法。人眼不能很好地判别曲线,其他的分布也可能形成相似的形状。并且,用服从正态分布的少量数据集作成的直方图可能看起来不是正态的。因此,正态概率图是判断数据分布的较好方法。·判断数据分布的另一种方法是使用拟合良好性检定,比如Shapiro-Wilk检验,Kolmogorov-Smirnov检验,或者Lilliefors检验。关于这些检验的具体描述,不在本书的讨论范围,这些检验在大多数的统计软件上都能实现。向统计学家咨询如何选择正确的检验并解释其结果。请参阅“假设检验”以理解这些检验和所得到的结论的一般原则。·最好的方法是使用统计软件得到正态概率图并作拟合性检验。结合使用可以对数据和统计标准有直观的理解,以此判定是否为正态。END