Minitab操作基础教程

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Minitab操作简明讲义制作:胡敏峰2011/1/112大纲统计学的由来概率论基础知识常用的连续分布和离散分布描述性统计及图形统计基础假设检验比率检验、非参数检验、探索性数据分析相关分析和回归分析变异源分析测量系统分析统计过程控制试验设计六西格玛设计2011/1/113统计学的由来•人类社会的质量活动可以追溯到远古时代,远在奴隶社会,由于赋税、徭役、征兵等需要,国家就要掌握人口、土地等数字。公元前3050年,埃及建造金字塔,为征集建筑费,就有对全国人口与财产的调查。罗马皇帝凯撒·奥古斯都曾下过一道命令,要全世界向他纳税,于是每个人都向就近的收税人登记。中国在夏禹时代就开始有人口统计的数字。春秋时期《管子》一书中曾记载:不明于计数,而欲举大事,犹无舟楫而欲经水险。但是作为一门科学,统计学的出现要比统计工作和统计资料晚得多2011/1/114统计学的由来•18世纪,德国哥廷根大学教授阿亨瓦尔在其著作《近代欧洲各国国势学纲要》的绪论中首次提出“统计学”这一名词;把统计学定义为国家显著事项的结晶体。•简单来说,统计学是研究如何收集、整理、分析和解释数据资料的一门科学,特点是:1.研究数量方面的学问。(统计学的语言是数字,没有数字,就谈不上统计)2.研究的是客观现象总体的数量特征(数量有个体和总体之分,统计学研究总体,但是必须从样本的调查入手,遵循从样本到整体的认识逻辑)3.主要研究不确定性现象。4.是一门方法论的科学2011/1/115统计学的由来•统计学分类大致有以下两种理论统计学(MathematicalStatistics)与应用统计学描述统计学与推论统计学2011/1/116六西格玛名称的具体由来---摩托罗拉•当年摩托罗拉在进行大幅度的质量改进运动时,有一位叫比尔·史密斯(BillSmith)的工程师在研究制造缺陷和可靠度之间的关系时发现一个惊人的结论:需要在产品设计半个公差限范围内包含六倍标准差(6σ),才能从源头上确保产品不会发生缺陷!•这个观点最终被整个公司所理解和采纳,并且将这场质量改进运动命名为六西格玛,而史密斯本人也因此被尊称为“六西格玛之父”2011/1/117六西格玛统计原理释义•6σ代表的是理想化的高质量水平,在考虑了平均值可能含有的1.5个σ的偏移后,半个公差限内可以包含6个σ,这时,每百万次机会中出现缺陷的个数只有3.4(相当于正态分布超过4.5个σ外的单侧概率)2011/1/118六西格玛改进模式----DMAIC☼D(Design)-界定阶段确认顾客的关键需求并识别需要改进的产品或流程,决定要进行测量、分析、改进和控制的关键质量特性(CTQ),将改进项目界定在合理的范围内。☼M(Measurement)-测量阶段通过对现有过程的测量和评估,制定期望达到的目标及业绩衡量标准,识别影响过程输出Y的输入X,并验证测量系统的有效性。☼A(Analysis)-分析阶段通过数据分析确定影响输出Y的关键X,即确定过程的关键影响因素。☼I(Improvement)-改进阶段寻找最优改进方案,优化过程输出Y并消除或减小关键X的影响,使过程的缺陷或变异降至最低。☼C(Control)-控制阶段将改进成果进行固化,通过修订文件等方法是成功经验制度化。通过有效的监测方法,维持过程改进的成果并寻求进一步提高改进效果的持续改进方法2011/1/119六西格玛各阶段工具的组成界定阶段常用工具SIPOC图、立项说明书、KANO模型分析、QFD(质量功能展开)、COPQ(劣质成本分析)等测量阶段常用工具流程图、MSA(测量系统分析)、过程能力分析、数据调查表、直方图、箱线图、散布图、时间序列图等分析阶段常用工具包括帕累托(Pareto)图、因果图、假设检验、ANOVA(方差分析)、相关与回归分析、FMEA(失效模式及效应分析)、列联表卡方分析、多变异分析、可靠性分析、时间序列分析等改善阶段常用工具包括脑力激荡法、TRIZ(创新方法与理论)、DOE(试验设计)、防差错措施等控制阶段常用工具包括SPC(统计过程控制)、SOP(标准作业程序)、控制计划与项目报告等2011/1/1110概率论基础知识•在同一组条件下,对某事物或现象所进行的观察或实验叫随机试验(experiment),把观察或试验的结果叫随机事件(event)。•例如,抛掷一枚质地均匀的骰子就是一次试验,骰子落地,可能出现1点、2点、……、6点,或为奇数点或为偶数点,点数大于5,等等,这些就是一个个事件。这些事件在一次试验中可能出现也可能不出现,我们称之为随机事件。•如果随机试验的每种结果可以用一个数字作为其代表,则我们称此变量为随机变量(randomvariable)•随机变量究竟在一次试验中会出现哪个值,在试验前是完全不能确定的。通常的随机变量都具有这种性质和特点:事先可以肯定取值范围,但不能肯定具体的取值是多少。2011/1/1111随机变量•随机变量的取值有两种不同的类型•1.离散性(discrete)随机变量例如:某铸件上的缺陷点数,手机外壳透明显示框内包含的气泡数、布匹上的疵点、车床一天内发生的故障次数、京津高速公路上的事故数等等•2.连续性(continuous)随机变量例如:某品牌手机电池的寿命(单位:小时),PCB板上的焊锡膏涂层厚度、硝酸铵化肥反应罐每天的产量2011/1/1112随机变量65432100.300.250.200.150.100.050.00X概率分布图离散,值=等级,概率=P•简单的随机变量图形制作2011/1/1113随机变量•随机变量统计学概念•概率分布是个函数,要想抓住一个函数的状况是很不容易的。•比如在市场上买了一堆河虾,你可以说:“这些河虾平均每斤50头,个头虽然不大,但还算整齐”。•这里至少提供了两方面的信息:平均值如何,分散程度如何。•从统计学角度讲这就是“平均值”(一般用E(X)表示)和“方差”(一般用V(X)表示)两个基本概念。2011/1/1114平均值•从物理意义上讲,平均值相当于物体的质心的位置……μx1x2x3x4xi……p1p2p3p4pi2011/1/1115方差•方差•V(X)=σ2=E(X-μ)2附图中均值是相同的,都是0;它们的差别是分散程度不同,图形较”瘦”的表示分散程度较小,角“胖”的表示分散程度较大。从公式来看,不论X取值比μ大还是小,V(X)都是正数,X取值偏离μ越远,V(X)越大。因此,方差代表的量就是随机变量分散的程度。7.55.02.50.0-2.5-5.00.40.30.20.10.0X密度12标准差分布图正态,均值=0方差的物理意义:代表该密度图形绕质心的转动惯量。2011/1/1116标准差•但是方差有个先天性缺点:均值的量纲与原随机变量X的量纲[X]是一致的;但是方差的量纲是X量纲的平方,即为[X]2所以引入标准差(Standarddeviation)概念,常用希腊字母σ(读音为“西格玛”或“sigma”)表示由此可知σ=2011/1/1117标准差•正态分布的密度曲线是钟形的•最中间是对称中心的均值位置;•曲线两端是下凸的(凹的),中心段部分是上凸的,在凹和凸的交界处有个转折点,称为拐点;拐点到中心线的距离就是标准差σ。标准差越大,数据越分散;标准差越小,数据越集中。1851801751701651601551500.080.070.060.050.040.030.020.010.00X密度分布图正态,均值=168,标准差=5.5σ拐点2011/1/1118偏度和峰度•偏度(skewness)是对随机变量分布不对称性的度量,用βs表示。•峰度(kurtosis)是度量随机分布中间部分的陡峭程度及两端尾部的厚重程度,也可以简单的当作分布平坦性的度量,用βk表示。2011/1/1119累积分布函数•当分布密度p(x)给定后,为了能顺利计算出落入任意一个区间的概率,我们需要引入累积分布函数概念。•我们用F(x)代表累积分布函数(cumulativedistributionfunction,简记为cdf)或简称为分布函数。对于任意指定的x值,F(x)代表随机变量落入其左方的概率,含义如阴影部分所示•如下性质:•1.当x趋于负无穷时,F(x)趋于0;当x趋于正无穷时,F(x)趋于1.•2.x逐渐增长时,F(x)也会逐渐增长,至少不会减小。2011/1/1120随机变量的分位数•常听说“长江三峡大坝可以抵御百年一遇的洪水”。“百年一遇”是什么意思?•有人说:“这很简单,将100年的水位记录下来,最大的水位就是百年一遇的水位”。•但是这就有个理论上的矛盾,如果有连续两个“百年水位记录”,它们这两组数的最大值不一样,那又该定哪个?如果有连续十个“百年水位记录”,它们这十组数据都各自有自己的“百年一遇”值(即各自的最大值),那么又从哪里能得到“千年一遇”值呢???且看下面正确答案…………2011/1/1121随机变量的分位数•如果得到年最高水位X的分布函数,取一个这样的数:随机变量X的取值比它大的概率正好是1/100时,则此数被称为“百年一遇”。•更一般的说:随机变量X的取值比它大的概率正好是1/T时,则此数被称为“T年一遇”值。•对于随机变量X,如果数值xp可以满足:P{X≤xp}=p,则称xp为随机变量X的p分位数例如:P{X≤x0.1}=0.1,x0.1就是随机变量X的0.1分位数。所以我们可以得知:“百年一遇”值就是年最高水位分布的0.99分位数,即x0.99;此数也被称为右侧0.01分位数。同理:“千年一遇”值就是年最高水位分布的0.999分位数,即x0.999计算方法:计算概率分布(选择相应分布)逆累积概率输入常量p,即可得到随机变量X的p分位数。2011/1/1122随机变量的中位数•如果p取值为0.5(此数特别重要!!),x0.5被称为中位数,常用m表示。其含义是随机变量X取值中,有一半比m小,另一半比m大。•如果分布基本对称,中位数应该与均值相等;如果如下图所示,中位数肯定比均值要小些。•中学物理告诉我们物体重心的概念:一根电线杆,悬线可以确定重心位置,如果用锯沿着重心点切开,左右两半的重量相等。2011/1/1123随机变量的四分位数及四分位数间距•如果p取为0.25或0.75,这样的数被称为四分位数(quantile):•x0.25被称为下四分位数(lowerquantile,LQ)或第一四分位数(firstquantile,Q1)•x0.75被称为上四分位数(upperquantile,UQ)或第三四分位数(thirdquantile,Q3)•如图,LQ与UQ所界定的范围内将包含约一半的数据,常用来表示数据的主体部分;•两个四分位数之间的距离是描述随机变量离散状况非常重要的参数,被称为四分位间距(interquantilerange,IQR):IQR=UQ-LQ65432100.40.30.20.10.0X密度分布图Weibull,形状=1.75,尺度=2,阈值=0LQUQm2011/1/1124常用连续分布1.正态分布(Normaldistribution)2.均匀分布(Uniformdistribution)3.指数分布(Exponentialdistribution)4.对数正态分布(Lognormaldistribution)5.威布尔分布(Weibulldistribution)6.三角形分布(Triangulardistribution)7.Beta分布(Betadistribution)8.Cauchy分布(Cauchydistribution)9.Gamma分布(Gammadistribution)10.Laplace分布(Laplacedistribution)11.Logistic分布(Logisticdistribution)12.对数Logistic分布(Loglogisticdistribution)13.最大极值分布(Lar

1 / 67
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功