天津大学马逢时六西格玛统计中应该注意的问题庆祝中国质量俱乐部成立五周年天津大学马逢时2012年11月天津大学马逢时2报告提要�1.六西格玛统计含义�2.关于离散型变量的处理�3.关于广义回归�4.关于六西格玛设计�5.MINITABR17中文版简介天津大学马逢时�通常含义:指单元统计学,含假设检验、比较方法、ANOVA、回归分析、变异源分析、过程能力分析、测量系统分析、DOE。�上述统计特点是:数据相互独立;正态分布;响应变量只有一个。�推广到多个响应变量:多元统计分析�推广到非独立数据:时间序列分析�推广到可靠性寿命分布:可靠性统计分析1.六西格玛统计含义天津大学马逢时�实际问题千差万别。�与其说统计是“科学”,不如说统计是“艺术”,更接近于“针对具体问题的具体处理方法”。�现在最大问题是两方面都有:不敢用;滥用。�每个统计方法的使用中都要注意条件。条件不满足时,所得到的结论就都不可信。1.六西格玛统计含义天津大学马逢时�回归分析中,实际处理的是Y(连续型响应变量)与多个X(全部都是连续型响应变量)间的关系。如果自变量中,含义离散变量(类别变量),则要用广义回归。�在试验设计(DOE)中,响应变量也要是连续型响应变量(否则要经过Logistic变换,将其变成连续型),因子也要取连续变量值(离散化),将其化为回归分析问题处理之。2.关于离散变量的处理天津大学马逢时�《六西格玛统计指南》中,只讨论了连续变量型因子。�第二版中,增加了相当多的内容,主要是:因子中有连续型也有离散型的情况�所有修改内容都存在网上:�电子信箱:fengshima@163.com�登录密码:statistics2.关于离散变量的处理73.广义回归YYYY连续YYYY离散X连续相关分析回归分析Logistic回归X含连续且离散广义回归广义回归广义回归广义回归Logistic回归X离散ANOVA比较方法列联表(卡方检验)�变量间关系的一般处理方法�当自变量中兼有连续及离散两种类型时,只能用广义回归分析天津大学马逢时�在实际问题需要进行回归分析时,自变量中不仅会有连续变量,也会有离散变量,更多的情况是同时遇到这两类变量。�最简单的回归模型:�例。A、B两个实验室都研究糖的溶解度与温度关系。�开始时,不能断定两个实验室数据是否有显着差异,更不能断定二者的回归方程是否有显著差异。�分别进行回归分析,然后呢?�影响溶解度的除温度外,也受到实验室的影响,因此可以考虑建立溶解度与温度和实验室的回归方程,可以根据实验室间的差异是否显着来处理回归方程。3.关于广义回归天津大学马逢时�可能两个方程基本相同3.关于广义回归若两方程完全相同,则应该将数据合并,以获得精度更高的回归方程。天津大学马逢时�两组方程斜率相同,仅截距不同(相差一个常数)3.关于广义回归若两方程仅相差一个常数,则认为离散因子与连续因子无交互作用。天津大学马逢时�两组方程斜率都不同(但仍然都是线性方程)3.关于广义回归离散因子影响了方程(斜率),则称离散因子与连续因子有交互作用天津大学马逢时�一个线性,另一个(Y5)有明显弯曲3.关于广义回归离散因子影响了方程类型(非线性),则应该拟合更高阶方程天津大学马逢时�回归方程定阶的正确方式�1.拟合线性方程。若残差正常,则可选定线性方程(严格的步骤应该是先建立二阶方程,而判断了二阶项不显着,则建立线性模型就是准确的结果)若残差不正常(例如有弯曲),则必须选定更高阶的(例如二次)方程。�2.拟合二阶回归方程(假定离散变量取不同值时,方程相同,最多只常数项不等)�3.拟合一般的广义回归模型。允许离散变量取不同值时,方程可能不相同,可能包含二次项等。如果离散变量的效应不显着,则可以返回普通回归。3.关于广义回归14类别变量与连续自变量间的交互作用�一般情况下,类别变量取不同值时,函数关系应该写成分类的表达方式分类的表达方式分类的表达方式分类的表达方式(即类别变量取不同值时,回归方程应并列为多个)。�如果当类别变量取不同值时,函数关系中只有截距项不同时,我们称为此类别变量与连续自变量间没有交互作用;�如果当类别变量取不同值时,函数关系中回归系数有不同时,我们称为此类别变量与连续自变量间有交互作用。�通常是求出带交互作用的回归方程,经检验确认无交互作用后,再回到无交互作用的方程上来。天津大学马逢时2222岁3333岁4444岁5555岁6666岁7777岁AAAA省79.591.199.7112.8124.2140.082.490.997.7110.4118.5137.481.289.6100.7108.7121.8134.2BBBB省80.788.4102.7116.4127.1142.386.093.6103.4114.9122.9135.483.690.499.7113.5125.0139.83.1无交互作用的广义回归例1儿童发育问题。研究幼儿(2岁至7岁)的身高变化规律,在A及B两省对各个年龄的幼儿分别抽取3名儿童,测量了他们的身高。试比较两省间幼儿发育状况是否有显著差异?本问题中有两个自变量:年龄(连续型),省份(类别变量)。163.1无交互作用的广义回归�例1儿童发育问题。幼儿(2岁至7岁)的身高随年龄的增长而增高,在A、B两省对各个年龄的幼儿分别抽取3名儿童,测量他们的身高(单位:厘米),其数据列在数据文件:REG_幼儿身高.mtw。�试比较两省间幼儿发育状况是否有显著差异?7654321501401301201101009080年龄身高AB省份身高与年龄的散点图天津大学马逢时�使用MINITABR16的“广义回归”窗口,假定只进行线性回归,且两省回归方程系数相同(常数项除外)3.1无交互作用的广义回归天津大学马逢时�计算结果如下(方案1):�回归方程�省份�A身高=56.6154+11.1324年龄�B身高=59.1154+11.1324年龄��系数�项系数系数标准误TP�常量56.61541.3322342.49670.000�年龄11.13240.2608542.67670.000�省份�B2.50000.890992.80590.0083.1无交互作用的广义回归两省方程系数相同,只常数不同两省差异显着年龄影响显着193.1无交互作用的广义回归�方差分析�来源自由度SeqSSAdjSSAdjMSFP�回归213068.913068.96534.4914.580.0000000�年龄113012.613012.613012.61821.300.0000000�省份156.356.256.27.870.0083517�误差33235.8235.87.1�失拟9110.8110.812.32.360.0447851�纯误差24125.0125.05.2�合计3513304.7年龄、省份两项皆显著有失拟203.1无交互作用的广义回归残差对于年龄项有弯曲,应增加年龄平方项7654325.02.50.0-2.5-5.0年龄残差残差与年龄(响应为身高)213.1无交互作用的广义回归增加自变量平方项可以直接列入223.1无交互作用的广义回归�省份�A身高=67.2733+39845年龄+0.614881年龄*年龄�B身高=69.7733+39845年龄+0.614881年龄*年龄��系数�项系数系数标准误TP�常量67.27332.7396324.55560.000�年龄39851.323734.22930.000�省份�B2.50000.724303.45160.002�年龄*年龄0.61490.145184.23520.000年龄、年龄平方及省份间差异显著,残差正常。但是否为最终模型尚待确认。见下节。233.2带交互作用的广义回归�例2钢材锈蚀量的计算。进行钢材锈蚀的规律进行定量分析。钢材锈蚀不但与钢材配方有关,而且与环境中的含盐量有关(盐越多锈蚀越快),与温度有关(温度越高锈蚀越快),与时间有关(时间越长锈蚀越严重)。�先研究锈蚀与温度间的关系。我们将3种配方A、B及C(后两种增加了不同的铬及镍)生产出的不同之螺纹钢(直径都取Φ28,每种螺纹钢都再分为两组),选定30℃、50℃、70℃、80℃及90℃共5种温度,将螺纹钢都放入5%浓度之食盐溶液制成的盐雾箱中72小时,螺纹钢将被锈蚀。将原重量减去酸洗后剩余之重量即得到锈蚀量(单位:克)。我们希望建立锈蚀量Y与温度及配方间的回归方程。数据列在数据文件:REG_锈蚀量.mtw�温度是连续型变量;配方为类别变量。要进行广义回归,以确认锈蚀量与温度的关系(在不同的配方下)。243.2带交互作用的广义回归�不同配方间锈蚀量关系显著不同。线性?二次?90807060504030605040302010温度锈蚀量ABC配方锈蚀量与温度的散点图253.2带交互作用的广义回归�广义回归分析::::锈蚀量与温度,,,,配方(含温度的平方项)�回归方程�配方�A锈蚀量=28.9178+0.580319温度-0.00283733温度*温度�B锈蚀量=23.7278+0.580319温度-0.00283733温度*温度�C锈蚀量=1.47782+0.580319温度-0.00283733温度*温度项系数系数标准误TP常量28.91783.686647.84400.000配方B-5.19000.97975-5.29730.000C-27.44000.97975-28.00710.000温度0.58030.133974.33180.000温度*温度-0.00280.00111-2.55150.017B、C与A差异显著温度及平方项都显著263.2带交互作用的广义回归�残差对于三组形状不同,配方A尾部明显上扬。273.2带交互作用的广义回归�A锈蚀量=39.938+0.104526温度+0.00142377温度*温度�B锈蚀量=13059+0.914302温度-0.00572175温度*温度�C锈蚀量=-1.32036+0.72213温度-0.00421402温度*温度�项系数系数标准误TP�常量39.93805.462347.311510.000�温度0.10450.200870.520360.608�配方�B-24.43217.72492-3.162760.005�C-41.25837.72492-5.340940.000在常数项上B、C都与A有显著差异283.2带交互作用的广义回归�温度*配方�B0.80980.284082.850550.010�C0.61760.284082.174070.041�温度*温度0.00140.001670.853910.403�温度*温度*配方�B-0.00710.00236-3.030320.006�C-0.00560.00236-2.390910.026“温度*配方”项上B、C都与A有显著差异“温度*温度*配方”项上B、C都与A有显著差异B与C间的比较如何进行?293.2带交互作用的广义回归�方差分析�来源自由度SeqSSAdjSSAdjMSFP�回归85139.385139.38642.422178.6060.000000�配方24249.84103.7751.88314.4240.000114�温度1813.840.970.9740.2710.608257�配方*温度27.7531.9215.9584.4370.024708�温度*温度131.252.622.6230.7290.402792�温度*温度*配方236.7136.7118.3545.1030.015627�误差217337333.597�失拟611.0211.021.8370.4270.849661�纯误差1564.5164.514.301�合计295214.91两个交互作用项都显著303.2带交互作用的广义回归应该以“配方”中的“B”为参考事件填写参考事件时只能在编码类型为(10)时使用313.2带交互作用的广义回归�配方�A24.43217.724923.162760.005C-16.82627.72492-2.178