实验设计----DOE第一部分认识DOE在进行6西格玛项目的改进阶段时,我们经常需要面对的一个问题是:在相当多的可能影响输出Y的自变量X中,确定哪些自变量确实显著地影响着输出,如何改变或设置这些自变量的取值会使输出达到最佳值?我们传统使用的方法:将影响输出的众多输入变量在同一次试验中只变化一个变量,其他变量固定。传统方法的缺点:试验周期长,浪费时间,试验成本高;试验方法粗糙,不能有效评估输入间的相互影响。试验策划时,研究如何以最有效的方式安排试验,能有效识别多个输入因素对输出的影响;试验进行时,通过对选定的输入因素进行精确、系统的人为调整来观察输出的变化情况;试验后通过对试验结果的分析以获取最多的信息,得出“哪些自变量X显著地影响着输出Y,这些X取什么值时会使Y达到最佳值”的结论。可以有效克服上述缺点的试验方法是:DOE我们在分析阶段使用回归分析方法对历史数据进行分析,获得了相应的回归方程,得到Y与各个X间的关系式。但这种关系的获得是“被动”的,因为我们使用的是已有的现成的数据,几乎无法控制适用范围,无法控制方程的精确度,只能是处于“有什么算什么”的状况。我们采用DOE的方法,自变量常取一些过去未曾取过的数值,并且进行精确的控制,对要研究的问题进行更广泛的探索,目的是要取得突破性改善。2、DOE的基本术语2.1因子:影响输出变量Y的输入变量X称为DOE中的因子可控因子:在实验过程中可以精确控制的因子,可做为DOE的因子非可控因子:在实验过程中不可以精确控制的因子,亦称噪声因子,不能作为DOE的因子。只能通过方法将其稳定在一定的水平上,并通过对整体试验结果的分析,确定噪声因子对试验结果的影响程度。可控因子对Y的影响愈大,则潜在的改善机会愈大。EXP:可控因子和噪声因子表:因素对输出的影响改变的难易度是否作为试验因素目前水平非试验因素的处理焊接温度⊙⊙Y245松香比重⊙○Y0.81预热温度○○Y120波峰高度○△N采用现有参数⊙影响重大或容易改变;○影响中等或较易改变;△影响轻微或难以改变在DOE的策划阶段,首先要识别可控因子和噪声因子2.2水平:因子的不同取值,称为因子的“水平”2.3处理:各因子按照设定的水平的一个组合,按照此组合能够进行一次或多次试验并获得输出变量的观察值2.4模型与误差:按照可控因子x1、X2、。。。XK建立的数学模型Y=F(x1、X2、。。。XK)+ε误差ε包含:由非可控因子所造成的试验误差失拟误差(lackoffit):所采用的模型函数F与真实函数间的差异2.5望大:希望输出Y越大越好望小:希望输出Y越小越好望目:希望输出Y与目标值越接近越好2.6主效应:一个因子在不同水平下的变化导致输出变量的平均变化因子的主效应=因子为高水平时输出的平均值-因子为低水平时输出的平均值交互效应:如果一个因子的效应依赖于其它因子所处的水平时,则称两个因子间有交互效应因子AB的交互效应=(B为高水平时A的效应-B为低水平时A的效应)/2EXP:A的主效应:30B的主效应:40AB的交互效应:10无交互效应的效应图:平行线有交互效应的效应图:交叉线3、试验设计的基本原则完全重复进行试验的目的就是比较不同处理之间是否有显著差异,而显著性检验是拿不同总体间形成的差别与随机误差相比较,只有当各总体间的差别比随机误差显著地大时,才说“总体间的差别是显著的”,没有随机误差的估计就无法进行任何统计推断。因此,在试验的安排中,在处理相同的条件下一定要进行完全重复试验,以获得试验误差的估计。注意:一定要进行不同单元的完全重复,不能仅进行同单元的重复取样例如:在研究热处理问题时,不能仅从同一次试验中抽取不同的样品进行性能测试,而应该对同一组试验条件进行重新重复试验;否则将会造成试验误差的低估。随机化以完全随机的方式安排各次试验的顺序和所有试验单元。目的是防止那些试验者未知的但可能会对响应变量产生某种影响的变量干扰对实验结果的分析。随机化并没有减少试验误差本身,但随机化可以使不可控因素对实验结果的影响随机地分布于各次试验中区组化实际工作中,各试验单元间难免会有某些差异,如果可以按照某种方式进行分组,每组内可以保证差异较小,而允许区组间差异较大,可以很大程度上消除由于较大试验误差所带来的分析上的不利。能分区组者则分区组,不能分区组者则随机化4、DOE的一般步骤4.1通过历史数据或现场数据确定目前的过程能力;4.2确立试验目标并确定衡量试验输出结果的变量;4.3确定可控因素和噪声因素;4.4确定每个试验因素的水平数和各水平的实际取值;并确定试验计划表;4.5验证测量系统;4.6按照试验计划表进行试验;并测量试验单元的输出;4.7分析数据,进行方差分析和回归分析,找出主要因素并确定输入和输出的关系式;4.8确认取得最好输出结果的因素水平的组合;4.9在此优化组合的因素水平上进行重复试验以确认效果;4.10通过标准作业程序固定优化的条件,并进行控制;4.11重新评估优化后的过程能力;5、DOE所用到的主要工具测量系统分析假设检验:看检验结果的P值,P值小于设定的显著性水平(例如0.05)时判定要检验的两总体间有显著差异;P值大于设定的显著性水平(例如0.05)时判定要检验的两总体间没有有显著差异;方差分析:看检验结果的P值,P值小于设定的显著性水平(例如0.05)时判定要检验的多总体间有显著差异;P值大于设定的显著性水平(例如0.05)时判定要检验的多总体间没有有显著差异;回归分析:看检验结果的P值,P值小于设定的显著性水平(例如0.05)时判定要检验的回归项或回归方程显著(有效);P值大于设定的显著性水平(例如0.05)时判定要检验的回归项或回归方程不显著(无效);6、DOE的类型因子筛选设计:试验目的是为了确定在相当多的自变量中,哪些自变量并不显著地影响输出并予以删除,而保留那些显著影响输出的自变量。回归设计:试验目的是为了确定输入与输出之间的关系式,找出回归方程。两水平因子设计:三水平因子设计:单因子试验设计:全因子试验设计:部分因子试验设计:第二部分单因子试验设计单因子试验通常的两个目的:比较因子的几个不同设置间是否有显著差异,如果有显著差异,哪个或哪些设置较好;建立响应变量与自变量间的回归关系(线性、二次或三次多项式);EXP:烘烤时间和拉拔力的试验结果如下表(将20个产品随机抽取分为四组,在每种烘烤条件下按随机顺序试验5个产品):时间55.566.5产品186.594.389.686.4产品29293.394.287.9产品385.29290.890.6产品487.989.892.784.5产品58692.590.988.4完全重复:每种条件下进行5次试验;随机化:每组样品的分配和试验顺序完全随机化;区组化:如果有不同的型号,要分区组(本例不涉及);目的一:各条件下的平均值是否有显著差异?哪个条件下最大?--单因子ANOVA1、验证数据的正态性和等方差性:等方差性检验的P值为0.798,可以认为四组数据的方差相等。2、进行方差分析,检验各总体均值是否存在差异方差分析结果显示的P值为0.003,可以认为四组数据的均值有显著的差异目的二:建立响应变量与因子间的回归关系--回归分析从线性回归模型的拟合图和残差图可以看出,有明显的弯曲趋势。因为自变量取值达到了3个以上,因此可以拟合二次函数。在回归模型类型中选择“二次”:对回归结果进行分析:回归方程的P值0.001,方程有效;残差图无异常。回归方程:Y=-202.3+102.7X-8.940X**2由二次方程的特点可知,该方程的输出Y在X=-102.7/2*(-8.940)=5.7时达到最大值92.63第三部分全因子试验设计全因子试验设计是指所有因子的所有水平的所有组合都至少进行一次试验优点:可以估计所有的主效应和所有的各阶交互效应缺点:所需试验的次数较多当因子个数不太多,而且确实需要考察较多的交互作用时,选用全因子试验设计两水平全因子试验:2k在两水平全因子试验中如何考虑DOE三原则中的重复试验原则?A:将每一组试验条件重复2次或多次进行优点:对试验误差估计得更准确缺点:试验次数成倍增加B:在“中心点”处安排3-4次重复试验优点:进行了完全相同条件下的重复,可以估计出试验误差(随机误差)因子的取值由2个增加到3个,增加了对于响应变量可能存在的弯曲趋势的估计能力。该效果是简单重复所不能达到的将中心点处所进行的3-4次试验安排在试验的开头、中间和结尾,这几个点的试验结果应只存在随机误差。如果这几个试验结果呈现非常明显的上升、下降或其他不正常的趋势,则可以帮助发现试验过程中的不正常现象试验水平代码化代码即将因子取不同水平时赋予一个符号值,;例如两水平试验时,因子取低水平的代码设定为-1,高水平的代码设定为1,中心点的代码设定为0。实践经验表明,在分析阶段,应对代码化后的数据进行分析。优点:代码化后的回归方程中,自变量及交互作用项的各系数可以直接比较,系数绝对值大的效应比系数绝对值小的效应更重要、更显著;代码化后的回归方程中各项系数的估计量间是不相关的,即删除或增加某项,对于其他项的回归系数将不会发生影响;在自变量代码化后,将各自变量以中心点0代入方程得到的相应变量的预测值是全部试验结果的平均值,也是全部试验范围中心点上的预测值;真实值与代码值之间的换算:中心值=(低水平+高水平)/2半间距=(高水平-低水平)/2代码值=(真实值-中心值)/半间距全因子试验案例:1、选定因子并确定水平,生成试验计划表选择合适的工艺参数,使合金钢板经过热处理后提高其抗断裂性能。经过分析找出四个重要因子,确定哪些因子的影响确实是显著的,进而确定出最佳工艺条件。加热温度:低水平820,高水平860加热时间:低水平2分钟,高水平3分钟转换时间:低水平1.4,高水平1.6保温时间:低水平50分钟,高水平60分钟进行全因子试验,在中心点进行3次试验,一共19次试验。用Minitab实现:计算机会自动对于试验顺序进行随机化处理。输出如下表格:注意:每次得到的随机化后的试验顺序是不一样的。2、按照上述试验顺序进行试验,并记录每批试验后得到的强度值,填写在试验表的对应列内:3、对试验结果进行分析:DOE分析的五步骤的流程:第一步:拟合选定模型及模型分析:由于三阶及三阶以上的交互作用通常可以忽略不计,我们通常所说的全模型就是在模型中包含全部因子的主效应及全部因子的二阶交互效应。在对模型进行分析后,如果可以断言某些主效应及二阶交互效应不显著,则将不显著的效应删除,只保留效应显著的项。Minitab运行窗口的输出如下:分析评估回归的显著性:(1)看ANOVA表:如果对应“主效应”和“2因子交互效作用”中至少一项的P值<0.05,则可以判定本模型总的来说是有效的,如果两项的P值>0.05,则可判定本模型总的来说是无效,此时说明整个试验没有有意义的结果。造成该情况的原因可能有以几点:试验误差大。由于ANOVA检验的基础是将有关各项的离差平方和与随机误差的平方和相比较,形成F统计量。如果随机误差平方和太大,则将使F变小,以而得到“不显著”的结论。此时,应仔细分析误差产出的各项原因,能否设法降低误差。•由测量系统造成的,应改进测量系统。•试验设计中漏掉了重要因子,漏掉重要因子会使“试验误差”增大。在初期选定因子时,应该“宁多毋漏”,因子多选了,将来删除很容易,但漏掉了想找回来难度就较大。有可能模型本身有问题。例如模型有失拟或数据本身有较强的弯曲。在本例中,主效应P值0.001(显著)、2因子交互作用P值0.465(不显著)(2)看ANOVA表中的失拟项:如果失拟项的P值>0.05,表明本模型没有失拟观象,反之就说明模型漏掉了重要的项(如高阶交互作用项),应该补上。(3)看ANOVA表中的弯曲项:如果弯曲项的P值>0.05,表明本模型没有弯曲现象。反之,就说明数据呈现弯曲,而模型中没有平方项,应该补上。本例中,失拟项的P值0.709(无失拟);弯曲项的P值0.633(无弯曲);分析评估回归的总效果:(1)对于两