2019/8/201SPC入门培训2课程介绍基本数据分析及应用方差分析及应用过程稳定性及过程能力分析相关性分析和回归分析注:本课程中所有的数据、分析过程、分析结果都是基于Minitab15工具。课件实验数据来源于:《生产率数据.MPJ》、《脉搏.mtw》。3基本数据分析排序点击数据→排序先将数据按时间进行排序。①②③④4基本数据分析单值图点击图形→单值图,看到下图,在“数据视图”中选择“平均值连接线”。。①②③④5基本数据分析单值图分析结果日本内部国内7654321业务方向生产率生产率的单值图从结果中我们可以看出3个业务方向的生产率的平均值明显不同,且国内的平均值明显高于对日和内部的平均值。6基本数据分析直方图点击图形→直方图选择“包含拟合组”这个图形方式。①②③7基本数据分析直方图的结果9.07.56.04.53.01.50.00.60.50.40.30.20.10.0生产率密度4.5461.9078**12.5110.702620均值标准差N国内内部日本业务方向生产率的直方图正态从图中可以看出,对日的生产率平均值为2.511,明显小于国内的4.545。但对日(20个数据点)的数据分布相对国内(8个数据点)要集中。8基本数据分析图形化汇总点击统计→基本统计量→图形化汇总①③②965432中位数平均值3.503.253.002.752.502.252.00第一四分位数1.9075中位数2.7013第三四分位数3.5262最大值6.63792.52083.62352.18153.27441.15041.9605A平方1.44P值小于0.005平均值3.0721标准差1.4496方差2.1013偏度1.25130峰度0.79801N29最小值1.5222Anderson-Darling正态性检验95%平均值置信区间95%中位数置信区间95%标准差置信区间95%置信区间生产率摘要基本数据分析分析图右边分析结果的解释:①是正态分布验证,由于P值=0.0050.05,故该组数据不是正态分布的。②是数据的平均值以及偏态等结果③是数据的最大、最小、四分位及中位数的值。④是平均值、中位数、标准差95%的置信区间。图形自上而下分别为:直方图、箱式图、和区间图由于数据不是正态分布的,所以平均值及标准差的结果就不能被参考。①②③④置信区间是用样本信息来估算表示总体参数(如平均值)的不确定程度的。置信区间的取值范围是在样本均值(即总体均值的估计值)的基础上增加一定比例的误差构成的,而误差值是由样本大小n、t分布的分位数和样本标准差s(即总体标准差的估计值)决定的。置信区间也可以称为预测区间:即下个项目的生产率的平均值、中位数、标准差有95%的把握落在他们各自的置信区间范围内。前提是这组数据是正态的且稳定的。图形化汇总的结果10基本数据分析图形化汇总分组分析点击统计→基本统计量→图形化汇总①②③④11基本数据分析图形化汇总分组分析结果-1765432中位数平均值65432第一四分位数2.5550中位数5.0051第三四分位数6.1964最大值6.63792.95246.14042.15286.28811.26063.8806A平方0.35P值0.380平均值4.5464标准差1.9067方差3.6353偏度-0.55972峰度-1.32069N8最小值1.6234Anderson-Darling正态性检验95%平均值置信区间95%中位数置信区间95%标准差置信区间95%置信区间生产率摘要业务方向=国内从国内生产率的分组分析结果来看P值=0.380.05,国内生产率是正态分布的。12基本数据分析图形化汇总分组分析结果-2765432中位数平均值3.02.82.62.42.22.0第一四分位数1.8152中位数2.6200第三四分位数3.0445最大值3.93762.18232.83991.87132.88470.53431.0262A平方0.37P值0.391平均值2.5111标准差0.7026方差0.4936偏度0.178761峰度-0.888491N20最小值1.5222Anderson-Darling正态性检验95%平均值置信区间95%中位数置信区间95%标准差置信区间95%置信区间生产率摘要业务方向=日本从对日生产率的分组分析结果来看P值=0.3910.05,对日生产率是正态分布的。13方差分析方差分析方差分析(AnalysisofVariance,缩写为ANOVA)是数理统计学中常用的数据处理方法之一,是工农业生产和科学研究中分析试验数据的一种有效的工具。也是开展试验设计、参数设计和容差设计的数学基础。一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和。这是一个很重要的思想。14方差分析方差分析点击统计→方差分析→单因子,在出现下图后在“比较”中选择“Tukey,整体误差率T5”。①②③④⑤15方差分析方差分析的结果-1假设检验的决策过程可以基于给定检验的概率值(p值)。■如果p值小于或等于预先确定的显著性水平(α水平),则否定原假设,并声明支持备择假设。■如果p值大于α水平,则不能否定原假设,也不能声明支持备择假设。在方差分析表中,p值(0.001)作为证据足以表明当α为0.05时,至少有一组业务方向的平均生产率与其他方向不一样。在单个95%置信区间表中,注意到没有区间重叠,这支持了平均值在统计意义上不同这一推测。但是,查看各业务方向的生产率差异则需要解释多重比较结果。16方差分析方差分析的结果-2Tukey检验提供了两组多重比较区间:■内部、对日的生产率平均值减去国内生产率平均值■对日生产率平均值减去内部生产率平均值Tukey输出的第一组中第一个区间是-5.093到1。也就是说,内部平均生产率减去去国内平均生产率的值介于-5.093到1之间,由于区间包含零,因此两个业务方向的生产率在统计意义上无显著差异。第二组:日本平均生产率减去国内平均生产率的值介于-3.237到-0.0834之间,由于区间不包含括零,因此两个业务方向的生产率在统计意义上有显著差异。17方差分析方差分析的结果-33.01.50.0-1.5-3.0999050101残差百分比4.54.03.53.02.520-2拟合值残差210-1-2-36.04.53.01.50.0残差频率28262422201816141210864220-2观测值顺序残差正态概率图与拟合值直方图与顺序生产率残差图使用残差图(对许多统计命令都可用)来检查统计假设:■正态概率图—检测非正态性。近似直线表示残差为正态分布。■残差的直方图—检测多峰值、异常值和非正态性。直方图应该近似对称且为钟形。■残差与拟合值—检测非恒定方差、缺少高次项和异常值。残差应该在0附近随机分散。■残差与顺序—检测残差的时间相关性。残差应该不表现出明显的模式。对于生产率,四合一残差图表明没有违反统计假设。单因子方差分析模型对数据拟合得相当好。18过程稳定性及过程能力分析XMR图点击统计→控制图→单值变量的控制图→I-MR①②③④19过程稳定性及过程能力分析XMR图的分析结果-11917151311975314321观测值单独值_X=2.511UCL=4.081LCL=0.9411917151311975312.01.51.00.50.0观测值移动极差__MR=0.590UCL=1.928LCL=0生产率的I-MR控制图由于单值图(X)和移动极差(MR)图上均未出现异常点,故该过程是稳定的。从图可以得到对日生产率的平均值是2.5,标准差为0.7,那么该过程的离散系数=标准差σ(0.7)÷平均值(2.5)=0.28,从离散系数0.280.15(业界认为离散系数小于0.15时过程是高度可控的)来看,该对日生产率的可控性不高。从过程能力来说,过程能力的上限是4.08,中值是2.51,下限是0.94。如果从预控制或过程能力目标来说,标准差σ可以用平均值×0.15=0.375来设定,即3σ的过程控制目标为2.5+3×0.375=3.625,中值为2.5,下限为2.5×(1-0.45)=1.37520过程稳定性及过程能力分析I-MR图的分析结果-2876543211050-5观测值单独值_X=4.55UCL=12.37LCL=-3.288765432110.07.55.02.50.0观测值移动极差__MR=2.94UCL=9.62LCL=0生产率的I-MR控制图由于单值图(X)和移动极差(MR)图上均未出现异常点,故该过程是稳定的。从图可以得到国内生产率的平均值是4.55,标准差为1.9,那么该过程的离散系数=标准差σ(1.9)÷平均值(4.55)=0.41,从离散系数0.410.15(业界认为离散系数小于0.15时过程是高度可控的)来看,国内生产率的可控性较差。从过程能力来说,过程能力的上限是12.37,中值是4.55,下限是0。21相关性分析变量间的关系有两种类型:函数关系和相关关系。函数关系是一一对应的确定关系。设有两个变量x和y,变量y完全依赖于x,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量。各观测点都严格落在一条线上。相关关系变量间确实存在、但数量上不固定的相互依存。这种关系不能用函数关系精确表达;一个变量的取值不能由另一个变量惟一地确定;当变量x取某个值时,与之相关的变量y的取值可能有若干个;各观测点分布在一条直线或曲线周围22相关性分析函数关系和相关关系的例子函数关系圆的面积(S)与半径之间非关系可表示为S=R2;某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)相关关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度之间的关系(x)父亲身高(y)与子女身高(x)之间的关系23相关性分析注意点假相关—没有本质联系,只是表面数字的偶然的巧合。如上证指数与气温的关系。相关关系比因果关系包括的范围更广泛。因果关系属于相关关系;相关关系不一定是因果关系。24相关性分析相关关系分类按相关关系涉及的因素多少分为:单相关——一元相关,两变量间的相关关系。复相关——多元相关,三个(或以上)变量间的相关关系。按相关的表现形态分为:直线相关——观察点的分布大致呈现为一条直线。曲线相关——观察点的分布大致呈现为一条曲线。按相关方向分为:正相关——两变量大体上呈同方向变化。负相关——两变量大体上呈反方向变化。25相关性分析相关性的典型图标完全正线性相关完全负线性相关负线性相关正线性相关不相关非线性相关26相关性分析相关性分析数据源自《脉搏.mtw》正态分布检验220200180160140120100中位数平均值150.0147.5145.0142.5140.0第一四分位数125.00中位数145.00第三四分位数156.50最大值215.00140.24150.07138.24150.0020.7327.77A平方0.52P值0.179平均值145.15标准差23.74方差563.56偏度0.369982峰度-0.066025N92最小值95.00Anderson-Darling正态性检验95%平均值置信区间95%中位数置信区间95%标准差置信区间95%置信区间体重摘要7572696663中