1比例检验2比例检验适用条件Y计量型(连续)计数型(离散)X计量型(连续)相关分析(Correlation)回归分析(Regression)对数回归(LogisticRegression)计数型(离散)均值(u)方差(σ)比例(p)单总体1sampleZ-检验1samplet-检验CI(置信区间)单比例检验(1ProportionTest)两总体2samplet-检验成对t检验F/L两比例检验(2ProportionTest)两总体以上方差分析(ANOVA)实验设计(DOE)B/L(Bartlett’s/Levene’s)卡方检验(ChiSquare)3单比例检验(1-P);两比例检验(2-P);多比例检验X≧3(卡方分析)。本节主要内容4比率检验在实际工作中我们会遇到:1、所有的度量结果都是离散的,如“合格/不合格”、“良品/不良品”等。2、抽样检验的结果是“抽检100件产品,其中不合格的4件”,“抽检8片芯片,其中共发现22个瑕疵点”等3、去年公司顾客满意率为70%,今年调查了100个用户,其中75户表示满意,问今年的满意率比去年有提高吗?5处理离散的响应变量时,您想知道的是缺陷比例如何随潜在X变量的变化而变化。离散数据分析的类型6过去,一产品的渗漏检测发现的缺陷品率为12%。现对过程进行变更,从新过程抽样300个产品,其中30个是缺陷品。问在5%的显著性水平,过程是否得到了改善。练习:单比例检验单比例检验:检验抽样对象比例与目标比例的差距7建立备选假设和零假设12.0:0NewPH新过程产生12%或更多的的缺陷品12.0:1NewPH新过程的缺陷品少于12%确定显著水平:α=0.05单比例检验8计算P值:统计基本统计量1-P单比率单比例检验9单比例检验本次操作要检验的比率备折假设10单比率检验和置信区间p=0.12与p0.12的检验样本XN样本p95%上限精确P值1303000.1000000.1331880.164统计结论:统计结论:P>0.05,因此不能原假设。业务结论:没有证据说明改善显著(需样本量计算)。单比例检验11单比例检验那么我们将样本量增大到10倍后,对于同样的检验问题其检验结果如何?单比率检验和置信区间p=0.12与p0.12的检验样本XN样本p95%上限精确P值130030000.1000000.1094670.00012单比例检验从上例可以看出,要想从比率数据中获得显著性的结论,样本量要相当地大才有可能。作单比率检验时,一定要注意样本量的重大作用,上例中,两组数据样本比率都是0.1,但30/300与300/3000是有不同含义。也就是说,统计学报相信简单的百分数,一定要得知此百分数是从多大的样本量中获得的13单比例置信区间检验单比率检验和置信区间样本XN样本p95%置信区间130030000.100000(0.089492,0.111295)单比率检验和置信区间样本XN样本p95%置信区间1303000.100000(0.068492,0.139673)从上面的例子可以看出,样本量增大后,置信区间的宽度大大缩短了。14单比例样本量计算15功效和样本数量单比率检验检验比率=0.12(与≠0.12)Alpha=0.05备择比率样本数量目标功效实际功效0.131950.950.9500400.126090.900.9001110.122470.850.850161单比例样本量计算如果要证明改善有效,则要至少取样本量2247个。16双比率检验17了解这在两种工艺方法条件下产品不合格率是否有显著差别;采用某种服务方法是否比另一种服务方法让顾客满意率有显著提高2比例检验:两个抽样对象比例是否存在差异2比例检验18业务问题:分别从A、B两种工艺条件下随机500片花800片芯片,其中A种工艺条件下有340片为一等品,B种工艺条件下有350片为一等品。在α=0.05下,检验A种工艺条件是否比B种工艺条件有较高的一等品率?2比例检验(2-P)191、建立备选假设和零假设A种工艺条件下一等品率比B种工艺条件下一等品率低A种工艺条件下一等品率比B种工艺条件下一等品率高确定显著水平:α=0.052比例检验(2-P)设P1、P2分别表示A、B两种工艺条件下的一等品率H0:P1≤P2H1:P1P2202比例检验(2-P)2、样本量计算双比率检验检验比率1=比率2(与≠)计算比率2的功效=0.4375Alpha=0.05样本比率1数量目标功效实际功效0.681060.950.9500490.68870.900.9032880.68650.800.802332样本数量是指每个组的。213、进行检验统计基本统计量2-P双比率2比例检验(2-P)222比例检验(2-P)双比率检验和置信区间样本XN样本p13405000.68000023508000.437500差值=p(1)-p(2)差值估计:0.2425差值的95%置信下限:0.197670差值=0(与0)的检验:Z=8.90P值=0.000Fisher精确检验:P值=0.000业务结论:A种工艺条件比B种工艺条件有较高的一等品率统计结论:P﹤0.05,选择备择假设232比例检验(2-P)同种产品有甲、乙两种品牌。随机抽取800位及600位各自购买了甲乙两种品牌顾客,其中甲品牌有340位顾客对其产品质量表示满意,乙品牌有180位顾客对其产品质量表示满意。在α=0.05下,检验甲种品牌的顾客满意率比乙种品牌的顾客满意率高5%以上。1、建立假设P1、P2分别表示甲乙两种品牌的顾客满意率H0:P1-P2≤0.05H1:P1-P20.05242比例检验(2-P)2、样本量计算双比率检验检验比率1=比率2(与≠)计算比率2的功效=0.3Alpha=0.05样本比率1数量目标功效实际功效0.4253820.950.9502870.4253090.900.9002520.4252310.800.800022样本数量是指每个组的。252比例检验(2-P)3、检验262比例检验(2-P)双比率检验和置信区间样本XN样本p13408000.42500021806000.300000差值=p(1)-p(2)差值估计:0.125差值的95%置信下限:0.0828883差值=0.05(与0.05)的检验:Z=2.93P值=0.002统计结论:P=0.0020.05拒绝原假设业务结论:在α=0.05水平下,可以断言甲种品牌的顾客满意率比乙种品牌的顾客满意率高5%以上。27卡方检验28卡方(χ2)分布卡方分布与正态分布不同,它的分布函数图像不左右对称而是呈现右偏的。00自由度大于3的情况自由度为1或2的情况χ2分布是一族分布,其分布图与自由度有关29与正态分布不同,卡方分布是一种不对称分布。自由度为1或2时与自由度大于3时分布图呈现不同的形状。随着自由度的增加,其图像接近于正态分布的图像。与大多数分布相同,卡方分布也有卡方分布表,求得卡方值后,依照不同自由度,找出P值的临界值,当卡方值大于临界值即达统计显著意义,如果卡方值小于临界值即不达统计显著意义。卡方(χ2)分布30卡方(χ2)检验的本质将总体分成K类,每部分的比例分别为p1,p2,p3…pk。假设在观察到的样本中,各类别的比率恰巧为p1,p2,p3…pk。则抽取样本数为n的样本,在假设为真的情况下,我们可以先算出样本在各类别的预期分布,再与实际上观察到的样本分布来比较,我们用英国统计学家KarlPearson所发明的卡方(χ2,chi-square)检验来进行统计检定。31χ2检验用来对不同类别的目标量之间是否存在显著差异进行检验,也可以用来判断两组或多组的资料是否相关联也称为拟合度检验,即检验观察数据是否契合理论数据χ2检验是非参数检验的一种主要用于处理定类变量数据通常是频数卡方(χ2)检验的本质32不用对参数进行假设对分布较少有要求,也叫distribution-freetests用于类别/顺序型数据没有参数检验敏感,效力低因此在二者都可用时,总是用参数检验卡方(χ2)检验的本质33列联表(contingencytable)列联表是由两个以上的变量进行交叉分类的频数分布表。对照组肺癌患者吸烟3260不吸烟113行数一般用字母r表示,列数用c表示。上面就是一个2×2的列联表。34观察频数fo和期望频数fe观察值的分布和期望值的分布对照组肺癌患者吸烟fo=32fo=60不吸烟fo=11fo=335计算期望频数第一步:算出行合计和列合计对照组肺癌患者合计吸烟fo=32fo=6092不吸烟fo=11fo=314合计436310636第二步:代入下面公式算出期望频数。×f=eN该行合计该列合计总合计对照组肺癌患者合计吸烟fe=37fe=5592不吸烟fe=6fe=814合计4363106计算期望频数如果预期频率小于5,那么计算得出的卡方值将随fe的改变而发生显著的变化。此时计算值是不太可靠的,需要小心处理37自由度自由度(degreeoffreedom),是指可以自由取值的数据的个数。对r×c维的列联表数据,自由度的计算公式为自由度=(行数-1)(列数-1)=(r-1)(c-1)38用fo表示观察值频数(observedfrequency),用fe表示期望值频数(expectedfrequency),则χ2检验统计量可以写为:22()oeefff从上面的公式可以看出,χ2统计量度量的就是观察频数偏离期望频数的程度!卡方检验统计量的计算39卡方检验的分析从χ2统计量的计算公式看出,它有这样几个特征χ2≥0,它是几个平方值的和χ2统计量的分布与自由度有关χ2统计量描述了观察值与期望值的接近程度。如果两者越接近,即fo-fe的绝对值越小,计算出的χ2的值越小;反之,则计算出的χ2的值越大。χ2检验正是运用χ2的计算结果与χ2分布中的临界值进行比较,做出对原假设接受或是拒绝的判断。40卡方检验的应用某公司生产的电子产品享有盛誉,现一种主要元件可从三个供货商采购,元件质量可分为两个等级,从一批元件中随机抽取1000件进行检验,结果如下表所示:供货商/等级一级二级合计A110176286B205187392C165157322合计4805201000为了优化采购流程,现想知道各个供货商和质量等级间是否存在联系?卡方检验:当需要验证是否存在差异的因子数大于等于三的时候,用卡方检验41卡方检验的应用1、建立假设零假设H0:供应商和元件等级之间是独立的备择假设H1:供应商和元件等级之间不独立显著性水平:α=0.05自由度=(r-1)(c-1)=(3-1)(2-1)=299152crit.42卡方检验的应用2、进行检验统计表格卡方检验43卡方检验的应用卡方检验:一级品,二级品在观测计数下方给出的是期望计数在期望计数下方给出的是卡方贡献一级品二级品合计1110176286137.28148.725.4215.0042205187392188.16203.841.5071.3913165157322154.56167.440.7050.651合计4805201000卡方=14.680,DF=2,P值=0.001期望值频数观测值频数卡方值统计结论:P=0.0010.05拒绝原假设业务结论:供货商和元件等级之间存在联系。元件的质量受供货商的影响!!44卡方检验的应用45卡方检验举例本钢热轧板销售给各分公司开卷时,剪切设备都不一样,抽取七家进行检验,验证是否对横折印有影响。用户提出量缺陷量合格量辽阳钢管有限公司汇总36884493239烟台本钢钢铁销售有限公司汇总1014235779沈阳北方本钢钢铁销售有限公司营口分公司汇总13102001110本溪经济开发区安泰经贸有限公司汇总14223341088本溪市长城电控设备有限责任公司汇总1039282757辽阳市宏伟区银河物资经营部汇总776141635上海浩泰贸易有限公司汇总69077613X2检验