数据的统计处理和解释正态样本离群值的判断和处理1、Grubbs检验法2、Dixon检验法数据的统计处理和解释数据的统计处理和解释(包括12个国标)正态样本离群值的判断和处理已知标准差未知标准差Nair检测法离群值1离群值1GrubbsDixon偏度-峰度法Dixon1.主要内容出自GB/T4883-2008《数据的统计处理和分析正态样本离群值的判断和处理》2.一部分文件引用自GB/T4882-2001《数据的统计处理和解释正态性检验》范围:适用于来自正态分布的样本数据的统计处理和解释说明:这两个方法及引用术语均来自国家标准一:术语和定义离群值outlier样本中的一个或几个观测值,他们离开其它观测值较远,暗示他们可能来自不同的总体检出水平detectionlevel为检出离群值而指定的统计检验的显著性水平,用α表示。除非约定,α值应为0.05注1:用统计的方法检验测定值之间是否存在显著性差异,从而判定结果或分析方法的可靠性,这一过程称为显著性检验。注2:在显著性检验中,将具有显著性差异的测定值在随机误差分布中出现的概率(小概率)称为显著性水平(水准)用α表示,即这些测定值位于一定置信度所对应的随机误差界限之外。注3:在置信区间内包含真值的概率称为置信度(置信水平)用P表示。注4:置信度和显著性水平的关系:P=1-α数据的统计处理和解释统计离群值statisticaloutlier在剔除水平下统计检验为显著的离群值剔除水平deletionlevel为检出离群值是否高度离群而指定的统计检验的显著性水平,用α*表示,除非约定,α*值应为0.01歧离值straggler在检出水平下显著,但在剔除水平下不显著的离群值数据的统计处理和解释二:符号和缩略语n样本量样本平均值α检验离群值所使用的显著水平,简称检出水平α*检验统计离群值所使用的显著水平,简称剔除水平(α*α)x(i)观测值从小到大排序后的第i个值δ总体标准差s样本标准差GnGrubbs上统计量Gn’Grubbs下统计量DnDixon上统计量Dn’Dixon下统计量数据的统计处理和解释x三:离群值的判断1.来源与判断来源a.第一类离群值是总体固有变异性的极端表现,他与样本中其余观测值属于同一总体。b.第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,他与样本中其余观测值不属于同一总体。判断对于离群值的判定通常可根据技术或物理上的理由直接进行,当上述理由不明确时,可用本判定方法。数据的统计处理和解释2.离群值的三种情形a.上侧情形:根据实际情况或以往经验,离群值都为高端值;b.下侧情形:根据实际情况或以往经验,离群值都为低端值;c.双侧情形:根据实际情况或以往经验,离群值可为高端值,也可为低端值。3.检出离群值个数的上限应规定在样本中检出离群值个数的上限(与样品量相比较应较小)当检出离群值个数超出了这个上限时,对此样本应作慎重的研究和处理。数据的统计处理和解释数据的统计处理和解释单个离群值情形的判断a.依据实际情况和以往经验,选定适宜的离群值检验规则。c.根据显著水平及样品量,确定检验的临界值d.由观测值计算相应统计量的值,根据所得值与临界值的比较结果作出判断。b.确定适当的显著水平数据的统计处理和解释判定多个离群值的检验规则☆在允许检出离群值的个数大于1的情况下,重复使用单个离群值的检验规则,若没有检出离群值,则整个检验停止;若检出离群值,当检出的个数超出规定样本中检出离群值的上限时,检验停止,对此样本应慎重处理;否则,采用相同的检出水平和规则,对除去已检出离群值后的余下观测值继续检验。这个是重要的哦!四:离群值的处理数据的统计处理和解释•a.保留离群值并用于后续数据处理•b.在找到实际原因时修正离群值,否则予以保留•c.剔除离群值,不追加观测值•d.剔除离群值,并追加新的观测值或用适宜的插补值代替处理规则a.在技术或物理上找到产生离群值的原因,则应剔除或修正;未找到则不得剔除或进行修正。b.找到产生离群值的原因,则应剔除或修正;否则保留歧离值,剔除或修正统计离群值;在重复使用同一检验规则检出多个离群值时,每次检出后,都要再检验它是否为统计离群值。若是,则其前检出的离群值(含歧离值)都应剔除或修正。c.检出的离群值(含歧离值)都被剔除或进行修正。处理方式数据的统计处理和解释•Grubbs检验法1、计算统计量Gn和Gn’的值:Gn=(xi-)/sGn’=(-x1)/sxx1)(12nxxSnii2、确定检出水平α,在附表1中查出临界值G1-α(n)3、a:上侧判断当GnG1-α(n)时,判定xi为离群值,否则判未发现xi是离群值。b:下侧判断当Gn’G1-α(n)时,判定x1为离群值,否则判未发现x1是离群值。c:双侧判断当GnGn’且GnG1-α/2(n)时,判定xi为离群值;当Gn’Gn且Gn’G1-α/2(n)时,判定x1为离群值;否则判断未发现离群值。数据的统计处理和解释数据的统计处理和解释4、统计离群值的判断(单侧)A、当检出Xi或X1为离群值时,确定剔除水平α*B、查附表1,G1-α*(n)当GnG1-α*(n)时上侧•判断Xi为统计离群值否则•Xi为歧离值•判断X1为统计离群值•否则X1为歧离值数据的统计处理和解释•当Gn’G1-α*(n)时否则下侧数据的统计处理和解释5、统计离群值的判断(双侧)A、当检出Xi或X1为离群值时,确定剔除水平α*B、查附表1,G1-α*/2(n)当Gn’G1-α/2*(n)时双侧1•判断X1为统计离群值否则•X1为歧离值•判断Xi为统计离群值•否则Xi为歧离值数据的统计处理和解释•当GnG1-α/2*(n)时否则双侧2数据的统计处理和解释•使用Grubbs法检验的实例..\临时文件\soybeanmeal-November2007.xls数据的统计处理和解释样本量(n)检验高端离群值检验低端离群值3~7x(n)-x(n-1)x(n)-x(1)x(2)-x(1)x(n)-x(1)8~10x(n)-x(n-1)x(n)-x(2)x(2)-x(1)x(n-1)-x(1)11~13x(n)-x(n-2)x(n)-x(2)x(3)-x(1)x(n-1)-x(1)14~30x(n)-x(n-2)x(n)-x(3)x(3)-x(1)x(n-2)-x(1)Dixon检验法:Dn=r10=D’n=r’10=Dn=r11=Dn=r21=Dn=r22=D’n=r’11=D’n=r’21=D’n=r’22=数据的统计处理和解释Dixon检验法确认检出水平α,在附表2中查出临界值D1-α(n)。当DnD1-α(n)时,判定Xn为离群值当D’nD1-α(n)时,判定X1为离群值否则二者都判未发现离群值。附表2相见GB/T4883-2008单侧Dixon检验的临界值表,这里将不再列举。数据的统计处理和解释Dixon检验法:统计离群值的判断(单侧)A、当检出Xn或X1为离群值时,确定剔除水平α*B、查附表3,D1-α*(n)Dixon检验法:统计离群值的判断(双侧)略当D’nD1-α*(n)时低端•判断X1为统计离群值否则•X1为歧离值•判断Xn为统计离群值•否则Xn为歧离值数据的统计处理和解释•当DnD1-α*(n)时否则高端数据的统计处理和解释•附表1Grubbs检验的临界值表n0.900.950.9750.990.99531.1481.1531.1551.1551.15541.4251.4631.4811.4921.49651.6021.6721.7151.7491.76461.7291.8221.8871.9441.97371.8281.9382.022.0972.13981.9092.0322.1262.2212.27491.9772.112.2152.3232.387102.0362.1762.292.412.482112.0882.2342.3552.4852.564122.1342.2852.4122.552.636132.1752.3312.4622.6072.699142.2132.3712.5072.6592.755152.2472.4092.5492.7052.806162.2792.4432.5852.7472.852172.3092.4752.622.7852.894182.3352.5042.6512.8212.932192.3612.5322.6812.8542.968202.3852.5572.7092.8843.001数据的统计处理和解释附表1Grubbs检验的临界值表n0.900.950.9750.990.995212.4082.582.7332.9123.031222.4292.6032.7582.9393.06232.4482.6242.7812.9633.087242.4672.6442.8022.9873.112252.4862.6632.8223.0093.135262.5022.6812.8413.0293.157272.5192.6982.8593.0493.178282.5342.7142.8763.0683.199292.5492.732.8933.0853.218302.5632.7452.9083.1033.236因篇幅有限,将不再列举后面的表。详细信息见GB/T4883-2008数据的统计处理和解释Thankyou!!•总体:研究对象的全体为总体。其具有:同质性、大量性、差异性。(有限和无限总体)•样本:从总体中抽取部分个体所组成的集合称为样本。具有:代表性、客观性、随机性。