数学建模中一些常见类型原始数据的处理方法(Ⅱ)主讲:戴永红一维随机数据的处理戴永红“自动化车床管理”问题•注:本题是1999创维杯全国大学生数学建模竞赛A题一道工序用自动化车床连续加工某种零件,由于刀具损坏等原因该工序会出现故障,其中刀具损坏故障占95%,其它故障仅占5%。工序出现故障是完全随机的,假定在生产任一零件时出现故障的机会均相同。工作人员通过检查零件来确定工序是否出现故障。现积累有100次刀具故障记录,故障出现时该刀具完成的零件数如附表。现计划在刀具加工一定件数后定期更换新刀具。已知生产工序的费用参数如下:故障时产出的零件损失费用f=200元/件;进行检查的费用t=10元/次;发现故障进行调节使恢复正常的平均费用d=3000元/次(包括刀具费);未发现故障时更换一把新刀具的费用k=1000元/次。1)假定工序故障时产出的零件均为不合格品,正常时产出的零件均为合格品,试对该工序设计效益最好的检查间隔(生产多少零件检查一次)和刀具更换策略。2)如果该工序正常时产出的零件不全是合格品,有2%为不合格品;而工序故障时产出的零件有40%为合格品,60%为不合格品。工序正常而误认有故障仃机产生的损失费用为1500元/次。对该工序设计效益最好的检查间隔和刀具更换策略。3)在2)的情况,可否改进检查方式获得更高的效益。•附:100次刀具故障记录(完成的零件数)4593626245425095844337488155056124524349826407425657065936809266531644877346084281153593844527552513781474388824538862659775859755649697515628954771609402960885610292837473677358638699634555570844166061062484120447654564339280246687539790581621724531512577496468499544645764558378765666763217715310851数据形式nxxx,...,,21注:这里只讨论简单随机样本数据是来自于总体的样本观察值具体形式为:处理目标数据是来自某一总体的样本观察值,因此,处理目标就是通过对样本观察值的分析,推断出总体的分布情况。分布函数即确定总体的符号说明nxxx,...,,21—样本观察值—样本第i个观察值ix—样本均值x—总体均值—总体标准差—样本容量n:)(pxXP表示随机变量取值小于x的概率为p处理步骤具体处理步骤如下:第一步:剔除异常数据第二步:计算数字特征第三步:作出总体分布的假设第四步:假设检验第一步剔除异常数据在数据的测定和读取过程中,不可避免的存在误差。误差通常可以分为三类:系统误差、偶然误差和过失误差。处理数据时异常数据必须剔除。带有过失误差的数据就是异常数据。第一步剔除异常数据常用的剔除异常数据的方法:3准则肖维纳(Chauvenet)准则格拉贝斯(Grubbs)准则第一步剔除异常数据根据偶然误差正态分布理论,误差大于的数据出现的概率为0.0027。因此,当数据的误差大于时认为它是异常数据。通常用样本标准差s代替,用剩余误差代替偶然误差。33||xxi3准则:第一步剔除异常数据肖格纳(Chauvenet)准则:由统计理论知,大误差出现的概率很小,于是建立以下准则:在n次观测中,某数据的剩余误差可能出现的次数小于半次时,认为这个数据是异常数据。第一步剔除异常数据可以通过查询专门的表得到。0g0g其中,niixnx11niixxns12)(11若某一个测量数据满足下式时,则认为数据为异常数据而把它剔除:。ixsgxxi0||格拉贝斯(Grubbs)准则:sxxgi/)(0g)|(|0sgxxPiGrubbs导出了统计量的分布。取显著水平,可以得到临界值,使得:。第一步剔除异常数据31.151.16172.482.7841.461.49182.502.8251.671.75192.532.8561.821.94202.562.8871.942.10212.582.9182.032.22222.62.9492.112.32232.622.96102.182.41242.642.99112.232.48252.663.01122.282.55302.743.10132.332.61352.813.18142.372.66402.873.24152.412.70502.963.34162.442.751003.173.59部分表:0gnn05.005.01.01.0如果一次可以判断两个或两个以上的数据是异常数据,只将其中使得最大的数据剔除。然后,重新计算、和,再一次寻找异常数据。如此重复进行,到找不出异常数据为止。||xxixs0g第一步剔除异常数据注意事项:第一步剔除异常数据例题一:剔除下列数据中的异常数据。1817817817814219019319523526223620515828112017025321416512730920213324222825925919821620818026419914721023423319227015324025911915991435139212226197第一步剔除异常数据解题过程:(采用Grubbs准则)4795.93s22.184|22.20218|78.232|22.202435|05.0取显著水平96.20g查表的得到两个异常数据18和435所以剔除异常数据43522.202x1、计算得到第一步剔除异常数据注:由于表不完整,2、3步中的由线性插值得到0g0g4694.197x2、重新计算得到05.0取显著水平951.20g查表的得到一个异常数据18所以剔除异常数据184212.54s第一步剔除异常数据2083.201x3、重新计算得到05.0取显著水平942.20g查表的计算知:已没有异常数据此时异常数据剔除完毕2193.48s第一步剔除异常数据编程实现的具体算法:求出样本均值和样本标准差。根据给定的显著水平和样本容量,查表求出。xsn0g(1)、||xxini,...,2,1||max||1xxxxinikkx计算,。找出,使得:(2)、sgxxk0||kx若有,则认为数据中无异常数据;否则认为是异常数据,将之从数据中剔除,重复步骤⑴⑵⑶,直到数据中无异常数据为止。(3)、第二步计算数字特征设是来自某个总体X的样本观察值,将它们按数值由小到大记为。这就是次序统计量。nxxx,...,,21)()2()1(,...,,nxxx次序统计量预备知识:第二步计算数字特征•样本的数字特征niixxns12)(11样本标准差:niixnx11样本均值:)(21)12()2()21(nnnxxxM,n为奇数,n为偶数样本中位数:niixxsnnng1321)()2)(1(样本偏度:第二步计算数字特征中位数与均值相比更加稳定。当数据中有异常数据时,均值会有明显的变化,而中位数不会有明显的变化。偏度描述数据的对称性。关于均值对称的数据,其偏度为零,右侧更分散的数据偏度大于零,反之偏度小于零。这样,对于偏度接近于零的数据,可以用均值和中位数的差值,近似判断数据中是否有异常数据。第二步计算数字特征总体均值:总体标准差:定理:设是来自某个总体X的样本观察值,无论X服从什么分布,都有:①如果总体均值存在,则样本均值是总体均值的最小方差线性无偏估计;②如果总体方差存在,则样本方差是总体方差的无偏估计。nxxx,...,,21x22s2因此,取,xs总体的数字特征第二步计算数字特征•编程实现的具体算法:将数据由小到大重新排列,变为次序统计量。(1)按照定义计算样本的数字特征。(2)取,。xs(3)第三步作出总体分布的假设频数直方图比较适合于分析连续总体的情况。直方图的形状大致反映概率密度函数曲线的形状。直方图上各区间的长度称为组距,它对直方图的形状有很大影响。因此,直方图制作的关键是组距的选择。通过对和的分析,给出总体分布的假设。经验分布函数曲线频数直方图,1,,0)(nixFn)1(xx11,)1()(nixxxii)(nxx对于一般总体分布,可以用经验分布函数来估计总体分布函数。设来自某个总体分布X的样本观察值的次序统计量为,则经验分布函数为:)(xFn)(xF)()2()1(,...,,nxxx)(xFn第三步作出总体分布的假设做出数据的和,与已知常见的总体分布的(只对连续总体)和进行比较,可以初步判断数据的总体分布情况。概率密度曲线分布函数曲线频数直方图经验分布函数曲线正态分布、指数分布、均匀分布、威布尔分布泊松分布、二项分布、两点分布对于离散总体:常见的总体分布对于连续总体:第三步作出总体分布的假设最常见的是寿命分布,如电子元件的寿命、电话通话时间、随机系统的服务时间等。指数分布有许多随机变量服从或近似服从泊松分布,例如稀有事件(故障、不幸事件、自然灾害等)在次重复试验中出现的次数;在任意给定的时间段内,来到公共设施要求服务的顾客数;放射性分裂落到某区域的质点数;显微镜下落在某一区域中的血球或微生物的数目。泊松分布正态分布反映了正常状态下一般事物所遵循的客观规律,是最常见的分布。正态分布常见分布出现场合:)(xFn按照定义作出经验分布函数曲线。(2)第三步作出总体分布的假设编程实现的具体算法:绘制不同组距的频数直方图,取其中没有随机高尖峰或高尖峰少的(使得图形不受数据随机性的影响)而区间长度又较小(使得直方图能反映数据的统计规律)的直方图,作为比较用的直方图。(1)若样本总体是连续总体,作出相应参数下的常见分布、的概率密度曲线和分布函数的曲线。若样本总体是离散分布,作出常见分布的分布函数的曲线。(3)将⑴中图形与⑶中概率密度曲线进行比较,将⑵中曲线与⑶中分布函数的曲线进行比较,并参考上面提到的常见分布的出现场合,找出最相近的一组,将此组总体的分布作为样本总体分布的假设。(4)第四步假设检验|)()(|max011xFxFDni假设是已知的分布函数,是未知的总体分布函数的一个较优的估计。取检验统计量若样本数据服从指定分布,即,则D的观测值应当较小。若D的观测值较大,则样本数据不服从指定分布,即。)()(0xFxF)(0xF)(1xF)(xF)(0xF)(0xF)()(0xFxF检验方法:单样本的Kolmogorov-Smirnor检验(1)第四步假设检验q-q图用样本数据的分位数与指定分布的分位数之间的关系曲线来检验数据的分布。若样本数据服从指定分布,则图中数据点大致呈现直线关系,否则为曲线关系。(2)q-q图q-q图检验方法:第四步假设检验编程实现的具体算法:取经验分布函数作为样本总体分布函数的估计,计算统计量的观测值,根据显著水平和样本容量,查表求p值,判断是否接受零假设。若接受零假设,则认为样本总体服从指定分布。否则,认为样本总体不服从指定分布,重复第三步、第四步,用其他分布进行假设检验。(若所有常见分布均不合适,近似以经验分布函数作为样本总体的分布函数。))(xFn)(xF|)()(|max01xFxFDnni)(0xF)(0xF)(xFnn(1)按照定义绘制q-q图,观察数据点是否大致呈现直线关系。q-q图主要起辅助判断的作用。(2)程序简介调试程序使用的是Matlab6.1版本的软件。程序由8个Matlab语言编写的m文件组成。其中datamain.m和datainput.m为m脚本文件,datatrait.m、datahist.m、datajudgement.m、datacdf.m、abnorfigure.m和stdplot.m为m函数文件。其中,datamain.m文件是主函数部分,d