数模培训作业论文题目缺失数据地补充及异常数据地修正1缺失数据地补充及异常数据地修正摘要数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。数据补充,异常数据的鉴别及修正,在各个领域也起到了重要作用。针对第一问,我们采用了两种模型。第一种是一元多项式回归模型,适用于只有一种自变量的情况。利用我们找到的数据,首先作出散点图,观察其形状,决定拟合多项式的次数,得出拟合曲线与拟合多项式。之后算出均方根误差验证拟合效果,均方根误差较小,说明拟合曲线与源数据吻合得较好。若x1=37.25,x2=41.75,x3=44.5时,y的数据缺失,将x1、x2、x3的值带入拟合多项式,算出缺失值y1=3.3257,y2=2.0437,y3=4.6002,即可补充缺失数据。第二种是多元线性回归模型,适用于有多个自变量的情况。利用我们找到的数据,首先作出散点图,之后作多元回归,求出多元线性回归多项式,以及置信区间。作出残差分析图验证拟合效果,残差较小,说明回归多项式与源数据吻合得较好。若x1=0.055,x2=0.025时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=0.052792。类似地,若x1=0.110,x2=0.045时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=0.070212,即可补充缺失数据。针对第二问,我们使用了异常值检验中标准差未知的t检验法。首先绘制火柴棒图观察可疑测定值,可得到可疑值为第6,9,13,23,26,29,35,36,45,53行的数据。将除可疑测定值以外的其余测定值当做一个总体,并假设该总体服从正态分布。由这些测定值计算平均值x与标准差s,而将可疑值分别当做一个样本容量为1的特殊总体。如果可疑值与其余测定值同属于一个总体,则它与其余测定值之间不应有显著性差异。检测统计量为:xxkd,假设可由标准差s替代来进行检验,则检测统计量可视为:sxxkd。若统计量值大于相应置信度下的t检验法的临界值T(该临界值通过查表法得出),则将可疑值判为异常值。通过计算我们发现,上述可疑值都是异常值。针对第三问,我们采用了分段线性插值、三次样条函数插值以及分段三次Hermite插值法来修正数据异常。同时也需利用外插法修正最后一个数据的异常。之后利用第二问中的t检验判断修正后的值是否仍为异常值。检验结果显示:分段线性插值、三次样条函数插值所修正的第7个和第9个数据仍为异常值,而分段三次Hermite插值所得到的修正值全都不是异常值。所以运用分段三次Hermite插值得到的结果较准确。关键词:一元多项式回归、多元线性回归、t检验法、分段线性插值法、三次样条函数插值、分段三次Hermite插值2一、问题重述1、关于数据缺失时应该怎样地把缺失数据补充上来?2、数据完整,但是数据出现异常,如何给出模型找出异常数据?3、异常数据如何修正?二、模型假设1、假设只有因变量存在数据缺失,而自变量不存在缺失。2、利用t检验法时,将除可疑测定值dx以外的其余测定值当做一个总体,并假设该总体服从正态分布。3、假设可由样本值计算标准差s替代来进行检验。三、符号说明符号含义RMSE均方根误差x样本平均值s样本标准差dx可疑测定值总体标准差k检测统计量置信度T置信度下的t检验法临界值n样本容量四、对问题一的分析和处理4.1一元多项式回归模型[1]当有缺失的一组数据只有一个自变量时,可以考虑使用一元多项式回归模3型。我们采用的数据如下表:表1首先使用matlab作出散点图,观察其形状,决定拟合多项式的次数,运用matlab编程(matlab程序见附录一)得出拟合曲线与拟合多项式为:z=0.16599*x2-13.387*x+271.62。拟合曲线如下图所示:图1拟合曲线之后算出均方根误差RMSE验证拟合效果,均方根误差RMSE=0.13931较小,说明拟合曲线与源数据吻合得较好。若x1=37.25,x2=41.75,x3=44.5时,y的数据缺失,将x1、x2、x3的值带入拟合多项式,算出缺失值y1=3.3257,y2=2.0437,y3=4.6002,即可补充缺失数据。44.2多元线性回归模型[1]当有缺失的一组数据存在多个自变量时,可以考虑使用多元线性回归模型。我们将data.xls(见附表一)中的数据[5]导入matlab(该模型matlab程序见附录二)。首先作出散点图,设定y(PM10)与x1(SO2)、x2(NO2)的关系为二元线性回归模型,即y=b0+b1x1+b2x2。之后作多元回归,求出系数b0=0.03069,b1=-0.023695,b2=0.93619,所以多元线性回归多项式为:Y=0.03069-0.023695*x1+0.93619*x2。且b0、b1、b2在置信度为%95的情况下的置信区间分别为[0.024906,0.036474],[-0.08381,0.036419],[0.76259,1.1098]。再作出残差分析图验证拟合效果,残差较小,说明回归多项式与源数据吻合得较好。若x1=0.055,x2=0.025时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=0.052792。类似地,若x1=0.110,x2=0.045时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=0.070212,即可补充缺失数据。散点图如下:图2散点图残差分析图如下:5图3残差分析图50100150200250-0.08-0.06-0.04-0.0200.020.040.060.08残差绘制图残差数据五、对问题二的分析和处理5.1异常值t检验法原理对于问题二,在数据完整但出现异常的情况下,可以考虑使用异常值检验中标准差未知的t检验法。将除可疑测定值dx以外的其余测定值当做一个总体,并假设该总体服从正态分布。由这些测定值计算平均值x与标准差s,而将可疑值dx当做一个样本容量为1的特殊总体。如果dx与其余测定值同属于一个总体,则它与其余测定值之间不应有显著性差异。检测统计量为:xxkd,假设可由标准差s替代来进行检验,则检测统计量可视为:sxxkd。若统计量值大于相应置信度下的t检验法的临界值T(该临界值通过查表法得出),则将dx判为异常值[2]。5.2举例建模找出异常值我们将data.txt(见附表二)中的数据[5]导入matlab,首先利用matlab绘制火柴棒图(该模型程序见附录三)观察可疑数据,火柴棒图如下:6图4火柴棒图通过观察上图,得到可疑值为第6,9,13,23,26,29,35,36,45,53行的数据。剔除这些数据后,用剩余数据计算平均值x与标准差s。检测统计量为:sxxkd。置信度=%95,样本容量n=44时,利用查表法易得t检验法的临界值T=1.6802。部分t分布表[3]如下:表2t分布表nα=0.250.100.05410.68051.30251.6829420.68041.30201.6820430.68021.30161.6811440.68011.30111.6802450.68001.30061.6794若统计量值大于临界值T,则将dx判为异常值,根据程序结果,第6,9,13,23,26,29,35,36,45,53行的数据都是异常值。六、对问题三的分析和处理7对于问题三,我们采用了分段线性插值、三次样条函数插值以及分段三次Hermite插值法来修正数据异常。同时也需利用外插法修正最后一个数据的异常。本问题使用的是问题二中剔除异常点的数据(数据见附表三)。6.1原理简介(1)分段线性插值[4]将每两个相邻的节点用直线连起来,如此形成的一条折线就是分段线性插值函数,记作xIn,它满足iinyxI,且xIn在每个小区间1,iixx上是线性函数xInni,,1,0。xIn可以表示为xIn有良好的收敛性,即对于bax,有,用xIn计算x点的插值时,只用到x左右的两个节点,计算量与节点个数n无关。但n越大,分段越多,插值误差越小。实际上用函数表作插值计算时,分段线性插值就足够了,如数学、物理中用的特殊函数表,数理统计中用的概率分布表等。(2)三次样条函数插值[4]数学上将具有一定光滑性的分段多项式称为样条函数。三次样条函数为:对于ba,上的分划:nxxxa10=b,则,8利用样条函数进行插值,即取插值函数为样条函数,称为样条插值。(3)分段三次Hermite插值[4]如果对插值函数,不仅要求它在节点处与函数同值,而且要求它与函数有相同的一阶、二阶甚至更高阶的导数值,这就是Hermite插值问题。Hermite插值多项式为:6.2模型求解利用matlab编程(程序见附录四),可作出利用三种插值法修正异常值的图。图如下:图5分段线性插值图图6三次样条函数插值图图7分段三次Hermite插值图根据程序运行结果,可得到分段线性插值的修正结果如表3:表3分段线性插值修正结果行号6913232629364553修正结果0.448210.532290.409490.426830.495380.464510.281250.412640.554359三次样条函数插值的修正结果如表4:表4三次样条函数插值修正结果行号6913232629364553修正结果0.426820.594170.432220.432620.519290.432510.433270.410150.28295之后利用第二问中的t检验判断修正后的值是否仍为异常值(matlab程序见附录五)。检验结果显示:分段线性插值和三次样条函数插值所修正的数据中,第36行的数据0.28125和0.43327仍为异常值,第53行的数据0.55435和0.28295也仍为异常值。分段三次Hermite插值的修正结果如表5:表5分段三次Hermite插值修正结果经过t检验,分段三次Hermite插值所得到的修正值全都不是异常值。所以运用分段三次Hermite插值得到的结果较准确。七、模型评价和推广问题一采用的一元多项式回归和多元线性回归能够较好地解决补充缺失数据的问题,并且该两种模型兼顾了只有一个自变量和有多个自变量的情况。一元多项式回归均方根误差较小,说明拟合曲线与源数据吻合得较好,故补充的缺失数据准确度也较高。多元线性回归残差较小,说明回归多项式与源数据吻合得较好,故补充的缺失数据是可信的。问题二采用的异常值检验中标准差未知的t检验法能够较准确地判断出异常值。但如果样本容量太小,由标准差s替代σ来进行检验,可能会产生误差。问题三采用的分段三次Hermite插值能够较好地修正异常数据。并且我们把经过修正的数据采用问题二的方法进行检验,证明所得到的修正值全都不是异常值。因此,修正后的值是较可信的。缺失数据地补充及异常数据地修正在很多问题中都是必不可少的和基础的,不作这些数据处理就无法解决问题。本文中的模型可以运用到许多需要补充缺失数据或修正异常数据的问题中去。同时,也可利用该模型算法拓展模型在其他方面的适用范围。八、参考文献[1]李柏年,MATLAB数据分析方法,北京:机械工业出版社,2012年。[2]何正风,MATLAB概率与数理统计分析,北京:机械工业出版社,2012年。行号6913232629364553修正结果0.446890.537940.409490.426830.504190.462640.436180.412640.468910[3]盛骤,概率论与数理统计,北京:高等教育出版社,2001年。[4]司守奎,数学建模算法与程序,北京:国防工业出版社,2007年。[5]郑向东,中国大气本底观测元数据,sci-data.cma.gov.cn,2013年7月21日。九、附录附录一(一元多项式回归模型matlab程序):clear;x=[37.0,37.5,38.0,38.5,39.0,39.5,40.0,40.5,41.0,41.5,42.0,42