1中国海洋大学本科毕业论文(设计)开题报告题目基于Score检验的浮标监测数据异常值诊断方法研究院系工程学院自动化及测控系专业自动化(年级)2008级学生姓名王熠伟学号080232008055指导教师黎明教务处制表2012年3月20日2一、选题依据课题来源、选题依据和背景情况;课题研究目的、学术价值或实际应用价值选题来源:自选课题选题依据和背景情况:异常数据是数据集中偏离大部分对象的数据,它们的表现与大多数常规对象有着明显的差异。随着数据挖掘技术的飞速发展,异常数据挖掘受到研究者的广泛关注,成为数据挖掘领域的一个重要分支。近年来异常数据挖掘在信用卡欺诈检测、网络入侵检测、气象预报、疾病诊断、故障检测、恐怖活动防范等诸多领域得到广泛应用。因此本课题以此为依据,研究海洋资料浮标传感器所得到的异常数据的特点,分析其所在的具体位置,对正常数据序列做出预测具有重要的现实意义。课题研究目的:本文在国内外文献关于时间序列数据异常点检测的基础上,从两个方面进行研究:一是运用数理统计的方法研究由海洋资料浮标传感器获得的数据,判断出异常点的位置以及其属性;二是利用若干周期的正常数据对时间序列数据拟合一个ARIMA模型,对未来时间点的数据进行预测。学术价值及应用价值:我国提出“蓝色经济”概念后,对于海洋的研究便更加蓬勃地发展起来,对于海洋的一些特征数据指标变化的掌握对了解海洋,发展海洋经济具有重要意义。比如,研究海水温度变化可以对厄尔尼诺现象等全球性气候问题的研究起到帮助作用,同时也对促进渔业等海洋产业的发展间接做出了贡献;其他的一些数据比如风速,波高等也被许多海上作业的人们所重视。获取这些数据可以通过海洋资料传感器得到,但是这些传感器分布在距离岸边十几公里甚至更远的地方,因此许多未知不可控因素便会影响传感器获取的数据的准确性,即会产生异常数据。异常数据也称离群数据,现在已经越来越受到国内外学者的重视。如果获得的数据序列中存在异常数据,将会对基于此数据的分析起到致命的影响,导致获取的结论不准确。因此,对时间序列数据中的异常数据的检测具有很高的学术价值和应用价值。到目前为止,国内外学者对于异常数据的研究已经提出了许多方法,现有的异常数据挖掘方法主要有基于统计的方法、基于距离的方法、基于密度的方法与基于聚类的方法等。本文主要运用基于统计的方法对由海洋资料浮标传感器得到的数据进行异常检测,建立基于正常数据的ARIMA模型,找到异常点的位置并判断其属性。3二、文献综述国内外研究现状、发展动态;查阅的主要文献国内外研究现状、发展动态:异常检测也称为离群点检测,是近年来数据挖掘领域的重要研究方向之一[1-5],其目标是在数据集中发现不正常的数据点,与之相关的研究包括:事件检测(eventdetection)[3]、变化点检测(change-pointdetection)[4]、异常行为检测(aberrantbehaviordetection)[5]等。目前,对时间序列的异常还没有一个公认的定义,普遍采用的是D.M.Hawkins给出的定义[6]:“异常点是那些与其他数据点有较大偏差的数据点,以至于怀疑这些偏差并非随机产生,而是产生于一种完全不同的方式”。异常检测技术已在经济、科学、工程等领域取得了广泛应用,如信用卡欺诈[7]、网络入侵检测[8]、海表水温检测[9]等。虽然很多学者已对大型数据集的孤立点数据挖掘做出了大量研究与探索,其主要思想一般是减少或消除孤立点,然而由于孤立点既有可能是噪声信息也有可能是有用信息[10],随意删除孤立数据可能导致有用信息的丢失,所以通过孤立点检测发现和利用在孤立点中的有用信息具有非常重要的意义。孤立点检测算法主要分为经典孤立点检测算法和面向特殊数据的孤立点检测算法。一.经典孤立点检测算法:1.基于统计学原理的孤立点检测算法:早期的孤立点检测算法大多数是基于统计学原理实现的[11-13],通常可以分为基于分布的检测算法和基于深度的检测算法两类。前者一般先构造一个标准分布来拟合数据集,然后根据概率分布来确定孤立点,例如Rosner提出的单样本多个离群检测算法ESD方法[11]和Yamanishi[12]等使用混合高斯模型的孤立点检测算法.此类算法方法的明显不足在于估计多维数据分布的难度较大且准确性低[13];基于深度方法主要以计算几何为基础,通过计算不同层的k-d凸包[14]将外层的对象判定为孤立点,但当数据集的数目增长时,此类方法在维数上的伸缩性不好。随着统计理论的发展,许多关于异常检测的统计方法应运而生,如Score检验,Dixon检验以及Grubbs检验。Score统计量的最大优点是,人们只需要计算在原假设条件下(例如方差齐性的条件下)参数的极大似然估计,而不需要在很复杂的备择假设下(异方差条件下)计算参数的极大似然估计,而且Score统计量的渐近分布与似然比统计量的渐近分布相同,检验的功效也相当[15]。李俊[16]运用Score统计量对美国海军设备所需的人力进行异常点检测并得到较满意的结果。Grubbs法是在标准差未知的情况下对异常值进行检测的一种方法,目前已广泛应用于临床实验室室内质量控制技术、标准测温仪器、Windows实时处理系统、建筑技术经济指标等领域中.数学上已证明,在一组测定值中只有一个异常值的情况下,Grubbs法在各种检验法中是最优的,但在实际应用中当前三次数据的精密度过大或过小时极易出现假失控和假在控现象[17]。未知标准差情形下,对单组数据判断和处理异常值方法,常用的有Grubbs4法和Dixon法。在水平测试均匀性样品的选取当中的异常值检验,依标准规定剔除异常值都采用Grubbs或Dixon法。Dixon法适用于小样本检测数据中异常值的检验,它比Grubbs法更简便,已成为国际标准化组织(ISO)和美国材料试验协会(ASTM)的推荐方法。Dixon法主要应用于在检测值中发现多个异常值的检验,还可以检查多次分析的平均值是否可疑,或者检查实验室平均值是否大体上服从正态分布[18]。2.基于密度的异常检测方法:如局部异常因子(LOF,localoutlierfactor)[19],该方法克服了不同密度子集混合而造成的检测错误,检测精度较高,但当数据集较大时计算量大,复杂度过高,响应速度较慢。3.基于距离的孤立点检测算法:基于距离的孤立点检测算法的基本思路是把数据点看作空间中的点,孤立点被定义为在数据集中与大多数数据对象之间的距离大于某个给定的阈值的对象点,通常被描述为DB(pct,dmin)。当且仅当数据集S中至少有pct个数据点与P点的距离大于dmin时,数据对象P点称为孤立点。这类方法基于密度的检测算法有很大的相似之处,不需要事先知道数据集的分布模型,对于任意的分布模型均有效。经典的k近邻最先是由KnorrandNg[20]提出来的。该算法定义了孤立点的范围,但要求事先给出合适的参数d和k。KnorrandNg给出了两种算法:循环嵌套算法和基于单元的算法。前者时间复杂度为O(dn2),在挖掘海量数据集时表现不能令人满意;后者运行效率和数据集的大小成线性关系,但和数据集的维数成指数关系,仅当维数为4时运行速度较快。二.面向特殊数据的孤立点检测算法:如数据流中的孤立点检测算法:此类算法主要针对动态数据集进行孤立点检测,可挖掘持续的、数据量大的数据流中的孤立点。FengHan[21]提出基于kNN的孤立点检测算法来提高数据流中孤立点检测的效率,满足上述的多个评估准则,该算法运用哈希数据结构并充分利用逻辑操作和互为相邻关系,能够有效地挖掘出数据流中的孤立点,并且对数据集大小的伸缩性好,但是最优的参数设置需要更多特定的领域知识。徐雪松[22]深入分析时间序列不确定数据流的特点,针对传统数据流异常数据检测方法存在的问题,提出一种时间序列不确定数据流异常数据检测方法。该方法针对不确定数据流的高速、无限和动态不确定特性,结合小波分析和改进的聚类方法来识别异常数据。当通过算法检测出来异常值及其位置时,我们需要知道异常点的属性。在时间序列中,不同类型的离群点可能对估计量产生不同的影响,而且离群点可能包含更多的信息,因此区别离群点的类型很有必要。根据离群点的特点Fox[23]将离群点分为两类:(1)AO(AdditiveOutliers)这种异常点是由某时刻观察和记录的误差所致,它们的出现并不波及到邻近的观测值。(2)IO(InnovationOutliers)这是成片出现异常点,在某时间内一个异常点通过随机序列相关结构波及到它邻近的一批数据(通常是它后继的邻近点)从而使这些邻近点表现一定的异常。另外,关于建立时间序列的ARIMA模型的步骤和方法具体可以参考魏武雄[24]的著作。5参考文献:[1]BARAGONAR,BATTAGLIAF.Outlierdetectioninmultivariatetimeseriesbyindependentcomponentanalysis[J].NeuralComputation,2007,19(7):1962-1984.[2]LASTL,KANDELA,BUNKEH.DataMininginTimeSeriesDatabases[M].Singapore:WorldScientificPublishingCompany,2004.[3]YAMANISHIK,TAKEUCHIJI.Aunifyingframeworktodetectingoutliersandchange-pointsfromnonstationarydata[C]//ProceedingsoftheEighthACMSIGKDDInternationalConferenceonKDD.NewYork:ACM,2002:676-681.[4]JAGADISHHV,KOUDASN,MUTHUKRISHNANS.Miningdeviantsinatimeseriesdatabase[C]//Proceedingsof25thInternationalConferenceonVeryLargeDataBases.SanFracisco:MorganKanfmanPublishersInc,1999:102-113.[5]KOTSAKISE,WOLSKIA.MAPS:amethodforidentifyingandpredictingaberrantbehaviorintimeseries[C]//Proceedingof14thInternationalConferenceonIndustrialandEngineeringApplicationsofArtificialIntelligenceandExpertSystems.NewYork:ACM,2001:314-325.[6]HAWKINSDM.IdentificationofOutliers[M].London:ChapmanandHall,1980.[7]吴婷.数据挖掘在信用卡欺诈识别上的应用研究[D].南京:东南大学,2006.[8]范秉琪,朱晓东,马鸿雁等.基于数据挖掘的网络入侵检测系统的设计与应用[J].河南理工大学学报,2006,25(3):247-250.[9]汤光华,王俐莉,刘常昱,等.一种时序数据的离群数据挖掘新方法及其应用[J].计算机工程与应用,2006(8):209-211.[10]KnorrE,NgR,TucakovV.DistanceBasedOutlier:AlgorithmsandApplications[J].VLDB,2000,8(3-4):237-253.[11]PaulST,FungKY.AGeneralizedExtremeStudentizedResidualMultipleoutlierdetectionProcedureinLinearRegression[J].Technometrics,1991,33(3):339348.[12]YamanishiK,TakeuchiJ,WilliamsG.Onli