龙源期刊网数据清洗方法研究综述作者:赵一凡卞良丛昕来源:《软件导刊》2017年第12期摘要:数据是数据挖掘和应用的重要保证,“脏数据”会导致不可靠输出,这种输出导致的结果有可能难以弥补。因此,数据清洗方法研究意义重大。阐述了数据预处理过程中的数据清洗方法,介绍了缺失值填充及去除数据噪声的常用方法,总结了数据挖掘的应用前景,展望了数据清洗研究方向。关键词:数据预处理;数据清洗;数据质量;缺失值DOIDOI:10.11907/rjdk.172093中图分类号:TP301文献标识码:A文章编号:1672-7800(2017)012-0222-03Abstract:Dataisanimportantguaranteefordataminingandapplication,“DirtyData”canleadtounreliableoutput,theresultofthisoutputmaybedifficulttomakeup,therefore,thedatacleaningmethodhasimportantresearchsignificance.Aimingatthedatapreprocessingprocessdatacleaningissurveyedinthispaper,clarifyingthemissingvaluesandremovingthenoiseinthedatamethod,comparisonoftheadvantageanddisadvantageofcommonlyusedmethods,summarizetheshortcomingofdatacleaningresearchandtheapplicationofdatamining.KeyWords:datapreprocessing;datacleaning;dataquality;missingvalue0引言不同的数据清洗方法有各自的优缺点。大数据开发、挖掘和应用越来越广泛,但脏数据却普遍存在。脏数据指源系统中的数据不在给定的范围内,或对于业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码或含糊的业务逻辑[1]。挖掘的数据基本上是来自生产、生活、商业中的实际数据,各种原因都可能导致缺失某些重要数据、采集到的数据不正确或含有噪声、不一致等问题。数据质量是数据挖掘效果的重要保证,因此,数据清洗方法研究意义重大,也面临很多亟待解决的问题。1数据预处理数据预处理技术可以改进数据质量,提高挖掘过程的准确率和效率。数据预处理分为数据清洗、数据集成、数据规约、数据变换[2]几方面。数据清洗是通过填写缺失值、光滑噪声数