数据仓库中重复记录清理算法研究作者:钟嘉庆,张义芳,卢志刚,ZHONGJiaQing,ZHANGYiFang,LUZhiGang作者单位:燕山大学电气工程学院,河北,秦皇岛,066004刊名:微型机与应用英文刊名:MICROCOMPUTER&ITSAPPLICATIONS年,卷(期):2009,28(7)被引用次数:0次参考文献(12条)1.LINDeKangAnInformation-theoreticDefinitionofSimilarity19982.MONGEAE.ELKANCAnEfficientDomain-IndependentAlgorithmforDetectingApproximatelyDuplicateDatabaseRecords19973.GUTTMANAR-treesadynamicindexstructureforspatialsearching19844.冯玉才.桂浩.李华数据分析和清理中相关算法研究[期刊论文]-小型微型计算机系统2005(06)5.HEMANDEZMA.STOLFOSJTheMerge/PurgeProblemforLargeDatabase19956.洪圆.孙未未.施伯乐一种使用双阀值的数据仓库环境下重复记录消除算法[期刊论文]-计算机工程与应用2005(01)7.张雪英.闾国年基于字面相似度的地理信息分类体系自动转换方法[期刊论文]-遥感学报2008(03)8.刘宝艳.林鸿飞.赵晶基于改进编辑距离和依存文法的汉语句子相似度计算[期刊论文]-计算机应用与软件2008(07)9.陈伟数据清理关键技术及其软件平台的研究与应用[学位论文]200410.王源.吴小滨.涂从文后控制规范的计算机处理1993(02)11.赵妍妍.秦兵.刘挺基于多特征融合的句子相似度计算[会议论文]200612.DAVIDSONSB.KOSKYASSpecifyingDatabaseTransformationsinWOL1999(01)相似文献(7条)1.学位论文杨辅祥数据仓库下中文数据清理的研究与应用2002该文较详细、全面、简明地论述了数据仓库中的数据清理问题:介绍了国内外的研究现状,分析了数据中存在的问题(“脏数据”)、数据清理的方式、方案、流程及所用的技术与方法等.我们重点研究了中文数据清理中的重复记录问题,对属性清理也有所论述,但主要是作为自动分词与重复记录清理的预处理步骤.我们分析了“特征词”法进行中文数据清理的不足,然后从英文与中文的区别出发,借鉴英文数据清理中的算法与思想,分析说明了中文数据清理应解决的问题,且将自动分词引入到中文数据清理中,提出了“基于自动分词的中文数据清理”方案.该文中的自动分词是中文重复记录清理的基础,它解决了中文数据清理与英文数据清理中一个较根本的问题,从而使前者能应用后者中已有的成果.该文详细介绍了我们的中文数据清理方案:预处理、匹配标准、分词后的排序问题、记录比较的思想、冲突解决方法及作为基础的自动分词,并举例说明了各个步骤.2.学位论文李俊娴基于预处理技术的数据清理系统研究与实现2007随着信息化工程的不断深入,许多企业在长期的运营过程中积累大量数据,这些数据能够反映企业生产经营过程中的规律。建立决策支持系统是利用已有数据的应用服务之一,但是基于劣质数据的决策是不可信的。纠正数据错误是避免错误决策、降低决策风险的重要一环,数据清理应运而生。本文深入研究数据预处理技术和数据清理技术。数据预处理技术分别针对数值型字段和字符型字段研究了孤立点的检测和缩写的发现;数据清理技术研究相似重复记录的清理。孤立点的检测使用一种基于邻域局部修剪的算法,利用垂直的数据结构—P-树实现算法,保证算法的有效性和高效率,并对算法做出改进,提高算法的适用性。在缩写发现技术中,重点研究基于动态规划的缩写发现算法,该算法不仅能处理西文字符而且能有效地发现中文缩写形式,改进后的算法具有较高的效率和较好的健壮性。数据清理部分对于相似重复记录的清理,分别研究英文、中文记录排序算法,不同类型字段的相似度计算方法,记录相似度计算方法以及相似重复记录的合并规则,并对以上相似重复记录清理的每个步骤都做出改进,提高了数据清理过程的正确率和执行效率。最后,本文给出了基于预处理技术的数据清理系统的初步实现,并将其应用到某项目中,验证结果表明:基于预处理技术的数据清理系统具有良好的运行效率和运行效果。3.学位论文陈伟数据清理关键技术及其软件平台的研究与应用2004为了更好地发挥信息化的作用,必须提高信息系统的数据质量.显见,研究信息化建设中的数据清理问题具有理论和应用价值.针对这一课题,论文包括如下几个方面的研究工作:论述了数据清理研究的重要性和紧迫性,分析了数据清理的研究现状,指出了目前数据清理研究中所存在的问题.从数据质量的三个重要因素出发,研究了单数据源中数据清理的关键技术,包括:相似重复记录清理、不完整数据清理、错误数据清理.对于相似重复记录的清理,给出了一种综合的清理方法.为了提高该方法的检测精度和检测效率,从两个方面对该方法的关键环节进行了改进:第一个改进是在相似重复记录检测中,根据具体的业务系统,采用等级法为记录各字段指定合适的权重,从而提高了相似重复记录的检测精度;第二个改进是提出了一种提高相似重复记录检测效率的方法,该方法采用长度过滤方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了相似重复记录的检测效率.此外,构造了合适的实验环境,做了大量的检测实验,翔实的实验结果验证了长度过滤方法的科学性及有效性.对于不完整数据的清理,提出了一种清理方案,该方案首先分析数据的可用性;然后删除不可用记录;最后,对可用记录通过选用合适的方法来处理该记录的丢失值,从而完成数据源中不完整数据的清理.针对数据源中出现的错误数据,研究了如何采用孤立点检测和业务规则这两种方法来检测这些错误数据,多种检测方法大大提高了错误数据清理的综合效果.在研究了单数据源数据清理的基础上,又研究了多数据源集成中的数据清理问题,主要内容有:研究了多数据源集成中数据标准化的方法;结合相似重复记录清理的研究,给出了一种相似重复实体检测方法,有效地解决了多数据源集成中相似重复实体的清理问题;提出了一种交互式数据迁移方法,该方法把数据迁移和数据清理紧密地结合在一起,不仅可灵活、准确地完成多数据源集成中的数据迁移,还可保证数据迁移后新系统的数据质量.在结构化数据清理研究的基础上,针对半结构化数据XML在数据清理中的重要性,提出了一种有效的XML相似重复数据清理方法,并给出了一种优化的基于树编辑距离的XML相似检测算法,该算法能有效地检测XML相似重复数据.从而为研究XML相似重复数据清理打下了基础.在数据清理工具的研制上,提出了一种可扩展的数据清理软件平台,该软件平台具有开放的规则库和算法库,算法库中包含多种算法,并可对其扩展;通过在规则库中定义清理规则以及从算法库中选择合适的清理算法,可使该软件平台适用于不同的数据源,从而使其具有较强的通用性和适应性;通过多种算法的清理,提高了数据清理的综合效果.最后,实现了该软件平台的关键技术,并将它应用于制造业信息化和医疗保险信息系统的数据清理中,实际应用验证了该平台的有效性及可行性.总之,本文的工作旨在深化数据清理的研究,并希望为数据清理在信息化中的应用起到一个抛砖引玉的作用,使得信息化建设能够真正在各行各业中发挥更好的作用.4.学位论文汪雪关系数据库数据清理技术研究2007在当今世界,企业信息化的要求越来越迫切,其中一个重要的方面就是企业的数据的管理。根据“进去的是垃圾,出来的也是垃圾”这条原理,为了支持正确决策,就要求所管理的数据可靠,没有错误,能准确地反映企业的实际情况,因此企业数据质量的管理正在获得越来越多的关注。在现实中,数据一般都存在各种各样数据质量问题,含有各种类型脏数据。数据清理是提高数据质量的重要途径。针对这一课题,论文包括如下几个方面的研究工作:·相似重复记录清理对于相似重复记录的清理,本文着重从重复记录识别和相似记录检测两方面进行了研究。重复记录识别本文主要研究了基本邻近排序方法和优先队列算法;相似记录匹配本文分析了几种核心的字段匹配算法,针对字段值的特点采用基于编辑距离的字段匹配算法,同时设计了利用有效权值和长度过滤的优化算法进行记录匹配,减少相似重复记录的检测时间,提高算法的效率。·空缺数据清理对于空缺数据的清理,本文设计了一种清理方案。首先分析数据的可用性;然后删除不可用记录;最后,对可用记录通过选用填充空缺值的方法来处理该记录的空缺数据,从而完成数据源中空缺数据的清理。本文着重分析了判定树归纳的方法来处理空缺数据,并对判定树归纳法进行了变形。实验证明,判定树归纳变形算法速度快精度也较高。·错误数据清理针对数据源中出现的错误数据,研究了如何采用业务规则这种方法来检测错误数据的重要性,并设计了将数据分类与平滑结合的算法去除噪声。这种算法既能对数据进行平滑,减少孤立点出现的可能,又不会出现因为进行平滑而改变了数据所处类的问题。·数据清理框架结合以上所分析和研究的算法,本文设计了一种数据清理框架。它是集成了一系列数据清理方法,并能利用具体业务知识、可扩展的数据清理工具框架。这样方便使用者从丰富的数据清理工具中选择适合领域问题的清理方法,从而提高数据清理算法在不同应用中的清理效果。5.学位论文鲁均云重复和不完整数据的清理方法研究及应用2009随着信息化产业的不断推进,企业积累的数据越来越多,激增的数据背后隐藏着重要信息,对企业作出正确、科学的决策,提高竞争力是至关重要的。为满足决策分析的需要,数据仓库应运而生。在数据仓库构建过程中,由于各种原因,数据仓库中含有重复的、不完整的以及异常的数据,即数据存在质量问题。高质量的数据是决策支持的前提条件,因此,为提高数据质量,对数据进行清理是非常必要的。br 本文先论述了数据预处理的相关知识,分析了数据清理的必要性以及国内外研究现状,并介绍了数据质量和数据清理的相关理论,阐述了数据清理的定义、原理与基本流程及相关清理技术。重点对相似重复记录检测及不完整数据清理方法做了深入研究,对相关算法进行了改进,并在此基础上设计了一个数据清理原型系统。本文主要工作如下:br (1)在重复记录清理中,提出一种基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;再根据等级法计算各字段的权值,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法。实验表明该方法具有较好的检测精度和时间效率。br (2)在不完整数据清理中,提出一种基于小波聚类加权1-NN的不完整数据清理方法。首先将数据集分成完整记录集和不完整记录集,然后对完整记录集利用小波聚类算法进行聚类,形成不同的子类,再判断不完整记录集中记录的可用性,利用加权1-NN方法找到不完整记录的最近邻子类,最后填充不完整记录缺失属性值。实验表明该方法具有较好填充效果。br (3)在分析和研究多种清理框架基础上,设计一种数据清理原型系统。该系统具有开放的算法库、规则库与评估库,包含了丰富的清理算法和大量的清理规则,提供了多种质量评估指标。从分析体系结构各个模块的主要功能及其应用,体现了该系统具有良好的可扩展性、灵活性和交互性。6.期刊论文冷鹏基于记录匹配算法的记录清理研究-科协论坛(下半月)2007(7)随着计算机的普及与Internet的发展,信息技术的大量应用,人们做决策时对数据的依赖性越来越强.通过了解数据清理的概念、意义,分析数据中存在的脏数据、数据清理的方式、方案、流程及所用的技术与方法等.7.学位论文吕威数据质量和隐私保护中聚类分类算法的应用研究2008数据质量和隐私保护问题已经引起了学术界广泛的关注,并已成为当前学术界的热点研究领域.数据质量并不仅仅是指数据错误,通常定义为数据的一致性(consistency)、正确性(corr