遗传算法在数据挖掘中的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

桂林工学院硕士学位论文遗传算法在数据挖掘中的应用姓名:吴晓虹申请学位级别:硕士专业:计算机应用技术指导教师:陈晓辉20080401遗传算法在数据挖掘中的应用作者:吴晓虹学位授予单位:桂林工学院相似文献(10条)1.学位论文贺毅基于遗传算法的数据挖掘技术研究2004大型数据库的和数据仓库的发展给数据库、机器学习和统计学研究者带来了许多新的挑战.其中之一就是如何让用户从他们存储的数据中得到更多的信息和有用的知识.数据挖掘和数据库知识发现是在对更深入、更充分开发信息资源的迫切需求背景下产生并迅速发展起来的一个国际前沿领域,它已经成为研究的一个热点.本文首先对数据挖掘进行了评述,阐明了什么是数据挖掘、为什么要数据挖掘、如何进行数据挖掘,数据挖掘与机器学习、统计学、数据库等的区别与联系,数据挖掘的主要过程等问题,接着介绍了数据挖掘中的一个重要算法-遗传算法.文中对遗传算法的产生与发展、遗传算法的主要理论、简单遗传算法和改进遗传算法的实现都进行了简要的介绍.遗传算法较适合于传统搜索方法所不能解决的复杂问题和非线性问题.然而,实际应用中遗传算法存在编码、迭代次数、种群规模的限制,造成种群多样性和选择性压力的调和冲突,即强选择性压力导致遗传搜索过早收敛,强种群多样性导致遗传搜索效率低下,遗传算法的改进应考虑到:(1)为了保证算法能全局收敛,必须保护种群的多样性;(2)为了加快算法的收敛,必须使种群中个体尽快向最优解聚集.自从遗传算法的完整结构和理论提出以来,众多学者一直致力于推动遗传算法的发展,对编码方式、控制参数的确定、选择方式和交叉机理等进行了深入的研究,引入了动态策略和自适应策略以改善遗传算法的性能,提出了各种变形的遗传算法.本文结合应用的特点,从选择算子和自适应遗传算法两方面对遗传算法进行了改进.在深入调研与分析国内外知识发现与数据挖掘相关理论与应用和技术文献的基础上,归纳总结了该领域的主要研究内容和关键技术,详细评述了基于分类数据知识发现的相关理论与技术的研究现状、存在问题与发展趋势,利用UCI数据库作为实验数据,主要研究了知识发现过程中的一种数据预处理方法—特征选择方法,针对知识发现过程的预处理问题,研究了特征选择的理论和技术,提出了一种利用信息理论和概率论,建立在改进遗传算法基础上的特征选择算法,通过去除属性集中的不相关属性,降低数据维数,减少数据量,从而提高数据挖掘的精度,加快知识发现的过程.文章主要针对KDD的数据预处理阶段的一类重要问题-分类问题,描述了特征选择的概念,分析了它在KDD中应用的重要性和必要性,针对KDD的特点介绍现有的特征选择的各种方法并进行了归纳,为下一步的研究和开发提供了一个有益的框架.本文针对上述研究内容,进行了大量的实验研究和论证,结果表明,本文的理论、方法与技术正确有效,达到了加快知识发现过程,提高知识发现精度与效率的目的,实现了利用特征选择技术优化知识发现过程的目的,具有良好的实际应用前景.在本文的最后,讨论了数据挖掘所面临的问题与挑战并对论文工作进行了小结与展望.2.期刊论文张帆试论数据挖掘中的遗传算法-中国科技信息2006(19)本文对数据挖掘进行了概述,阐明了数据挖掘的概念、数据挖掘在商业中的意义.如何进行数据挖掘及数据挖掘流程,提出了数据挖掘技术中的一个重要算法-遗传算法的基本原理以及遗传算法在数据挖掘技术中的地位.提出了基于遗传算法的关联规则的提取方法.文章还给出了用遗传算法进行关联规则挖掘的实例,并讨论了数据挖掘技术所面临的问题和挑战.3.学位论文钟福连遗传算法在数据挖掘技术中的应用研究2007数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。数据挖掘是一门广义的交叉学科,将是今后几年全球范围内重点投资研究的十大新技术之一,它引起了学术界和工业界的广泛关注,是当今数据库系统研究和应用领域内的一个热点问题。本文首先对数据挖掘进行概述,阐明数据挖掘的定义、数据挖掘的目的、任务和对象,如何进行数据挖掘以及数据挖掘的主要过程、数据挖掘的方法和技术等问题。其次介绍了关联规则的定义和性质、种类等问题。再次介绍了数据挖掘中的一个重要算法——遗传算法。文中对于遗传算法的发展历史以及主要理论、基本遗传算法及算法的描述和遗传算法的基本实现技术都进行了简要的介绍。在此基础上,本文提出了基于遗传算法的关联规则的提取方法。并从编码方法、适应度函数的构造、遗传算子的设计等方面进行了详细的讨论和分析。并结合一所院校的教师测评系统,给出了用遗传算法进行关联规则挖掘的实例。实现了数据挖掘在教育领域的应用。4.期刊论文王东龙.李茂青.WANGDong-long.LIMao-qing基于遗传算法的数据挖掘技术应用-南昌大学学报(工科版)2005,27(1)本文对数据挖掘进行了概述,阐明了数据挖掘的概念、数据挖掘在商业中的意义.提出了数据挖掘技术中的一个重要算法--遗传算法的基本原理以及遗传算法在数据挖掘技术中的地位.结合大型商场管理系统提出了一种基于遗传算法的最优客户群体数据挖掘算法,以实例说明了应用遗传算法中需要注意的一些问题,并讨论了数据挖掘技术所面临的问题和挑战.5.学位论文王武龙基于遗传算法的聚类数据挖掘及其在销售系统中的应用2001该文主要围绕遗传算法对数据挖掘理论和方法进行了以下几方面的工作:首先归纳了数据挖掘技术的总体研究情况,包括数据挖掘的定义、与其他学科的关系、挖掘的主要过程、分类和主要技术手段.重点探讨了数据仓库和数据挖掘的关系.数据仓库作为一种新型的数据的存取地,为数据挖掘提供了新的支持平台.因其内在的对决策的支持能力,为数据挖掘开辟了新的空间.其次深入研究了数据挖掘领域中的一个重要研究方向--聚类.聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用迄今为止人们提出了许多用于大规模数据库的聚类算法.该文对遗传算法进行深入研究,对遗传算法进行了优化改进,提出一种高效的基于遗传算法的聚类挖掘.聚类的数据挖掘主要挑战性在于数据量巨大且必须全局遍历,因此应用遗传算法的效率是很关键.然后构建销售系统数据仓库初型.完成大钢集团销售系统的设计与开发,包括初步设计、详细设计以及软件开发,大连钢铁集团CIMS工程销售系统主要包括订货于系统、发货子系统、价格子系统和资金子系统.该文的基于遗传算法的数据挖掘主要以大连钢铁集团CIMs工程订货子系统为背景.开发的系统现已正常运行.最后在研究遗传算法理论与应用的基础上,将改进后的算法应用于大钢销售系统.6.学位论文颜富强遗传算法在数据挖掘中的应用研究2008近来,随着数据库技术和海量存储器等硬件的快速发展,人们收集数据的能力得到了进一步的提高。面对信息时代海量数据的出现,如何有效地利用巨量的原始数据分析现状以预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得以迅猛发展,目前,数据挖掘已经成为一个研究热点。鉴于遗传算法在数据挖掘中优越性,本文主要做了如下工作:(1)首先介绍了数据挖掘的基本概念、原理,以及常用的数据挖掘算法和对这些常用算法的性能分析,紧接着介绍了遗传算法的基本概念和基本原理,以及经典遗传算法的基本流程和算法分析,为后续的工作提供理论依据和实验基础。(2)提出了一种基于改进遗传算法的聚类模式数据挖掘方法(IGAOC),以超市销售系统为背景,根据超市一段时间的销售情况,利用该算法对其数据库的信息进行聚类分析,从而预测出销售情况较好的商品类型,得到了一些潜在的具有应用价值的信息,并为超市的销售发展提供了一定的指导意义。实验表明,该算法收敛较K—means算法慢,算法的使用时间优于传统的K—means算法.(3)提出了一种基于免疫遗传算法的数据挖掘方法,就是在应用遗传算法进行数据挖掘的基础上,对遗传算法进行改进,引入免疫算子解决遗传算法中的“早熟”现象。利用该算法能够实现客户关系管理(CRM),以上述IGAOC方法挖掘得出的结果为例,因为对于很多同类型的商品来说,供货商肯定不止一家,该方法就是对同类型商品的供货商的基本信息数据库进行挖掘,计算出能使超市盈利最大的供货商,从而锁定这些客户,为超市赢取最大的利益。通过实验表明,该算法具有很强的鲁棒性和隐含并行性,能快速、有效地进行全局搜索,是处理大规模数据的有效方法,不仅克服了遗传算法的“早熟”现象,也大大提高了搜索效率。7.期刊论文刘长良.赵建英.曲晓平.刘廉隅.LiuChangliang.ZhaoJianying.QuXiaoping.LiuLianyu遗传算法在数据挖掘中的应用实例分析-仪器仪表学报2006,27(z3)该文主要分析了数据挖掘的有关概念及其数据挖掘的过程,详细阐述了遗传算法的基本思想、步骤及其在数据挖掘中的应用,以遗传算法在旅行商问题中的应用为例,全面分析了遗传算法在数据挖掘中的应用过程及其实现的计算效果,同时对简单的遗传算法在数据挖掘应用中存在的问题进行了讨论.8.学位论文贺琦遗传算法在数据挖掘中的应用2005随着计算机技术和信息技术的发展,信息的增长速度呈现指数上升,最近几十年产生了很多超大型数据库,遍及超级市场销售、银行存款、行政办公及科学研究。信息量的急剧增长,使传统分析方法远远不能满足现实的需求。面对海量数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。人们急切的需要一种去粗存精、去伪存真的技术,能够从海量的数据中提取知识和信息的数据挖掘技术应运而生。数据挖掘(DataMining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,集成了数据库、人工智能、数理统计、可视化、并行计算等技术。数据挖掘是应用需求推动下跨学科发展的产物,而且在近几年里迅速发展起来。这个领域的实质是智能技术与数据库技术的结合,不但为决策者提供知识和策略,而且为投资者带来经济效益。现在应用于数据挖掘的算法有许多种,但是许多数据挖掘算法都涉及以下问题:数据的不完整、不精确以及不确定,即从不一致的例子中如何提取规则;规则的有效性,即在挖掘中出现很多无用的规则的处理;规则选优,在规则发生冲突时如何选择;以及误差控制,算法效率等。遗传算法(geneticalgorithmn,GA)由于其解决问题以混沌、随机和非线性为典型特征,为其它科学技术无法解决或难以解决的复杂问题提供了新的计算模型。对于大量数据的嘈杂无序的特征,遗传算法是有效解决此类问题的方法之一。它模拟自然选择和生物遗传机制,利用遗传算子产生后代,通过群体的迭代,使个体的适应性不断提高,最终群体中适应值最高的个体即是优化问题的最优或次优解。本文首先概括地介绍了数据挖掘技术,对其任务、方法及面临的问题与挑战等进行了讨论;然后,引入了遗传算法,探讨了其基本要素、特点及研究现状与方向等,并针对其局限性,提出了一系列的改进方法:采用分阶段快速寻优、调整控制参数、实数编码、协同进化、协同多群体遗传算法,粗粒度遗传算法及混合粗粒度遗传算法来提高基本遗传算法的收敛速率,避免“早熟”现象;最后,本文将遗传算法用于数据挖掘,提出了一种基于遗传算法的聚类算法,解决了常规聚类算法不能有效处理局部极值、聚类结果对初始聚类中心的选取有着很大的敏感性的问题。9.期刊论文赵建英.刘长良.曲晓平.ZHAOJian-ying.LIUChang-liang.QUXiao-ping遗传算法在数据挖掘中的应用分析-仪器仪表用户2006,13(3)该文主要分析了数据挖掘的有关概念及其数据挖掘的过程,详细阐述了遗传算法的基本思想、步骤及其在数据挖掘中的应用,以遗传算法在旅行商问题中的应用为例,全面分析了遗传算法在数据挖掘应用过程及

1 / 68
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功