粗糙集算法在面向CRM的数据挖掘中应用研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

北京工业大学硕士学位论文粗糙集算法在面向CRM的数据挖掘中应用研究姓名:田池申请学位级别:硕士专业:管理科学与工程指导教师:刘云枫20070508粗糙集算法在面向CRM的数据挖掘中应用研究作者:田池学位授予单位:北京工业大学相似文献(10条)1.学位论文赛英粗糙集扩展模型及其在数据挖掘中的应用研究2002该文以国家自然科学基金项目管理决策中数据仓库与数据挖掘新技术研究为背景,从理论和应用两个方面较全面和系统地阐述了这一理论的研究内容和方法.完成的工作和取得的创新性成果在于:经过对粗糙集理论的深入研究,作者找到了粗糙集与模态逻辑、模糊集、代数系统和区间集代数等抽象理论之间的关系,一是粗糙集可以为抽象理论提供语义解释,从而使我们能更好地理解掌握这些抽象理论;二是粗糙集建立了各个独立的抽象理论之间的内在关系,使彼此独立的抽象理论联系在了一起.作者研究了粗糙集扩展理论,提出了一种多层粗糙集模型CBM-RS.该模型是一种基于覆盖的扩展的多层粗糙集模型.作者提出了从不一致决策表中挖掘最简规则的粗糙集方法MI-RS.作者提出了有序信息表上的数据分析与数据挖掘模型OITM.该文的研究成果,对于拓宽粗糙集的理论及粗糙集在数据挖掘中的应用,有一定的理论和实践意义.2.期刊论文杨宝华.钱远军.胡学钢基于粗糙集(RoughSet)理论的数据挖掘(KDD)过程及其实现-计算机与农业2003,(7)数据挖掘是从数据库中抽取隐含的具有潜在应用价值得信息,进行数据挖掘的方法很多,其中基于粗糙集的数据挖掘方法简单可行.粗糙集是一种处理模糊和不确定性数据的工具,本文结合银行申请信用卡的实例利用粗糙集进行数据挖掘,消去冗余属性,抽取决策规则.3.学位论文韩中华基于粗糙集的数据挖掘方法研究2004该文主要研究了基于粗糙集和统计方法的数据挖掘方法,并对两种方法进行了对比研究,对粗糙集方法进行了扩展,提出一种基于变精度粗糙集的数据挖掘方法,以胶合板缺陷检测为对象,对数据挖掘技术进行了探索研究,并进行了大量的实验研究和理论分析,取得了重要的理论和应用研究成果.该文的研究工作主要有以下几个方面:第一,对数据挖掘技术、数据挖掘技术的实现、数据挖掘技术的主要应用和基于粗糙集的数据挖掘系统的开发软件进行了探讨和研究.第二,研究了数据预处理方法.进行了数据补齐、数据离散化的方法研究,在数据离散化方法中提出了一种基于谱系聚类法的数据离散化方法,利用聚类分析方法的特点,在保持所要求的分类能力不变的情况下,根据数据的内部特点,对原数据进行聚类达到离散化,从而有效减小挖掘算法的搜索空间.第三,对决策表的各属性依赖度进行了研究.分别采用两种依赖度方法对决策表的属性进行了依赖度研究,获得了对决策分析影响大的属性和属性之间的依赖关系,得出了各属性对决策分析的影响程度.第四,研究了基于粗糙集软计算方法的数据挖掘方法.以胶合板缺陷检测为研究对象,进行了基于粗糙集的数据挖掘方法的应用研究,通过研究获得了对胶合板缺陷进行分类的决策规则,并使用知识逻辑语言进行了决策规则的解释,实验证明通过决策规则对胶合板缺陷数据进行分类准确率达到91.93%.第五,将变精度粗糙集理论引入到数据挖掘系统中,以胶合板缺陷检测数据为对象进行实验研究和理论论证,实验证明变精度粗糙集能够减少数据挖掘系统的运行时间,提高系统实时性,对数据挖掘技术的研究具有重要价值.第六,在数据挖掘过程中,进行了判别分析与粗糙集方法的对比研究.经实验证明粗糙集方法在数据挖掘过程中能够有效的去除冗余属性和提取决策规则.最后,对全文所做的工作进行了总结,并对下一步研究工作进行了展望.4.期刊论文郭庆琳.郑玲.GuoQinglin.ZhengLing基于粗糙集数据挖掘的汽轮机故障预报及诊断研究-现代电力2006,23(3)针对当前专家系统知识获取瓶颈的难题,提出了基于粗糙集数据挖掘的汽轮机故障预报及诊断方法.粗糙集理论把知识直接与真实或抽象世界有关的不同模式联系在一起,能有效分析处理不精确、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律.将汽轮机故障历史数据首先进行模糊化及离散化处理,然后构建故障诊断决策表,以决策表作为主要工具,即知识库,采用粗糙集数据挖掘方法直接从决策表中提取出潜在的诊断规则,为汽轮机提供有效的故障诊断.提出了基于粗糙集的分类规则学习和约简算法,实现了基于粗糙集数据挖掘的汽轮机故障预报及诊断系统,其诊断正确率达到了88%.实验表明该方法可行,对汽轮机故障预报及诊断系统的设计具有借鉴意义和深入研究的价值.5.学位论文王庆东基于粗糙集的数据挖掘方法研究2005数据挖掘技术是机器学习、数据库和统计理论相结合的产物,是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含的、先前未知的并有潜在价值的信息的非平凡过程。粗糙集理论是上世纪八十年代初由波兰数学家首先提出的一种刻画不确定性和不完整性知识的数学工具。该理论近年来日益受到广泛关注,已在人工智能与知识发现、模式识别、故障检测、专家系统等方面得到了成功的应用。本文在总结和借鉴前人经验的基础上,针对数据挖掘中常见的问题,从理论和应用两个方面进行了数据挖掘方法研究。在数据挖掘过程中,直接在原始数据表上进行数据挖掘往往效果不佳,尤其是在数据量较大的情况下;因此对数据表进行变形,然后在变形的基础上进行挖掘是一种行之有效的方法。本文鉴于此分别从数据挖掘中存在的海量高维数据、噪声数据、数据的不完整以及模型的可理解性差等问题出发,分别提出了相应的数据表分解算法。通过引入信息理论与粗糙集分析结合使用,还对加权聚类方法进行了研究。本文的具体研究内容如下:1.介绍了数据挖掘技术的概念、产生背景、研究任务、主要方法以及研究热点。回顾了粗糙集理论的发展历程,详细介绍了粗糙集理论的基础知识,并对当前国内外粗糙集理论的研究现状进行了详细阐述。2.在数据挖掘中,直接在海量高维数据集上进行挖掘得到的规则往往数目众多、规则长度长,用于决策分析的有效性低。基于这一发现,本文利用粗糙集理论,提出了一种粗糙集属性选择量度,该量度从提高分类正确性和子数据库纯度的角度着手选择属性用于分类,进而利用该量度提出了一种数据表分解方法。本文详细分析了数据库分解方法的信息论性质,证明利用粗糙集信息量度选择出的属性集是原始决策系统的一个约简,且该分解方法的计算时间复杂度远小于经典粗糙集约简算法的计算时间复杂度,在提高计算速度的同时不会损失信息量。3.针对海量高维数掘库建立分类模型是很困难的,计算时间复杂度高,得到的分类模型可理解性差,难以解释。本文从属性构造的角度出发,基于粗糙集理论,提出一种属性分解方法来识别数据表中的中间概念层次,建立多层分类模型。本文提出了基于粗糙集的一致性搜索指标和最小值指标,利用两个指标来重新标定中间概念层次。这样把原数据表分解为小型数据表分层次进行分类,而且由于中间概念层次物理意义分明,使得模型的可理解性大为增加。4.针对处理不完备信息系统时传统方法的不足,本文提出了一种不完备信息系统分解方法。该方法不需事先对系统进行完备化,而是基于粗糙集模板评价函数选择模板,再利用模板逐层从不完备系统中提取完备子集。然后利用粗糙集理论来构造中间变量,依据中间变量分解不完备信息系统以简化规则集。最后利用得到的规则集逐层进行推理和决策分析。以汽轮发电机组的振动故障诊断数据为实例给出了该方法的具体实现过程,验证了该算法在处理不完备信息系统时的有效性。5.通过引入信息理论,提出了一种新的基于粗糙集相似模型的加权聚类方法以及基于信息论的类提纯方法,利用互信息熵值对各个属性进行加权进行重复聚类,最终得到满足聚类要求的模式类。6.汽轮发电机组结构及振动的复杂性使其故障具有多层次性,随机性,同时还存在故障信息不完整性等特点。为进一步验证数据表分解算法的有效性,本文以汽轮发电机组振动为实际例子,利用粗糙集属性选择量度,选择合适属性进行分类,建立了粗糙集分层故障诊断模型。通过与一般粗糙集故障诊断模型的对比,发现该模型得到的规则集支持度高,实用性高,且分层诊断方法与人的推理方式类似,易于理解。最后对本文进行了概括性总结,并提出了有待进一步研究的方向。6.期刊论文雷升锴.何嘉.LEISheng-kai.HEJiaC4.5算法与粗糙集在数据挖掘中的研究-成都信息工程学院学报2009,24(1)分类在数据挖掘中是一项非常重要的任务,而决策树方法和粗糙集方法则是分类的主要方法.在详细介绍决策树方法的经典算法C4.5算法和粗糙集方法的基础上,针对C4.5算法的不足,引人粗糙集方法,提出新算法IC4.5来弥补C4.5算法的缺陷.并设计出一个基于C4.5算法和粗糙集算法的分类器,最后通过实验来证明基于IC4.5算法的分类器在抗噪声方面要优于C4.5算法.7.学位论文钟波基于灰色相容关系的灰色粗糙集及其在数据挖掘中的应用研究2008数据挖掘技术是当今智能系统理论的重要研究内容,它综合运用人工智能、计算智能人工神经网、遗传算法、模式识别、数理统计等先进技术从大量数据中挖掘和发现有价值和隐含的知识。粗糙集理论是20世纪80年代初由波兰数学家Z.Pawlak首先提出的一种处理不精确、不确定和模糊数据的新型数学工具,其基本思想是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。近年来,粗糙集已成为人工智能和信息科学最活跃的研究领域之一,并且在数据挖掘、模式识别、机器学习、知识发现、决策分析等领域得到成功的应用。经典粗糙集主要用于处理分类数据或是多值离散型数据,然而现实世界中信息系统是非常复杂的,许多测量值通常以区间数据的形式来描述。经典粗糙集方法对于区间数据的粗糙近似、属性约简以及决策规则提取还没有定义。当前的粗糙集方法还不能支持对区间数据的处理。针对这类问题,目前已有少数研究者提出了灰色粗糙集模型。但现有的灰色粗糙集模型对这类问题的处理还不够完善,为此,论文对此进行了深入研究,提出了一些解决方法。论文首先介绍了灰色系统理论以及粗糙集理论,然后介绍了现有的灰色粗糙集模型,并对其进行了深入分析。在指出它们的局限性后,论文提出了一种基于灰色相容关系的灰色粗糙集模型,并进一步定义了上、下近似集,同时还对该模型的有关性质进行了分析。在建立模型后,需要考虑的问题是属性约简。已有证明显示,求得所有约简和最小约简均是NP-Hard问题。目前出现了很多启发式算法,但基于分辨矩阵的约简算法是主流。论文提出了灰色决策信息系统的分辨矩阵的求法,并分析了分辨矩阵的相关性质。在此基础上,论文结合Jelonek和HORAFA两种属性约简算法,提出了基于灰色相容关系灰色粗糙集的属性约简算法。该算法对协调与不协调的灰色决策信息系统同样适用,并且在通常情况下能求出信息系统的所有属性约简集。在得到属性约简集后,接下来进行了规则提取工作。给出了决策规则提取的相关知识,通过研究决策树的构造方法提出了论文基于灰色相容关系灰色粗糙集的决策树规则提取方法。论文对每一个模型或算法都用MATLAB进行了程序实现,其后还给出了算例分析,以此验证这些模型及算法的有效性。8.期刊论文徐袭.刘玉波.范学鑫.XUXI.LIUYUBO.FANXUEXIN基于模糊工具箱和ROSETTA的粗糙集数据挖掘-微计算机信息2007,23(18)针对大量连续属性值的数据挖掘,提出了一种基于模糊工具箱和ROSETTA软件的粗糙集数据挖掘方法.在粗糙集理论的基础上,应用模糊工具箱中的模糊聚类方法离散分类连续属性值,并将其转化为粗糙集易于处理的知识表格.应用粗糙集数据挖掘软件ROSETTA对这些知识表格进行知识约简处理.通过约简知识属性和属性值,得到连续属性值的核心知识规则,并以实测数据为例,说明了该方法的实现过程和有效性.9.学位论文吴明旺基于粗糙集的数据挖掘属性约简算法研究2006粗糙集理论是由波兰数学家Z.Pawlak在1982年提出的,是继概率论、模糊数学、证据理论之后又一种处理不确定性的有效数学工具。该理论的特点是不需要任何先验知识,或任何附加信息,就能有效地分析和处理不精确、不完整和不一致的信

1 / 57
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功