中国石油大学(华东)硕士学位论文粗糙集在数据挖掘不确定性问题中的研究姓名:魏悦亮申请学位级别:硕士专业:计算机技术指导教师:张文东20091201粗糙集在数据挖掘不确定性问题中的研究作者:魏悦亮学位授予单位:中国石油大学(华东)相似文献(10条)1.学位论文梁美莲不完备信息系统中数据挖掘的粗糙集方法2005本文首先详细探讨了与数据不完备性相关的重要问题,并对各种处理属性缺失值的数据挖掘技术进行了归纳总结和分析比较。接着通过对粗糙集理论的研究,阐明了粗糙集理论是一种尤为适用于不确定、不完备系统的数据挖掘的数学工具。其中重点探讨了现有的几个不完备信息系统的粗糙集模型,并对比分析了它们的优缺点。在此基础上,提出了基于容差关系的不完备信息系统中最小决策规则集的提取算法,并通过理论分析、实例和实验说明了该算法的有效性。另外,提出了基于τ限制容差关系的不完备信息系统粗糙集模型及其知识约简方法。最后提出了一个基于该数学模型的不完备信息下的数据挖掘系统模型。2.学位论文段鹏基于粗糙集和神经网络的不完备信息系统数据挖掘研究2004在实际问题中,由于种种原因,数据库中的数据很少是完全的,在数据挖掘中,待处理的数据常有某种程度的不完备.不完备的信息系统普遍存在,如果直接对其使用针对完备信息系统的数据挖掘方法,往往是不合理的,甚至可能会严重影响到挖掘的效果.造成信息不完备的原因是多样的,现实情况下,有些数据受客观条件限制无法观测到,或在数据录入过程受人为的因素影响导致数据缺失,或由于存储介质的故障、传输媒体的故障导致数据缺失,或数据被隐藏等等.粗糙集(RoughSet)理论是由波兰华沙理工大学Pawlak教授于20世纪80年代初提出的,是一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法.神经网络则有较强的学习能力,可根据一定的学习算法自动地从训练实例中学习并得到规则.该研究将粗糙集理论与神经网络方法相结合,使两种方法优势互补.首先基于粗糙集理论对不完备系统进行完备化,然后对完备化后信息系统使用神经网络方法进行数据挖掘.在完备化处理中,我们提出了改进的ROUSTIDA算法,该方法考虑到不完备信息系统中的遗失数据值的填补,应该尽可能反映此信息系统的基本特征以及隐含的内在规律,故以基于粗糙集理论的可辨识矩阵作为算法的基础,对原有ROUSTIDA算法的适用范围进行扩充,从而使得这种完备化更合理、有效.进而我们提出并建立了将信息系统对象的条件属性对其决策的影响程度进行量化、根据对一致性影响的程度来找出与有缺失属性的对象一致性最好的对象的一致性表征填充方法.最后运用神经网络的方法对完备化后信息系统进行学习和仿真实现验证.实验表明,我们的完备化方法是合理和有效的.3.期刊论文胡旺.冯伟森.李志蜀.韦力凡基于粗糙集理论不完备信息系统的数据挖掘-四川大学学报(自然科学版)2004,41(4)提出了一种基于推广的粗糙集理论直接在不完备信息系统上进行数据挖掘的方法,并给出了该方法的算法和实例.该方法利用粗糙集理论直接对不完备信息系统进行知识约简,然后根据获得的约简集建立知识层次树,利用规则的支持度闽值s0和置信度阈值c0从知识层次树的压缩搜索空间中提取不完备系统的规则集.该方法保持了原始数据和数据挖掘所获得的知识的真实性.另外,还提出了知识规则的上、下支持度,上、下置信度,规则粗糙度等概念,以便指导用户更好地利用数据挖掘所获得的知识.4.学位论文王丽娟不完备信息系统下扩展Rough函数依赖于数据挖掘研究2007粗糙集理论(RoughSetTheory,简称RST)是由波兰学者Z.Pawlak于1982年提出的一种处理含糊和不确定性问题的新型数学工具。RST的处理对象为具有离散属性值的完备信息系统(CompleteInformationSystem,简称CIS),但是在现实世界中由于各种原因,面临的信息系统往往是不完备的,因此研究如何使用RST处理不完备信息系统(IncompleteInformationSystem,简称IIS)对于RST的发展起着举足轻重的作用。为了避免损害到数据的原有分布特征,本文采用直接方式处理IIS,即将传统RST中的不可分辨关系进行弱化,对粗集理论进行扩充。本文首先对现有的几种扩展粗集模型进行了分析比较,主要有基于容差关系的扩展粗集模型、基于非对称相似关系的扩展粗集模型、基于限制容差关系的扩展粗集模型、基于变精度限制容差关系的扩展粗集模型、基于集对容差关系的扩展粗集模型和基于变精度集对容差关系的扩展粗集模型。要进行知识约简与知识推理,就必须要研究知识之间的依赖关系,所以本文接着分别给出了在以上几种扩展粗集模型中对象依赖和属性依赖的定义,并且给出了对象部分依赖、属性部分依赖的定义及其度量。从这些定义中,得出一些相应的性质和定理,说明完备信息系统中的部分性质在不完备信息系统中依然成立。知识约简是粗集理论的核心内容之一。在各种扩展粗集模型中,提出统一的以对象依赖或属性依赖为依据,进行对象约简或者属性约简的方法,并给出了相应的算法。最后将这种以依赖度为约简依据的方法应用于不完备数据表和不完备决策表两个实例,在不同扩展粗集模型中进行约简,得到了很好的约简效果,从而验证了该方法的正确性和有效性。5.学位论文蒋开平不完备信息系统的属性约简及规则提取的研究2009经典粗糙集理论主要是利用论域上的等价关系对完备信息系统进行属性约简及规则提取的研究。但在现实中,往往某些数据由于种种原因难以获取或者说获取的成本过高,此时建立在等价关系模型之上的经典粗糙集理论的应用受到限制。如何对含空值的不完备信息系统进行属性约简及规则提取则成为一个有重要理论和实用价值的研究。本文从经典粗糙集理论入手,分析不完备信息系统产生的原因及常见的一些处理方法,针对不完备信息系统的一些扩充模型进行了介绍,给出了相异关系及相似度的完整定义,并在此基础上提出了不完备信息系统的部分空值填充算法,为后续的不完备信息系统的属性约简及规则提取打下基础。相容关系是处理不完备信息系统的一种比较典型的关系模型,但它的条件过于宽松,不符合现实情况。不完备信息系统的最大特点在于空值取值的随机性,因此基于相似度和概率的观点,提出了概率等价关系模型。信息系统属性约简的一般思路是,根据属性重要性的大小将重要性很小的属性约掉。本文利用粒度思想,根据粒度大小来辨别属性重要性,并在此基础上,提出了针对通用关系模型的属性约简算法。在相容关系模型下,通过矩阵约简算法与本文提出的约简算法相比较,验证了此算法的有效性。并且还在概率等价关系模型下,利用此算法对不完备信息系统的属性约简进行了实例验证,结果表明在概率等价关系模型下和在相容关系模型下对同一个不完备系统的属性约简完全不同。本文对产生这种结果的原因进行了深入分析。最后,对不完备信息系统的规则提取做了初步探讨。利用规则的相关指标对规则的提取进行限定,使提取的规则更可靠。6.期刊论文李莉.赵晋强.LILi.ZHAOJin-qiang基于加权Bayes分类算法的不完备信息系统数据挖掘研究-电脑知识与技术(学术交流)2007,3(17)基于相似粗集理论模型,对加权朴素Bayes算法进行了扩展,同时改进了传统不完备信息系统中缺失信息的弥补方法,并由此提出了基于不完备信息系统的加权Bayes分类算法,阐述了其对于不完备系统数据挖掘的重要意义,通过计算机仿真实验验证了该方法的有效性.7.学位论文代文征基于粗糙集的不完备信息系统的属性约简研究20061982年波兰学者Z.Pawlak提出了粗糙(Rough)集。它是一种处理不精确和不完备信息的数学工具,而且不依赖于数据集之外的任何附加信息。经历了近20年的发展,已经在理论和应用上取得了丰硕的成果。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。对一些含有不完备信息的数据,传统的数据挖掘技术无能为力,而粗糙集却可以对这一类信息进行处理。作为集合论的扩展,粗糙集理论的主要研究领域之一就是在信息不完备情况下的数据挖掘技术。在现实生活中,由于数据测量的误差,对数据理解或获取的限制等原因,使得在知识获取时往往面临的是不完备信息系统,这就极大地限制了粗糙集理论向实用化方向发展。国际国内对不完备信息下粗糙集理论的深入研究还不多见。因此,对数据缺损的信息系统的处理已成为粗糙集研究的主要内容之一。对不完备信息系统的研究得到了一些成果。在此次设计中,研究了已有的部完备信息系统的相关研究成果,追踪了国内外不完备信息属性约简算法的前沿,改进了基于不完备信息系统的属性约简算法。提出自己的算法并验证了算法的有效性。主要工作有:*提出基于人工神经网络填充算法抽取整个信息系统,把其分解成子信息系统,利用完整的子系统来训练人工神经网络。而后基于训练好的神经网络的基础上,完成不完备信息系统得属性值填充,用实验数据得到事例验证*提出基于属性重要性的约简算法在属性重要性的基础上的约简算法,此算法在分析前人研究成果的基础上实验证明此算法是有效的。8.期刊论文邢化玲.刘思伟.高社生.唐士杰.XINGHua-ling.LIUSi-wei.GAOShe-sheng.TANGShi-jie不完备信息系统的数据挖掘方法研究-计算机应用研究2008,25(1)根据分层递阶约简算法,提出了一种直接在不完备信息系统上进行数据挖掘的方法.该方法首先将信息系统中由所有属性构成的单层知识表示转变成由部分属性所构成的多层知识表示,即由完备属性和不完备属性表示;然后建立了两个不同层次的子系统,并推导出各个子系统的规则集;最后,将该方法应用于心脏病诊断系统的研究.仿真结果证明,该方法具有较强的实用性和有效性,并能提高知识约简的速度.9.学位论文姜文利不完备信息系统中数据挖掘方法研究2009规则提取是数据挖掘中的主要内容之一,对不完备信息系统的规则提取的研究有助于人们获取更多的有用信息。粗糙集(RoughSet)理论是研究不完整、不确定问题的一种有效的方法,它具有不需要先验知识,忠实于原始数据的优点。它已被应用于数据挖掘的研究中。将经典粗糙集理论推广到不完备信息系统中,对不完备信息系统中的不可分辨关系进行定义,以推广的粗糙集模型作为研究不完备信息系统规则提取的基础。br 本文首先提出了在容差关系下的多变量决策树的改进算法,主要是在属性约简中结合了遗传算法,其次给出了基于限制非对称相似关系下的混合决策树的构造方法,以加权平均粗糙度作为选择混合变量检验的属性选择依据,构造混合变量决策树,研究表明构造的新算法是有效的。10.学位论文赵翔数据挖掘中决策树分类算法的研究2005决策树方法是数据挖掘中一种重要的分类方法。本课题从新的建树准则、决策树修剪、多变量决策树、多决策树组合、不完备信息系统下的模型建立等几个方面对决策树方法进行了研究和探讨。本课题的主要研究工作和成果有:1、针对传统决策树算法的不足(如ID3、C4.5),提出了基于协方差及高阶相关系数的决策树生成算法,避免了经典的以信息熵作为建树准则的决策树生成算法盲目地偏向于属性值较多的属性的缺点。2、针对决策树的构造和修剪通常不能同时进行所产生的效率低下的问题,提出了基于粗糙集的决策树构造方法。利用优先策略,将知识相依性同时作为属性约简和建树的准则,在决策树预修剪的同时进行节点生成,大大提高了决策树构造的效率。3、针对单变量决策树忽视信息系统中广泛存在的属性间的关联作用,而且修剪时往往代价很大的缺陷,提出了一种基于主成分分析的多变量决策树构造方法,提取信息系统中的若干主成分来构造决策树。4、探讨了用Boosting方法组合多决策树,构造决策森林的方法。5、在不完备信息系统中的模型拓展。提出了一种加权联系度容差关系,在各属性重要性排序的前提下对不完备信息系统进行进一步的粗糙集模型拓展,使其更加符合人的主观要求和客观现实。从而为进一步探讨在不完备信息系统中构造分类器模型打下基础。本文链接: