粒度计算在数据仓库挖掘中的应用作者:钟珞,吴珺,ZHONGLuo,WUJun作者单位:武汉理工大学计算机科学与技术学院,武汉,430070刊名:华中师范大学学报(自然科学版)英文刊名:JOURNALOFHUAZHONGNORMALUNIVERSITY(NATURALSCIENCES)年,卷(期):2009,43(3)被引用次数:0次参考文献(14条)1.ZadehLASomereflectionsonsoftcomputing,granularcomputingandtheirrolesintheconception,designandutilizationofinformation/intelligentsystems1998(02)2.YaoYYGranularcomputing20043.LINTYDataminingandmachineorientedmodeling:agranularcomputingapproach2000(02)4.LINTYGranularcomputingroughsetperspective2005(04)5.郑征相容粒度空间模型及其应用研究20066.YAOYYThreeperspectivesofgranularcomputing2006(02)7.张铃.张钹问题求解理论及应用--商空问粒度计算理论及应用20078.张钹.张铃问题求解理论及应用19909.ZadehLATowardsatheoryoffuzzyinformationgranulationanditscentralityinhumanreasoningandfuzzylogic1997(09)10.张铃.张钹模糊商空间理论2003(04)11.张持健.李.张铃商空间理论实现高精度模糊控制2004(11)12.ZhangL.Zhang13Aquotientspaceapproximationmodelofmultiresolutionsignalanalysis2005(01)13.苗夺谦.王国胤.刘清粒计算:过去现在与展望200714.韩家炜.KamberM数据挖掘:概念与技术2001相似文献(10条)1.学位论文邓玮舛基于粗糙集的粒度计算在数据挖掘中的应用研究2008随着数据库技术的广泛应用,数据库中存储的数据量急剧增大。对如此庞大的数据需要进行较高层次的处理,从中找出规律和模式,以帮助人们更好地利用这些数据进行决策和研究,因而提出了知识发现和数据挖掘的概念。知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘是从数据库的大量数据中提取隐含的、未知的并有潜在价值的信息和知识的过程。数据挖掘是知识发现中最关键的步骤,也是知识发现技术难点,是目前相当活跃的研究领域。粗糙集理论是波兰数学家PaWlak提出的一种分析模糊和不确定知识的强有力的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律,这个特点使得粗糙集理论非常适用于数据挖掘。人们在思考和解决问题时,往往根据需要,或者是先整体后部分;或者是先部分后整体;或者是交替使用以上两种方法。人们不仅能在不同粒度的世界上进行问题求解,而且能够很快地从一个粒度世界跳到另一个粒度的世界,往返自如,毫无困难。因此将粒度的概念引入到数据挖掘中去有着非常重要的意义。本文主要研究将粒度思想应用于数据挖掘过程中,从粒度的概念和角度进行属性约简和规则提取,用于从大型数据库中挖掘出有用和用户感兴趣的知识,解决信息系统数据多而知识少的问题。本文综述了数据挖掘和粗糙集的相关理论及国内外研究现状,探讨了粒度计算的研究领域和数据挖掘技术热点以及两者未来发展趋势。深入研究了粗糙集理论的约简算法,约简算法包括属性约简和属性值约简。在目前属性约简算法的基础上提出了一种基于条件信息熵的属性约简改进算法,同时将粒度思想应用到规则提取中,在前人所作研究的基础上提出了基于搜索粒度,自顶向下,建立多层次粒度模型的规则提取算法。针对传统的基于粗糙集理论的数据挖掘模型存在不实用的特点,提出了一种改进的数据挖掘模型。该模型包括数据预处理、属性约简和规则提取三个模块,并利用算例验证该模型的可行性。2.期刊论文张丽娟.李舟军.陈火旺.ZHANGLi-Juan.LIZhou-Jun.CHENHuo-Wang粒度计算及其在数据挖掘中的应用-计算机科学2005,32(12)粒度计算涵盖了所有在处理问题过程中使用粒度的理论、方法、技术和工具.本文首先简要地介绍了粒度计算的基本思想、基本问题以及它的三个主要模型(模糊集、粗糙集和商空间),然后综述了粒度计算在数据挖掘中的应用.3.学位论文沈亚兰基于粒度计算的数据挖掘方法的研究2006数据挖掘是一门新兴的技术,它涉及到多个学科领域的知识。数据挖掘能从大量的数据中发现一些人们事先未知的、潜在的、有趣的知识,因此又被称为数据库中的知识发现。数据挖掘有很多研究方向,关联规则是其中重要的一个。关联规则挖掘能发现大量数据中项集之间的关系,可广泛应用于购物篮分析、相关分析、分类、网络个性化服务等领域。本文讨论了挖掘关联规则的经典算法—Apriori算法和它的一些变形算法。针对Apriori算法存在的一些问题,即在求项集的支持度时需要多次扫描数据库,以及在生成候选项集时会浪费大量的时间和内存空间,本文提出了一种基于粒计算的关联规则挖掘算法—AR-GrC算法。该算法AR-GrC引入了粒计算的思想,即把事务数据库中每一个项看成一个信息粒,通过扫描一次数据库得到所有项的二进制表示,利用信息粒的“与”和“或”运算求项集的支持度。该算法的优点在于只需扫描一次数据库,利用粒计算求项集的支持度,减少了时间耗费和空间占用,从而提高了规则挖掘的效率。但是对于许多应用,由于多维数据空间数据的稀疏性,在低层或原始层的数据项之间很难找出强关联规则。本文最后提出了一种基于粒计算的多层次关联规则挖掘算法—ML-GrC算法。该算法在多层次结构中使用基于粒计算的关联规则挖掘方法来挖掘每一层上的关联规则,并在计算高层次上项的支持度时应用了粒的层次关系。它可以发现各个层次上的强关联规则,通过提高每一层次上挖掘规则的效率来改善整体挖掘效率。4.学位论文洪流基于粒度计算的聚类方法研究2004近年来,人们开始将粒度计算应用到数据挖掘领域中,并初步取得了一些成果,成为当前数据挖掘领域一个新的研究方向.该文的主要工作是将粒度计算引入聚类分析,做了一些相关的研究,主要的研究内容包括:探讨了聚类算法的粒度原理,并基于此原理给出了基于粒度的聚类算法的一般框架.基于该框架,采用密度做为等价关系的划分标准,提出了一种文本聚类算法CBG(ClusteringBasedonGranularity)及其增量式版本ICBG(IncrementalClusteringBasedonGranularity),相关的对比试验表明,该算法是一种高效的文本聚类算法.此外,我们还从模糊商空间理论(模糊粒度计算方法)的角度探讨了模糊聚类的相关问题.现实中的数据往往具有一定结构关系,如偏序关系等.数据间的这种关系从一个侧面反映了数据间的相似性,有助于提高聚类结果的质量.而目前的主要聚类算法基本没有考虑到这一点.针对这一不足,我们给出了基于偏序关系的聚类算法CPOR(ClusteringbasedonPartiallyOrderedRelation),并结合粒度计算的思想对该算法进行优化,提高了算法的效率.最后,我们将该章提出的算法应用到电力负荷预测领域,取得了良好的效果.基于EM(期望最大化)的聚类算法是一种性能优良的聚类算法.但传统的EM(ExpectationMaximization)聚类算法在每次迭代时都要扫描一次数据库,算法的开销较大.针对这一不足,我们给出了一种基于粒度的EM聚类算法GEMC(Granularity-basedEMClustering),它利用统计分析中的卡方检验方法,将满足同一分布的数据合并为一个信息颗粒,使得对数据库的扫描转换为对信息颗粒的扫描,有效的降低了算法的复杂度.我们还开发了一个互联网竞争情报监测系统,并在其中应用了我们所提出的基于粒度的聚类算法,它通过对检索结果进行一次预处理,从而减少用户的查询范围,提高查询的准确率并减少检索的时间.在文本聚类方面,我们还提出了一种基于摘要的聚类算法,该算法与基于粒度的聚类算法相结合,能更有效的满足系统的需求.针对系统在信息抽取方面的不足,我们提出了一种改进的基于隐马尔可夫模型(HMM)的信息抽取算法.5.会议论文周广城.梁久祯基于Ontology自动学习技术和粒度计算的中文网页搜索2006随着Internet的快速发展,Web页面以指数级的速度膨胀,给信息的有效检索带来了严峻的挑战.目前已提出多种搜索方法来提高检索工具的智能性,以达到更高的查准率和查全率.主要的两种方法是:(1)信息分类方法(2)信息过滤方法.目前数据挖掘中的很多技术已被广泛地应用于WEB信息检索中.如支持向量机(SVM)、神经网络、粗糙集等方法.自从TimBerners-Lee提出语义Web以来便得到了广泛的应用.特别是Ontology作为语义Web中的一个要件,它不仅能对概念进行严格的定义而且还能定义概念之间丰富的关系.本文尝试首先利用Ontology自动学习技术从词-文档矩阵中抽象出概念的集合,然后再利用粒度计算的相关理论减小搜索的时间复杂度.本文的组织结构是:首先对网页进行分类,然后再根据用户提出的查询问题进行切词,利用Ontology自动学习技术,形成概念,建立中文Ontology.最后采用商空间中的保真原理和保假原理进行搜索方式的改进,提出新的搜索算法。6.学位论文王少玄基于粒度层次的数据挖掘分类算法研究2007粒度计算作为近年研究领域的热点,为数据挖掘研究的许多方面提供了概念上的框架。许多学者从不同的视角,不同的概念和模式对粒度计算进行了研究。近年来,粗糙集理论已经变成了粒度计算研究的主要数学模式。分类是数据挖掘和模式识别的主要任务之一。分类有许多不同的表达方式,如分类规则、判别式、决策树和决策表等。本文在粗糙集理论和粒度计算理论的基础上,对数据挖掘的分类算法中进行了研究。本文的主要工作如下:首先,介绍了数据挖掘的基本概念,数据挖掘的基本过程。数据挖掘的模式分为以下几种:分类模式、预测模式、关联规则模式、回归模式、聚类模式、时间序列模式等。不论是哪一种模式,算法都起着非常重要的作用。分类模式算法包括以下几种:决策树分类、贝叶斯分类、支持向量机、神经网络、遗传算法、粗糙集方法。第二章介绍了粗糙集理论和粒度计算理论的相关背景和一些基本概念。并引入了多粒度层次概念。在第三章中,首先介绍了属性约简的基本概念,属性约简中的粒度计算。对粒度计算理论用于分层属性约简进行了研究,并给出粒度计算的属性约简算法。在接下来的两章中,本文提出一种基于粒度层次的决策树分类算法。该算法改进了决策树C4.5算法并引入了粒度概念层次。每个粒度用(属性,值)去定义。基于粒度层次树模型,我们用搜索粒度策略来提取分类规则。在一个粒度层次中,每个结点都是数据对象的子集,连接大粒度到小粒度的弧用一个原子公式(属性,值)定义。最终,树模型中所有最小粒度定义的对象是论域的一个覆盖。在每个粒度层次上的规则都可以从数据集合中导出,从顶层到底层将推导出一个规则。我们用UCI数据集验证上述方法,实验结果表明该算法是非常有效的。7.学位论文朱强粒度计算在聚类分析中的应用2007粒度计算即信息的粒化处理,是关于信息处理的一种新的概念和计算范式,覆盖了粒度方面的方法、理论、技术等几乎所有的领域,是人工智能领域的研究热点之一。它模仿人类的思考方式,即人们能从极不相同的粒度上观察和分析同一问题,而且能够很快地从一个粒度世界跳到另一个粒度世界,往返自如,毫无困难,在知识发现等领域有着非常广泛的应用。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的