中国科学技术大学硕士学位论文基于多目标演化算法的动态聚类方法研究姓名:王锋申请学位级别:硕士专业:计算机应用技术指导教师:陈恩红20060501基于多目标演化算法的动态聚类方法研究作者:王锋学位授予单位:中国科学技术大学相似文献(10条)1.学位论文何文秀用于供应链合作伙伴选择的ERP数据挖掘系统的设计与实现2005在决策分析和预测功能方面,传统的ERP(EnterpriseResourcePlanning)存在着明显的不足,主要表现在:1.传统的ERP系统,主要功能集中在企业生产经营的事务处理以及对人力、财力和物力的资源分配和运用进行优化。面对ERP系统运作过程中积累的大量数据,未能很好地利用。2.传统的ERP系统中,管理人员使用模拟数据进行决策分析,这种方法过于依赖主观经验,不能对市场的变化做出准确和迅速的反应,不能满足现在的大型企业的需求。本研究针对金达布业有限公司实施ERP系统之后出现的问题,将数据挖掘技术引入该ERP系统,结合数据仓库和联机分析处理技术,设计并实现了一个将家纺企业ERP系统与数据仓库和OLAP技术集成的数据挖掘系统,利用ERP系统中积累的数据,挖掘出企业最佳的供应链合作伙伴,为企业提供决策支持。论文所做的主要工作有:1.在金达ERP系统的基础上,构建了一个集成数据仓库和OLAP(On-LineAnalyticalProcessing)技术的数据挖掘系统,将金达ERP的交易流程与决策流程、决策流程与预测流程结合起来,弥补了传统ERP在决策和预测方面的不足;2.将RBF(RadialBasisFunction)神经网络的基于最近邻动态聚类的学习算法用于企业的供应链合作伙伴的选择,解决金达布业在实际工作中遇到的“延期交货率和停工待料率依然较高”的问题,使原来需要几天甚至几个星期才能完成的工作在几小时内完成;3.结合聚类算法K-prototype中对分类型数据的处理方法,对基于最近邻动态聚类的学习算法进行改进,使该算法对ERP系统中的混合型数据(数值型数据和分类型数据)有较好的分类效果。2.学位论文林萍数据挖掘技术在超市数据仓库中的应用研究2003该文首先介绍数据挖掘和数据仓库的相关知识,包括数据挖掘与数据仓库、联机分析处理、统计学之间的关系,接着详细论述了数据挖掘模式和数据挖掘过程模型,重点讨论了聚类模式中的动态聚类算法,并采用主成分分析法预处理数据,在此基础上提出了动态聚类的改进算法.作为一个应用实例,该文在分析超市业务数据库的基础上,用星型架构的方式建模,构造出一个数据仓库的逻辑模型;然后从超市业务数据库中抽取数据,经过转换等处理,把有价值的、干净的数据加载到数据仓库中,完成数据仓库的构建.参照TwoCrows数据挖掘过程模型,首先收集客户购买产品的类型、交易、属性等数据;然后采用主成分分析法预处理这些数据,以降低数据之间的相关性和减少变量个数;接着采用改进的动态聚类方法建模,在聚类过程中剔除异常点,改善聚类的质量,最终得到一个客户分片的模型,并对该模型作了比较详尽的解释.数据挖掘和数据仓库有很紧密的联系,数据仓库是数据挖掘一个良好的奠基石;数据挖掘使数据仓库的决策作用得到更好的发挥,所以数据挖掘和数据仓库系统的无缝集成是数据挖掘界的一个热点.作为一种发展趋势,该文对此也作了进一步的论述.3.期刊论文杨种学.YANGZhong-xue一种基于动态聚类的异常入侵检测方法-计算机工程与设计2006,27(17)运用数据挖掘方法进行入侵检测已经成为网络安全领域的一个重要研究方向.提出一种动态聚类的数据挖掘方法进行异常入侵检测,该方法将不同用户行为的特征动态聚集,根据各个子的类支持度与预设的检测阈值比较来区分正常与异常.由于动态聚类算法在每次聚类过程中都检验归类的合理性,因此获得很好的聚类效果.实时检测试验得到了较高的检测率和较低的误报率.4.学位论文蔡成闻S-粗集与数据筛选-过滤2008自二十世纪七十年代大规模集成电路、超大规模集成电路诞生以来,计算机已经成为现代工业、商业、农业等各个领域必不可少的一个工具,但随之而来的是数据的迅速膨胀,使得人类在一个极短的时间里进入了数据爆炸的时代。这些数据具有巨大性、随机性、不确定性等特征,并且数据的生成过程又往往存在着动态特征。实际上,在这些大型的、复杂的、信息丰富的数据中,只有一小部分是人们真正需要的,如何从其中提取出人们所需要的信息,已经成为目前一个重要的课题。粗集理论是波兰数学家Z.Pawlak在1982年首次提出的,这是一种处理不完整、不精确问题的新型数学工具,它通过等价关系和近似概念对数据进行约简以获取知识。粗集知识系统是一个基于规则的系统,它不需要精确的数学描述,而是对经验的总结,因此非常适合数据处理过程中直观、简单、易于理解、人性化、智能化的要求,为数据挖掘技术提供了理论基础和研究思路。传统的数据挖掘方法是建立在数据不会发生变化的假设下进行讨论的,可以说是一种静态的数据挖掘方法,实际上数据不可能是一成不变的,当数据发生变化时,静态的数据挖掘方法便失去了效用,因此传统的数据挖掘方法具有局限性。奇异粗集(简称S-粗集)是Z.Pawlak粗集的一种改进形式。它是山东大学史开泉教授于2002年提出的,是基于元素迁移的概念建立起来的一种动态粗集-S-粗集具有三种形式:单向S-粗集,单向S-粗集对偶,双向S-粗集,S-粗集的动态特征、遗传特征、粒度特征等特性,S-粗集的提出为研究动态数据挖掘开辟了一个全新的方向并提供了必要的理论保证。本文的主要工作如下:1.主要介绍了数据挖掘的发展研究现状以及数据挖掘的分类;阐述了粗集理论提出的背景、发展状况、研究的内容和方向;介绍了S-粗集提出的背景及研究现状;并将S-粗集的理论进行了简单的介绍。2.利用S-粗集的动态特征、遗传特征、粒度特征等特性,给出了S-粗集与数据筛选-过滤的研究,讨论了数据的粒度特征、单向筛选-过滤、双向筛选-过滤,给出了f-筛选-过滤度、f-筛选-过滤度和g-筛选-过滤度的概念,并提出了筛选-过滤定理和筛选-过滤准则。3.提出了基于S-粗集的动态聚类方法,利用第3章给出结果,提出了一种基于S-粗集的动态聚类算法.利用此算法改进了无线传感器网络的分簇算法,通过仿真,并与现有算法比较后,得到这样的结论:使得每个节点的能量得到均匀的使用,提高了节点的能效比,满足了无线传感器网络节能的要求。5.学位论文尹松高属性维稀疏数据动态抽象聚类方法研究2005本文主要是针对高维稀疏数据聚类中的异常值处理问题,目前这方面的研究还是比较少的,由于一般聚类方法很难处理高维稀疏数据中的异常值,所以对于高维稀疏数据聚类往往很难有高质量的聚类结果。针对这一问题文中首先提出了一种用二态属性值和最小生成树结合的动态聚类方法,该方法可根据阀值动态聚类,并能够在聚类时考虑对象属性的重要性,使聚类结果更加合理。由于自然界中的事物存在着各种关系,很多关系都是界限不明显的模糊关系,我们需要用模糊理论来描述,因此本文提出了另一种基于多元相似度和模糊相似矩阵的高维稀疏数据动态聚类方法,该方法同样可以根据阀值自动聚类,可以考虑对象属性的重要性。文中对上述高维稀疏数据聚类算法进行了实验分析,实验结果表明上述算法是有效的、可行的。6.学位论文国伟改进的关联规则在个性化网站建设中的应用2007一个网站有许多个网页组成,网站上的信息分布在这些网页上,不同的用户对不同网页上的信息感兴趣,但是网站中大量的网页存在着结构的不合理性,链接页面的无效性等现状,降低了用户访问页面的效率,如何通过Web使用挖掘技术来了解用户的兴趣和爱好,分析用户的浏览模式,根据用户的当前访问需要,自动实时地为用户提供推荐页面,满足多元化的需求,使得个性化服务势在必行。本文分析了基于动态网页下信息采集的方法和算法,通过基于逻辑与运算构造支持矩阵快速挖掘频繁模式的挖掘算法(FDLG)对信息进行挖掘产生关联规则,并借助模糊动态聚类算法辅助实现个性化推荐的体系结构。论文的主要工作如下:(1)概述了数据挖掘的有关研究内容,探讨了关联规则数据挖掘的研究现状。(2)探索了动态网页下数据采集的方法,大大减少了记录量,提高了用户的识别率。(3)对关联规则挖掘理论展开研究,讨论了一些传统的关联规则挖掘算法存在的问题,然后提出了基于逻辑与运算的快速挖掘频繁模式的挖掘算法FDLG,减少了计算量,提高了挖掘效率。(4)本文提出了访问页面关联规则和访问模式聚类分析结果相结合进行个性化推荐的方法,模糊聚类算法作为关联规则的预处理或者通过模糊聚类将相似的用户或相似页面聚在一起,形成相似用户、页面群体,从而有利地为个性化推荐提供服务。7.学位论文罗存数据挖掘技术在SMT生产决策中的应用研究2006本论文利用数据挖掘与数据仓库技术来解决传统的数据库管理信息系统不能够充分地利用、分析数据库中积累的大量数据所带来的缺陷来实现以下目的:1、大量数据的筛选;2、生产计划的合理安排;3、紧急事务的处理;4、不同客户同类物料的应急调配;5去除成本高利润低的客户。在分析SMT(SURFACEMOUNTEDTECHNOLOGY)数据库的基础上,用星型架构构造出一个数据仓库的逻辑模型;然后从SMT各个子数据库中把各种生产数据、成本费用等以及物料和计划的波动状况加载到数据仓库中。并对各种数据采用主成分分析法预处理它们,接着采用改进的动态聚类方法建模,在聚类过程中剔除成本费用高、波动状况大的异常点,改善聚类的质量,并对孤立点进行分析,通过对时序数据和序列数据的挖掘,最后用统计学方法获得一个生产决策模型。8.期刊论文蒋宁.吴春旭.JiangNing.WuChunxu基于区间值数据动态聚类算法的客户市场细分-计算机应用与软件2007,24(12)K均值算法(K-means)目前较为成功地应用于客户市场细分,但随着市场规模的扩大,面临着对于初始类个数敏感,易陷入局部极小值的严重问题,制约了聚类效果.提出基于区间值数据,以自适应欧氏距离作为度量的动态聚类方法,将客户的多维属性和基因算法结合提高类初始化质量,自适应地调整聚类数,并通过实验测试表现出较好的性能.9.学位论文徐艺萍动态聚类法研究2006聚类分析是认识事物的基本途径之一。通过聚类分析,可以更清楚地认识事物的本质特征。目前的各种聚类分析方法中,动态聚类法是最为普遍的一种。本文主要从静态样本和动态样本两方面对动态聚类法进行了研究。一般的动态聚类算法都是针对静态样本数据的,其聚类结果不仅依赖初始分类,而且易陷入局部极小。而最近邻聚类算法正好能弥补该类聚类算法的不足。但现有的最近邻聚类算法的聚类半径一般都是随机选择或是根据经验确定的,且没有相应的有效性函数对聚类结果进行评价。基于以上原因,本文提出了针对静态样本进行聚类的一种新的最近邻聚类算法,并给出了相应的实验分析。另外,在现有的诸多领域,如数据挖掘、大型数据库和互联网信息处理等,其数据都是动态的。ART2神经网络虽能很好地实现这类动态数据的聚类,但ART2网络本身存在的问题又限制了它在这方面的应用。鉴于此,本文又提出了一种改进的ART2网络学习算法来实现动态样本的聚类,同时给出了该方法的实验仿真结果。10.学位论文胡军刚基于统计视角的数据挖掘应用研究2008数据挖掘作为一个新型的跨领域的综合性学科,一经出现便显示出其强大的生命力。统计学、数据仓库和机器学习技术共同构成数据挖掘的三大核心技术,统计方法也是最基本的数据挖掘方法之一,它渗透于数据挖掘领域的各个阶段。但从目前国内外的研究现状看,从事数据挖掘研究的主要是计算机领域的学者和专家,统计学界的学者和专家对数据挖掘的研究相对较少。而随着数据存储技术的不断发展,可用于数据分析的数据量越来越大,对传统的统计分析技术提出了极大的挑战。本文尝试从统计学的角度对数据挖掘进行应用性研究,使统计学方法适应数据量变化,继续发挥其处理数据、分析数据的重要作用,并期望能对统计学理论在数据挖掘方向的发展做出探索。首先,针对目前数据挖掘大多侧重于算法设计及实现的现状,本文着重归纳总结了国内外统计学领域的专家、学