南昌大学硕士学位论文分布式聚类算法研究及其应用姓名:徐军莉申请学位级别:硕士专业:计算机软件与理论指导教师:喻国平20091201分布式聚类算法研究及其应用作者:徐军莉学位授予单位:南昌大学相似文献(10条)1.学位论文谢金辉SOA架构下分布式聚类算法的研究与设计2009随着信息技术的快速发展,人们可以通过网络等方式便捷地获取大量信息。但是,随着信息的大规模化和复杂化,人们提取有价值信息的途径越来越困难。数据挖掘为人们从海量信息中提取潜藏有用的信息提供了方便的手段。聚类作为数据挖掘的基本方法广泛地应用于数据分析、模式识别、图像处理等领域。随着存储技术的迅猛发展,现如今大规模数据都以分布式的形式存放。对大规模分布式数据进行聚类分析都采用分布式聚类方法。SOA是一种面向服务的体系架构,它为分布式聚类提供了一种新的架构。SOA架构下的分布式聚类算法能够高效地实现分布式数据的聚类分析。分布式环境下的聚类分析方法是当今聚类分析领域研究的热门课题。因此,本文致力于这一课题,以分布式数据集为研究对象,采用SOA方法,实现分布式聚类分析的过程。本文的主要研究内容包括以下几个方面:(1)本文介绍了SOA架构下分布式聚类算法的研究背景、国内外研究现状、研究的目的和意义。同时分别从SOA架构和分布式数据挖掘这两个方面阐述了本课题研究的技术基础。(2)本文以DBDC算法为对象,研究了分布式聚类算法的具体过程,包括局部挖掘和全局挖掘。其中,局部挖掘为整个算法的基础,它执行结果的质量好坏直接影响到最终的分布式聚类结果。局部挖掘主要包括局部DBSCAN聚类、代表点选择和局部调整三个过程。SDBDC算法是DBDC的改进扩展算法,它针对DBDC的缺陷,对局部挖掘和全局挖掘都做了改进。但是,SDBDC在执行效率上也存在不足,因此,本文结合SDBDC算法和DBDC算法的优点,改进了DBDC局部挖掘的代表点选择过程,以达到在保证DBDC聚类质量的情况下提高DBDC聚类效率的目的。(3)为了实现聚类算法的分布式执行,本文结合SOA架构和WebServices技术,将分布式聚类算法设计成Web服务的形式,提出了SOA的分布式聚类算法Web服务模型。该服务模型主要包括两组Web服务:局部挖掘服务和全局挖掘服务。局部挖掘服务又包括局部DBSCAN聚类服务、代表点选择服务和局部调整服务;全局挖掘服务主要包含全局DBSCAN聚类服务。(4)针对SOA的分布式聚类Web服务模型,本课题首先利用Weka实现分布式聚类算法,然后用Axis将其发布成服务,最后在Triana环境下将分布式聚类Web服务组合成工作流的形式,实现了分布式聚类分析的过程。本文研究工作的特点在于:①结合DBDC和SDBDC算法的优点,改进了DBDC局部挖掘的代表点选择过程,提出了一种改进的DBDC算法。②将SOA架构与分布式聚类算法相结合,提出了一种SOA架构下的分布式聚类Web服务模型,并实现了基于此模型的原型系统,同时用Triana测试了该系统,结果表明在带宽较大的情况下,采用本文提出的SOA架构下分布式聚类算法对大规模数据进行聚类是可行并且有效的。2.期刊论文陈洁.熊晓基于分形维度的完全分布式聚类算法-计算机系统应用2009,18(7)传统的聚类算法通常针对单处理机,当数据资源分别存储在不同节点的计算机时,无法运用传统的聚类算法进行计算.本文提出一种完全分布式聚类算法,通过计算分形维度,利用分布式环境信息广播方式交流多台计算机的运行结果,最终汇集成全局聚类的信息进行聚类.理论分析表明,该算法不仅对分布数据可以很好的聚类而且可以最大限度降低通信成本和延时情况.3.期刊论文冯少荣.张东站.FENGShao-rong.ZHANGDong-zhan基于中心点及密度的分布式聚类算法-计算机工程2010,36(19)针对分布式聚类算法DBDC存在的不足,提出一种基于中心点及密度的分布式聚类算法DCUCD.将数据分布计算出的虚拟点作为核心对象,核心对象的代表性随算法的执行次数提高,聚类即是对所有核心对象分类的过程.理论分析和实验结果表明,该算法能有效处理噪声和分布不规则的数据点,时间效率和聚类质量较好.4.期刊论文杨柳.钟诚.陆向艳.YANGLiu.ZHONGCheng.LUXiang-yan基于P2P网络的分布式聚类算法研究分析-微电子学与计算机2009,26(8)在简要介绍传统聚类方法的基础上,从算法思想方面对近年来提出的分布式聚类算法、P2P网络上比较有代表性的聚类算法进行分析和评述,以期为进一步研究P2P网络环境下的聚类分析和数据挖掘方法提供有益的参考.5.期刊论文李锁花.孙志挥.周晓云.LISuo-hua.SUNZhi-hui.ZHOUXiao-yun基于特征向量的分布式聚类算法-计算机应用2006,26(2)提出了一种新的表达数据集的方法--特征向量,它通过坐标和密度描述了某一密集空间,以较少的数据量反映站点数据的分布特性.在此基础上提出了一种基于特征向量的分布式聚类算法--DCBFV(DistributedClusteringBasedonFeatureVector),该算法可有效降低网络通信量,能够对任意形状分布的数据进行聚类,提高了分布式聚类的时空效率和性能.理论分析和实验结果表明DCBFV是高效可行的.6.学位论文李成安分布式环境下聚类分析新方法的研究2006随着计算机和存储技术的快速发展,人们已经积累了大量的历史数据,迫切需要将这些历史数据转化为知识。聚类分析,基于“物以类聚”的朴素思想,将物理或抽象对象集合划分为由相似对象组成的多个类,在数据挖掘领域得到了广泛的研究,并成功应用于各个领域。近年来,数据库规模持续增长,分布范围日益广泛,而大多数现有聚类分析方法需要一次性将所有数据载入内存,耗费大量计算时间,无法满足海量、分布式数据环境下的知识提取需要,因此分布式环境下聚类分析方法的研究是当今聚类分析领域富有挑战性的前沿课题。本论文致力于这一研究课题,以大规模、分布存储的数据集为研究对象,采用机器学习、人工智能和层次优化等技术和分布式计算相结合的方法,探索分布式环境下新的聚类技术,为高效、合理利用分布的、大规模数据提供理论和技术基础。本文的主要研究内容和创新点包括以下几个方面:1.对分布式环境下的聚类分析,从产生背景、算法研究、应用研究等方面进行了较为全面系统的分析和总结。2.针对分布式聚类的易实现性问题,利用弱聚类算法的易实现性,提出了一种基于Boosting技术的分布式聚类算法DBCA。DBCA算法在每次迭代中,将不同子数据库基于弱聚类算法建立的局部模型组装生成全局模型,各子数据库基于全局模型对其数据进行划分,再根据划分的质量确定下一次迭代的采样概率,通过加权投票集成前些次迭代的划分,并将最后一次集成得到的划分作为最后的聚类结果。分析表明DBCA算法具有可并行计算、良好的伸缩性和通讯代价小等特点,不仅有助于科学家对聚类分析的深入研究,还有助于普通工程技术人员利用分布式聚类技术来解决真实世界中的问题。实验表明DBCA算法可得到与集中数据库相似的结果。3.针对分布式聚类的集成伸缩性问题,根据数据库的网络分布、网络带宽等特点,利用层次设计思想,对OIKIDDM模型进行扩展,提出了基于移动代理的层次优化集成挖掘模型-HOIKIDDM模型,并相应提出一种分布式聚类算法HOIKIDC。实验和分析表明,HOIKIDC对于分布式环境具有更好的伸缩性,实现更加灵活,效率更高,并可有效降低通讯代价,特别适合于大规模异构分布式数据聚类问题。4.对分布式聚类的集成有效性问题进行研究。首先提出了集成有效性概念和局部结果不一致性概念,分析了局部结果不一致性的产生原因,提出了协同算法来降低这种不一致性,并相应地提出了一种分布式聚类算法CDCA,通过局部站点之间的信息交互和协同使全局聚类质量得到改善。实验结果表明,CDCA算法使结果集成更为有效。5.针对应用领域中的时间序列存在数据规模大且分布存储的特点,提出了一种分布式模糊短时间序列聚类算法DFSTS来分析这些时间序列的形状相似性从而更好的揭示序列的结构,并分析了该算法的收敛性。仿真结果表明DFSTS算法具有良好的伸缩性,具有与集中数据集同样的聚类质量,计算效率更高。6.以国家863计划项目为背景,以冶金生产过程质量预测与操作优化为研究对象,对分布式聚类技术在冶金工业中的应用进行了研究。首先设计了一个分布式数据挖掘系统原型。针对大规模、分布存储的连续退火生产过程数据,应用本文提出的分布式聚类算法完成了两个挖掘任务:1)带钢断带建模与预报;2)离群检测。实验结果表明,该方法对于连续退火过程数据的分析是有效的,对大规模冶金工业生产过程数据分析具有十分广阔的应用前景。7.学位论文卓义宝基于密度的分布式聚类算法研究2008数据挖掘(知识发现)是从大量的数据中提取隐含的、事先未知的但又潜在有用的信息的过程。聚类是数据挖掘一类重要的技术。基于密度的聚类是一类已经被证明非常有效的聚类方法。现今,大量异构、复杂的数据分布于网络上各个站点,如何进行分布式聚类已经成为处理海量数据的一个重要应用领域。本文主要研究基于密度的分布式聚类算法。首先介绍已有的DBDC、SDBDC分布式聚类算法。其次,提出一种聚类算法CUCD。该算法基于中心点以及密度实现,其核心对象是根据数据分布计算出来的虚拟的点,并且核心对象的代表性随程序的执行次数而提高。聚类即是对所有核心对象分类的过程。CUCD可以得到近似线性的时间复杂度。在CUCD的基础上,提出分布式聚类算法DCUCD。DCUCD包含以下步骤:生成局部模型、主站点根据局部模型进行聚类并生成全局模型、各个子站点对输入数据进行聚类标识。局部模型包括在该站点生成的核心对象集合以及对应局部半径;全局模型包括在主站点生成的全局核心对象集合以及对应全局半径。主要算法来自CUCD。DCUCD算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分证明了DCUCD算法的有效性。8.期刊论文吉根林.凌霄汉.杨明.JiGenlin.LingXiaohan.YangMing一种基于集成学习的分布式聚类算法-东南大学学报(自然科学版)2007,37(4)基于集成学习的思想,提出一种分布式聚类模型.该模型的分布式处理过程分为2个阶段:先在局部站点局部聚类,然后在全局站点全局聚类.局部站点的局部聚类看作是一种基于数据子集的学习过程,所有的局部聚类结果组成了聚类集成系统的个体学习器,全局聚类采用平均法对局部结果进行集成,并定义了一个准则函数来度量集成的精度.把K-means算法推广到分布式环境,提出一种基于该模型的分布式K均值算法DK-means,该算法对局部数据的分布有较强的伸缩性.实验结果表明,DK-means在同等条件下能达到集中式聚类的精度水平,是有效可行的,从而验证了基于集成学习的分布式聚类模型的有效性.9.学位论文刘艳丽密度算法及其在HRM中的应用研究2009随着现代企业的信息化快速发展,信息系统产生的数据量日益增大,从大量的数据中提取有用信息并非易事。如何有效地利用海量的原始数据分析现状、预测未来,已成为人类面临的一大挑战,数据挖掘就是为了满足这种需要而产生的。聚类分析是数据挖掘中的一个重要研究领域,近年来,随着卫星遥感、传感器网络、高能物理研究等技术的发展,大量的数据被存储在数据库中,这些数据具有维度高、数据分布稀疏、噪声数据多的特点。在很多应用场合下,这些数据分布在不同的节点上,如果使用传统的聚类算法从这些分布式数据中提取信息,就必须把这些数据合并到一个中心站点上。由于传输速度和安全因素的限制,把各个站点的数据都集中到中心站点上是十分困难的,在某些领域中把数据集中到一个站点几乎是不可能的,额外开销很大。K—Dmeans算法是基于K—Means的分布式聚类算法,本文针对K—Dmeans算法在K—Dmeans在每次迭代过程中站点间要传送大量的数据对象,由于带宽限制、网络延时等问题导致通信代价