武汉理工大学硕士学位论文SOA架构下分布式聚类算法的研究与设计姓名:谢金辉申请学位级别:硕士专业:计算机软件与理论指导教师:高曙20090501SOA架构下分布式聚类算法的研究与设计作者:谢金辉学位授予单位:武汉理工大学相似文献(10条)1.学位论文施培蓓数据挖掘技术中聚类算法的研究2008随着信息技术的迅速发展,需要分析和管理的数据日益增多。为了从数据中发现有价值的知识和规律,人们提出用数据挖掘来解决这一难题。数据挖掘及其应用已经渗透到多个学科,并在人工智能与机器学习、数据库、模式识别、生物信息学、神经计算等领域取得了丰硕的成果。作为数据挖掘的重要工具之一,聚类技术得到越来越多的关注,至今已提出了大量的理论和方法。随着数据挖掘技术的广泛应用,数据挖掘所面对的数据对象日趋复杂,聚类研究也面临更多新的内容和挑战。本文对数据挖掘技术,尤其是对聚类分析进行了较为系统的分析和研究,介绍了一些改进的算法,主要内容如下:(1)介绍了数据挖掘的产生与发展以及数据挖掘中聚类分析的发展方向,总结了划分方法、层次方法、基于网格和密度聚类方法以及其他聚类方法的国内外发展现状,最后介绍了本文的主要研究内容和章节安排。(2)简要介绍了聚类算法的定义、相似性度量,聚类算法的分类和聚类方法的评价。详细讨论了数据挖掘中常用的聚类算法及其基本原理,最后对聚类算法的评价进行了讨论。(3)详细讨论传统k-means算法的基本思想、算法流程和算法性能。传统的k-means算法要求用户事先给定k值,限制了很多应用,初始中心点随机选择,容易导致局部极值点,常用的评价函数对于求解最优的聚类数目也不是很理想。针对这些问题,研究了一种新的评价函数-均衡化函数,同时采用基于密度的初始化中心点选择算法,自动生成聚类数目,实验结果表明了改进算法的有效性。(4)详细讨论了常用的几个划分判据,介绍谱聚类算法的基本框架和代表性算法,同时给出谱聚类算法的理论解释。通过分析谱聚类初始化敏感的特点,引入对初值不敏感的KHM算法克服这一缺点,在此基础上研究了初始化独立的谱聚类算法。实验结果表明该算法的有效性和可行性。最后,对论文的工作进行回顾和总结,就进一步有待研究的问题进行讨论和展望。2.期刊论文田杰.周晓娟.吕建新.TIANJie.ZHOUXiaojuan.LVJianxin数据挖掘中聚类算法比较及在武警网络中的应用研究-现代电子技术2008,31(8)聚类算法是数据挖掘的核心技术,根据评价聚类算法优劣的几个标准,对数据挖掘中常用聚类算法做了比较分析,根据各自特点,加以改进,并应用于武警部队数据挖掘项目中.通过运用改进型K-means算法,取得了较好的挖掘结果,为进一步信息的智能化检索、信息的过滤、分拣提供依据.3.学位论文熊小勇大规模科学数据挖掘中密度聚类算法的研究2007数据挖掘就是从海量数据中提取知识,又被称为数据库中的知识发现。它是一个跨学科的新兴研究领域。聚类分析是其中的一个重要分支,它研究数据间逻辑上或物理上的相互关系,通过一定的规则将数据集划分为在性质上相似的数据点构成的若干个类。本文首先介绍了数据挖掘的基本概念、存在问题及发展方向。其次介绍了聚类分析的基本概念、分类及一些常见的算法思想,并着重讨论了一些经典的聚类算法。基于密度的聚类算法是本文的重点研究对象。研究表明,大多数基于密度的聚类算法需要输入初始参数,参数通常由用户根据经验给出,这往往是困难的。且密度参数通常简单的将聚类分为高低密度两种,无法反映整体数据的分布特点。为了解决此类算法面临的问题,本文提出一种基于密度与网格聚类算法相结合的自适应式聚类算法,它首先对数据进行网格化,然后分析网格的密度分布,从而自适应的得出一系列密度区间,这些区间的划分进而作为聚类的参数。这样的区间划分不再是简单的高低密度分界,而是反映了数据分布的特点。数据挖掘与科学研究的结合是近来新兴的研究课题,在很多方面都有值得研究的地方。大规模科学数据具有数据量大、特征复杂的特点,在对其进行处理时,往往使得理解、分析这些科学数据,并从中获取知识变得十分困难,由此科学数据挖掘势在必行。本文对科学数据挖掘项目及其科学仿真数据进行了介绍,并且将所提出的自适应式网格密度聚类算法应用于科学仿真数据。并对聚类结果进行聚类特征的分析提取,提取的聚类特征表示了数据的整体物理变化过程。在本文的最后对全文内容进行总结,并展望了数据挖掘进一步研究和应用的方向。4.学位论文伍育红面向电子商务的数据挖掘中聚类算法的研究2007在信息和知识经济时代伴随着计算机技术和网络技术的不断发展,企业纷纷建立自己的商务网站,开展电子商务活动,日积月累网站上生成了大量的与客户有关的记录信息,这些信息对企业来说应该是一笔非常宝贵的财富,如果能得到充分挖掘,发现背后蕴涵的有用知识,为企业业务决策和战略发展服务,企业将会在市场竞争中占据有利地位,应运而生的数据挖掘技术给出了有效的解决方法,它能够对大量的、不完全的、有噪声的、模糊的、随机的数据进行挖掘,提取隐含在其中的、事先不知道但又是潜在有用的信息和知识。而聚类分析是数据挖掘技术中重要的组成部分,从技术角度讲,它的主要目的是将数据空间中的数据点划分到若干个类中。其中,将距离相近的数据点划分到相同的类中,而将距离较远的数据点划分到不同的类中。目前,已经提出了很多的聚类算法,它们基本上可以分为以下几种方法:划分方法、层次方法、基于密度、基于网格和混合方法等方法,这些方法各有优缺点。本文通过分析基于网格与基于密度的聚类算法特征,提出了一种基于网格和密度的混合聚类算法,通过分阶段聚类并选取代表单元中的种子对象来扩展类,从而减少区域查询次数,实现快速聚类。该算法保持了基于密度的聚类算法可以发现任意形状的聚类和对噪声数据不敏感的优点,同时保持了基于网格的聚类算法的高效性,适合对大规模数据的挖掘,并且实验数据分析验证了算法的有效性。在聚类分析领域中另一个长期困扰研究者的典型问题就是聚类参数的设置问题。只有合理的设置聚类参数才能聚类出高质量的聚类结果。然而被聚类的数据集分布情况在聚类前往往是未知的,所以难以设置合理的聚类参数。而设置不合理的聚类参数又使得聚类结果质量变低。所以聚类参数设置问题应该首先被解决好。本文对网格聚类算法进行了深入地分析研究。在研究了传统网格聚类算法的基础上,针对网格聚类算法对参数敏感的问题,提出了一种基于网格的参数自动化聚类算法,该算法使用参数自动化技术解决了算法对参数敏感的问题。并在综合数据集和真实数据集上进行测试,最后给出实验结果,同时分析了该算法的时间复杂度和空间复杂度。5.期刊论文张红云.刘向东.段晓东.苗夺谦.马垣数据挖掘中聚类算法比较研究-计算机应用与软件2003,20(2)聚类算法是数据挖掘的核心技术,本文综合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类算法作了比较分析,以便于人们更容易、更快捷地找到一种适用于特定问题的聚类算法.6.学位论文张玉英数据挖掘技术中聚类算法的研究2006数据挖掘技术是当前计算机领域的一个研究热点,引起了大量研究人员的关注。而聚类分析是数据挖掘技术中一个重要的研究方向,目前这方面的研究主要集中在如何提高聚类算法的有效性和实用性。论文首先对数据挖掘技术做了介绍,旨在分析与确定数据挖掘技术的研究领域与存在的问题。数据挖掘技术中,聚类分析方法在模式识别、图像处理等领域获得了广泛的研究与应用,但是也存在聚类算法智能性、稳定性、有效性、可扩展性等方面的问题。因此,论文进一步详细分析和研究了现存的各种有代表性的聚类算法,对它们缺点与优势以及各自所适应的具体应用前提、性能进行了比较全面的对比与总结;在此基础上提出了对K-Means算法和DENCLUE算法(基于密度分布函数的聚类算法)进行整合思想,依此来提高聚类方法智能性(实现无指导挖掘)、稳定性、有效性和可扩展性,同时给出了两种算法的整合理论基础。在实现整合算法的过程中,首先通过聚类对象属性(变量)的加权处理——基于复相关系数倒数的欧氏距离加权,消除了对象属性间的相关性,提高了聚类结果的准确性;然后,根据两种算法的整合思想,提出了一种新的聚类算法——基于密度和对象方向的K-Means算法KADD(K-MeansAlgorithmbasedonDensityandDirection),详细介绍了KADD算法的定义、数据结构、模型的建立,以及算法的具体实现。这种算法不但避免了需要用户事先给出难以确定的聚类参数的困难局面和随机选择初始聚类中心造成聚类结果的不稳定;而且可以发现任意形状的聚类;克服了K-Means算法对孤立点数据的敏感问题;提高了算法的可扩展性。最后在不同的数据集上,通过对原K-Means算法和KADD算法进行测试和对比,结果表明,算法的设计与实现是成功的,具有良好的可伸缩性,可发现任意形状的聚类,处理噪声数据的能力强,且具有较强的可解释性和可用性。7.期刊论文张红云.石阳.马垣数据挖掘中聚类算法比较研究-鞍山钢铁学院学报2001,24(5)聚类算法是数据挖掘中的核心技术,虽然聚类算法已被广泛深入的研究,但其应用在数据挖掘领域时间不长,其间产生了许多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户.为了更好的使用这些算法,综合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中近几年提出的常用聚类方法作了比较分析,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法.8.学位论文邢治国数据挖掘中模糊聚类算法的研究2005数据挖掘,又称数据库中的知识发现,是指从大型数据库中提取隐含的、事先未知的、潜在有用的信息或模式。它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,是数据库研究中的一个很有应用价值的新领域。数据挖掘工具能对数据进行深层次的分析,对未来的趋势和行为进行预测。聚类是数据挖掘中的一种典型的分析方法,是一个非常活跃的研究领域。作为数据挖掘的重要方法之一,聚类是自动地对物理或抽象对象分组,使其成为类似对象组成的多个簇的过程,当把聚类方法应用于实际问题时,经常会遇到数据不断地变化、需要使用各种约束条件,以及如何更为有效地继承数据挖掘过程和结果的问题。对于模糊聚类目前所存在的对数据均匀收缩的问题,本文提出了改进现有模糊聚类算法的一些方法。首先,针对模糊C均值算法(FCM)所存在的问题,以熵作为FCM算法的约束条件,实现了FCM的改进算法,收到了较好的效果。实验表明,改进后的算法表现出比FCM算法更好的性能。第二,采用了具有群体智能特征的蚁群算法对要进行聚类的原始数据集进行预处理,把预处理得到的结果作为FCM算法的输入,免去了FCM算法中聚类个数的初始化。这种方法主要是为了解决由于数据的自然分布形状奇异而造成FCM算法的失效。另外,预处理策略借助了群体智能算法,它可以改善硬划分所造成的聚类错误,还会发现一些事先无法预计的分簇,从而增强了算法聚类的智能性。本文主要研究了以上两个方面的问题,对改进模糊聚类算法所存在的问题做了一些有益的尝试。实验表明,本文所改进的算法是有效的,也是可行的。9.学位论文林建仁聚类算法的研究与应用2007随着计算机技术和互联网的快速发展,人们生产、收集数据的能力不断提高,商业管理、政府部门、科研机构与工程技术等领域的数据量以前所未有的速度海量增长。面对海量数据,如何从这些大规模数据中找到数据之间的模式,以提取信息、建立知识资源,从而避免“数据丰富而知识匮乏”的局面,已经成为一个迫切需要解决的课题。基于数据库的知识发现(KnowledgeDiscoveryinDatabase,简称KDD)是指从大量数据中提取有效的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程。它是一个反复迭代的人机交互处理过程,该过程需要经历多个步骤,主要包括数据整理、数据挖掘(DataMining)和结果的解释评估。其中数据挖掘是整个KDD过程中最核心的步骤,数据挖掘的目的就是运用特定的数据挖掘算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来,如树、表、