14一种改进的快速聚类算法及并行化研究

jmhey
2 ℃
2020-04-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

兰州大学硕士学位论文一种改进的快速聚类算法及并行化研究姓名：祁小丽申请学位级别：硕士专业：计算机科学与技术、计算机软件与理论指导教师：陈晓云20090501一种改进的快速聚类算法及并行化研究作者：祁小丽学位授予单位：兰州大学相似文献(10条)1.学位论文刘永攀全局模糊C-均值聚类算法在色彩迁移中的应用2009在图像处理领域中，色彩迁移指的是把一幅图像的颜色信息转移到另一幅图像，使新生成的图像既保存原图像的形状信息又具有其他图像的色彩信息。根据所选的目标图像的不同，不仅能产生不同的视觉效果，而且也提高了技术处理的多样性和艺术性。本文分析了色彩迁移的主要算法，通过分析比较，针对迁移方法中的模糊聚类方法进行深入研究，并选取模糊C—均值聚类算法作为突破点。主要工作包括以下几个部分：分析了传统的色彩迁移算法的不足和FCM算法的缺陷，针对模糊C—均值聚类算法对初始化特别敏感、很容易陷入局部极小值的缺陷，本文将全局模糊C—均值聚类算法引入到色彩迁移过程中，提出一种基于全局模糊C—均值聚类算法。该算法是一个确定性的全局优化方法，不依赖于任何的初始参数值，仅仅使用FCM作为局部搜索的工具。算法不需要随机地选取初始聚类中心，而是以递增的方式来实施算法的处理过程，克服了FCM对初值敏感的问题，提高了聚类的准确性和稳定性。提出了基于全局模糊C—均值聚类的色彩迁移算法，在迁移效果上、迁移稳定性上对原来的基于FCM的色彩迁移方法进行了改进。实际测试结果表明，新的颜色迁移算法能满足不同颜色复杂程度的图像的颜色迁移要求，并且能避免局部最小的缺陷。2.期刊论文宋加升.陈琰.SONGJia-sheng.CHENYan改进的K-Means聚类算法在保险客户信用分析中的算法实现-哈尔滨理工大学学报2009,14(1)针对保险业对客户信息的分析中缺乏考虑客户信用分析的问题,根据聚类分析算法理论和保险公司客户数据库特点,进一步对K-means聚类算法在大样本环境下初始聚类中心的选取提出有效改进,同时选取一家财产保险公司的客户信用数据,来探讨聚类算法在保险客户信用分析中的应用.3.学位论文何春霞三角不等式原理对聚类算法的改进2006聚类分析是数据挖掘中的一个重要研究领域，面对大规模的、高维的数据，如何建立有效的聚类算法是一个研究热点。聚类将数据对象分组成若干个类或簇，使得在同一个簇中的对象尽可能相似，而不同簇中的对象尽可能相异，是一种无监督的分类方法。对聚类算法的进一步优化研究不仅有助于算法理论的完善，更有助于算法的推广和应用。顺序聚类算法不需要提前确定聚类个数，并且是一种非常直接和快速的算法。但是当处理海量数据时，时间效率仍然有待提高。针对此问题，本文在两个阈值的顺序聚类算法TTSAS的基础上，提出一种新的顺序算法TITTSAS。该算法应用三角不等式原理，避免了TTSAS算法中冗余的距离计算。实验结果证明TITTSAS算法相对于TTSAS算法，在效率上有很大程度的提高，尤其对于高维的大规模数据集，效果更是显著，随着聚类个数的增加，TI_TTSAS算法更有优越性。并且聚类效果保持了TTSAS算法的准确性。三角不等式原理不仅可以改进顺序算法，只要基于欧式距离度量不相似性的聚类算法，都可以通过三角不等式原理避免冗余的距离计算。k-means是一种基于划分的聚类算法，本文同样利用三角不等式原理节省了运行时间。实验结果证明，该原理对k-means算法的改进效果更是显著。4.学位论文白洪涛粮食智能决策支持系统总体设计及部分实现2003该文以国内整个粮食行业为背景,建造一个专门解决粮食决策问题的粮食智能决策支持系统.从总体上设计了粮食智能决策支持系统结构和功能模型,整个系统由人机交互界面与问题求解系统两大部分构成,问题求解系统又包含数据系统、模型和方法系统和知识系统三大部分;设计了数据多维分析功能模块、粮食保管决策支持模块、粮食调拨决策支持模块等七个决策支持子功能模块.研发了进行数据增量更新和数据转换的ETL程序,实现了C/S和B/S结构的数据分析与访问,同其他商务智能工具如BusinessObjects共同形成了粮食行业数据仓库系统的解决方案,实现了数据多维分析子模块,为用户提供了可定制的、多角度的、全方位的数据分析功能;研究并实现了基于距离的层次聚类和快速聚类算法,实现了粮库基本信息进行聚类分析功能模块,使粮食主管部门能够对聚在一类中的粮库制定相同或相似的决策;对最小费用流算法进行了算法的性能比较分析,并据此实现了一个高效算法——CostScaling算法,实现了粮食调拨决策支持模块,在粮食大规模调拨时最大限度地节约成本.总之,该文不仅探讨了多种分析算法理论,更侧重于系统的设计开发与应用价值,该系统已经在吉林市粮食系统展开使用.5.期刊论文闫德勤.迟忠先.王军MLVQ网络聚类算法-自动化学报2004,30(4)讨论了关于改进LVQ聚类网络的理论与算法.为克服LVQ网络聚类算法对初值敏感的问题广义学习矢量量化(GLVQ)网络算法对LVQ算法进行了改进,但GLvQ算法性能不稳定.GLVQ-F是对GLVQ网络算法的修改,但GLVQ-F算法仍存在对初值的敏感问题.分析了GLVQ-F网络算法对初值敏感的原因以及算法不稳定的理论缺陷,改进了算法理论并给出了一种新的改进的网络算法(MLVQ).实验结果表明新的算法解决了原有算法所存在的问题,而且性能稳定.6.学位论文侯宪龙基于聚类算法的模糊控制器设计2007在现代工业控制过程中，模糊控制以其实现简单、鲁棒性强等优点，被广泛用于复杂过程或对象的控制。模糊规则库是模糊系统中至关重要的组成部分，它的好坏直接关系到整个模糊系统的性能。常规模糊控制器的设计是由设计者通过总结专家经验生成模糊控制规则，这样的模糊控制器强烈依赖专家的主观经验，得到的模糊规则不能完全反映整个控制系统的本质特征，因此模糊规则库自动生成一直都是模糊控制理论研究的重要方向。本文首先给出了样本数据预处理方法，分析了数据空缺值的填充算法，利用样条插值来实现样空缺数据的填充，并对FCM聚类的原型进行初始化，解决了FCM聚类对原型的初始值敏感等问题；其次，针对模糊规则的自动获取，分别采用最近邻聚类和模糊C均值聚类算法对数据分组，使每组的数据产生一条规则，能够有针对性的生成规则，减少冗余规则的产生；并把FCM聚类与遗传算法相结合，利用遗传算法理论来实现FCM聚类，为探索有效解决模糊聚类对初值过于敏感等问题提供了新的思路；最后用遗传算法优化模糊控制器，通过制定合理的编码规则，选择合适的遗传算子，提高了规则的质量。文章采用聚类算法自动生成模糊控制系统的模糊规则，解决了常规设计方法模糊控制规则不容易确定、主观性强等问题。该方法能根据各个输入变量不同的重要性，分别赋予他们不同的隶属度值，并把遗传算法理论应用于FCM聚类，提高了算法效率和模糊规则的质量。最后的仿真结果表明方法的可行性和有效性。7.学位论文周巧萍可能性聚类算法的研究2008模糊C均值聚类算法(FCM，FuzzyC-MeansClusteringAlgorithm)是非监督模式识别中应用最为广泛的算法之一，该算法是基于最小平方误差，并规定了每个样本对各个隶属度的和必须为1。然而，隶属度值并不总是与直观上的隶属度或兼容度相一致。而且，FCM对噪声点或孤立点都敏感。为了克服这些缺点，R.Krishnapuram和J.Keller于1993年通过放松FCM中的概率约束限制，重新建立了一个新的目标函数，而提出了可能性C均值聚类算法(PCM，PossibilistieC-MeansClusteringAlgorithm)。但是PCM算法容易趋向于一致聚类而且对初始化也敏感。现在本文将PCM算法和它的修改版分别记作PCM1算法和PCM2算法。为了解决PCM算法存在的问题，本文具体的研究内容可以分为以下三点内容：1.本文讨论已有的一些模糊聚类算法理论，包括硬C均值(HCM)聚类算法，模糊C均值(FCM)聚类算法，可能性C均值(PCM1)聚类算法，第二种可能性C均值聚类算法，记为PC2，算法，并对它们进行了实验模拟分析和比较。2.在PCM，算法中，它没有涉及到任何加权指数，当产生一致性聚类结果时，不能调整任何参数来得到可选择的聚类。为了克服PCM2的缺点，Zhang和Leung在FCM和PCM2的基础上提出了改进型可能性C均值聚类(ImprovedPossibilisticC-MeansClusteringAlgorithm，IPCM2)。IPCM2解决了FCM对噪声敏感和PCM2一致性聚类的缺点，但是FCM、PCM2和IPCM2的目标函数中使用的是欧式距离，在现实中，这种情况是不存在的。于是本文提出了一种新的改进型可能性C均值聚类(NIPCM2)，即一种基于非欧式距离的可能性C均值聚类。同时，实验结果表明NIPCM2能够克服噪声敏感问题和获得更好的聚类中心。3.本文提出了一种基于核函数的混合C均值聚类算法(HybridC-MeansclusteringalgorithmbasedontheKernelfunction,HKCM)。首先利用FCM和PCM2算法的优点，设计出一种混合的C均值聚类算法。然而鉴于该算法存在的不足，本文将Mercer核函数引入到该算法中，这样就可以更好地进行聚类。仿真试验结果证实了该方法的可行性和有效性。8.期刊论文苏锦旗.吴慧欣.薛惠锋.SUJin-qi.WUHui-xin.XUEHui-feng基于人工鱼群算法的聚类挖掘-计算机仿真2009,26(2)聚类分析就是按照数据间的相似程度,依据特定的准则将数据划分成不同种类.目前聚类分析算法普遍存在对初始参数敏感,难以找到最优聚类以及聚类有效性等问题.人工鱼群算法作为一种新型仿生优化算法,具有良好的克服局部极值和获得全局极值的能力.引入聚类数学模型,结合现有人工鱼群算法的特点和聚类算法理论,通过模拟鱼群的智能行为进行聚类分析,提出了一种基于人工鱼群算法的聚类挖掘方法.对空间数据的实验和蚁群算法的对比研究表明,该算法具有良好的聚类效果.9.学位论文李丽丽模糊C-均值聚类算法及其在图像分割中的应用2009聚类分析作为一种非监督学习方法，是机器学习领域中的一个重要的研究方向。同时聚类技术也是数据挖掘中进行数据处理的重要分析工具和方法。近年来，随着人们对聚类技术的不断研究，聚类分析在机器学习、数据挖掘等很多领域已经成为人们进行数据分析和信息提取的研究热点。所谓聚类，就是把没有类别标记的样本集按某种准则划分成若干类，使类内样本的相似性尽可能大，而类间样本的相似性尽量小，是一种无监督的学习方法。聚类分析通常是在没有先验知识支持的前提下进行的，它所要解决的就是在这种前提下，实现满足要求的类的聚合。聚类分析的研究主要集中在聚类算法上，产生性能好而且实用的聚类算法是其终极目的。迄今为止，人们提出了很多种不同的适用于数据挖掘的聚类算法，但这些算法仅适用于特定的问题及用户，而且它们在理论和方法上仍不完善，甚至还有严重的不足之处。对聚类算法的进一步优化研究将不仅有助于算法理论的完善，更有助于算法的推广和应用。而引入模糊理论的模糊聚类分析为现实数据提供了模糊处理能力，在许多领域被广泛应用。在本文中，讨论了常用的模糊聚类算法，以及这些算法的优缺点、存在的问题以及前景展望。模糊C-均值聚类算法是目前广泛使用的模糊聚类算法，但它也存在一些缺点，如模糊C-均值聚类算法对初始值比较敏感，在迭代时容易陷入局部极小值等。本文对模糊聚类算法进行了改进：首先是在算法中引入模糊聚类有效性函数，对聚类数目c进行优选。而后又将模拟退火算法和粒子群算法应用到模糊聚类中，提出了一种基于模拟退火粒子群算法的模糊聚类算法。该算法能够利用粒子群算法强大的全局寻优能力和模拟退火算法跳出局部极值的能力，从而得到较好的聚类效果。为了证明改进的模糊C-均值聚类算法的实用性，将该算法应用于图像分割中。图像分割是从输入图像中提取目标或感兴趣区域的过程，是目标检测和识别过程中的重要步骤。模糊聚类是模糊理论的一个重要的分支，在图像分割中得