网格聚类算法的研究

411908016
2 ℃
2020-06-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

华北电力大学（保定）硕士学位论文网格聚类算法的研究姓名：程伟想申请学位级别：硕士专业：计算机应用技术指导教师：孟建良20081218网格聚类算法的研究作者：程伟想学位授予单位：华北电力大学(保定)相似文献(10条)1.期刊论文印桂生.于翔.宁慧.YINGui-sheng.YUXiang.NINGHui一种基于网格的增量聚类算法-计算机应用研究2009,26(6)分析了现有基于网格的聚类算法,该算法具有高效且可以处理高维数据的特点,但传统网格聚类算法的聚类质量受网格划分的粒度影响较大.为此,提出了一种基于网格的增量聚类算法IGrid.IGrid算法具有传统网格聚类算法的高效性,且通过维度半径对网格空间进行了动态增量划分以提高聚类的质量.在真实数据集与仿真数据集上的实验结果表明,IGrid算法在聚类准确度以及效率上要高于传统的网格聚类算法.2.学位论文张西芝网格聚类算法的研究2006数据挖掘技术可以从大量数据中发现潜在的、有价值的知识，它给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展，作为其重要的组成部分，网格聚类技术已经被广泛的应用于数据分析、图像处理、市场研究等许多领域。网格聚类算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。本文介绍了数据挖掘理论，对网格聚类算法进行了深入地分析研究。在研究了传统网格聚类算法的基础上，提出了网格边界处理聚类算法，该算法使用边界处理技术提高了网格聚类的精度；针对网格聚类算法对参数敏感的问题，提出了一种基于网格的参数自动化聚类算法，该算法使用参数自动化技术解决了算法对参数敏感的问题；在分析了传统的多密度聚类算法的基础上，提出了基于网格的多密度聚类算法(Grid-basedClusteringAlgorithmforMulti-density)，该算法主要采用密度阈值递减的多阶段聚类技术提取不同密度的聚类，使用边界点处理技术提高聚类的精度，同时对聚类结果进行了人工干预。本文使用VisualC¨6.0实现了网格的边界处理聚类算法、参数自动化的网格聚类算法、基于网格的多密度聚类算法、SNN算法，做了大量的对比实验，其中包括基于网格聚类的正确性实验，在综合数据集上的实验，在网络入侵真实数据集的实验以及对均匀密度的数据集实验等。实验结果表明，网格边界处理聚类算法可以很好的对边界点进行处理，从而提高了聚类结果的精度；基于网格的参数自动化技术可以很好的处理传统网格聚类算法对参数敏感的问题；基于网格的多密度聚类算法不仅能够对数据集进行正确的聚类，同时还能有效的进行孤立点检测，有效的解决了传统多密度聚类算法中不能有效识别孤立点和噪声的缺陷。基于网格的多密度聚类算法比传统的共享近邻SNN算法精度高，适合于均匀密度数据集、大部分多密度数据集，并且可以发现任意形状的聚类，对噪声数据和数据输入顺序不敏感，但对小部分多密度数据集的聚类结果不理想。总之，网格边界处理聚类算法提高了聚类的精度，参数自动化技术在一定程度上解决了网格聚类算法对参数敏感的问题，而基于网格的多密度聚类算法不仅适合于均匀分布的数据集，而且对多密度数据集基本上也适合。该算法不仅能有效的识别出各种形状的聚类，而且也能有效的识别出孤立点或噪声，在和传统的共享近邻SNN算法对比中显示出了一定的优越性。3.学位论文赖建章基于网格聚类算法的案例检索系统的应用研究2007案例推理(CBR)作为最近二十多年来发展起来的一种新的推理模式,已受到人工智能研究人员的关注,已经成为当前人工智能及机器学习领域中的热门课题与前沿方向.案例推理系统是通过检查出案例库中过去同类的相似问题从而获得当前问题的解决方案,它克服了传统知识处理系统对其边界以外的知识处理十分低效、匹配冲突等缺陷.在案例推理系统中,系统的增量式学习会使系统案例库无限增大,导致案例推理系统的案例检索速度越来越慢,从而使得整个系统的性能越来越弱.由此可见,案例检索在整个系统中位于重要的位置且是系统的瓶颈.论文首先回顾了CBR的发展历程,介绍了CBR的研究现状、特点、应用领域及其理论基础,详细讨论了CBR的相关的检索技术和相似度计算问题.接着介绍了数据挖掘的研究现状及其相关技术,其中着重介绍数据挖掘中的重要算法之--聚类算法,并给出了一种新的网格聚类算法(CABG).实验验证结果表明,该算法具有可行性并能取得较好的结果.案例推理系统中的案例检索方法具有检索速度与案例库的大小成非线性关系的特点.本文结合文中提出的网格聚类算法的特点,提出分级检索策略,将整个检索过程一分为二,并在案例相似度计算的基础上,提出了优化的相似度计算方法和类中心确定办法.最后论文给出了系统的整体框架并实现该系统,并利用国际案例库中的数据对系统进行了测试,实验结果表明系统具有良好的效果.4.期刊论文李卫平.张志鸿.LIWei-ping.ZHANGZhi-hong基于引力的网格聚类算法-光盘技术2006,(5)数据挖掘中的聚类在各行各业都有广泛应用,本文提出了基于网格的万有引力聚类算法(GGBCA),通过网格聚类(GBCA)的思想生成一系列的高密度网格,然后对高密度网格进行万有引力聚类,该算法考虑了类的大小对聚类结果的影响,提高了聚类效果.5.学位论文刘敏娟基于网格的聚类算法分析与研究2007数据挖掘是近些年来发展起来的新技术，通过数据挖掘，人们可以发现数据背后隐藏的有价值的、潜在的知识，为科学地进行各种商业决策提供强有力的支持。随着数据挖掘技术的迅速发展，作为其重要的组成部分，网格聚类技术已经被广泛的应用于数据分析、图象处理、市场研究等许多领域。基于网格的聚类算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。本文首先介绍了数据挖掘研究的相关背景及其理论知识，对数据挖掘中的聚类分析的相关工作做了一个简要的概述。在研究了传统聚类算法的基础上，提出了基于网格的共享近邻聚类算法(GNN)，即将空间数据映射到网格中，在区域查询时只考虑相关网格单元内的数据，提高了处理速度。该算法主要利用网格技术去除数据集中的部分孤立点或噪声，使用密度阈值处理技术来定义网格的密度阈值，使用中心点技术提高聚类效率；针对对象间的相似性度量方法，提出了基于相似度的网格聚类算法(SGCA)，将其应用于网格聚类，根据定义的边界点阈值函数提取类的边界点，显著地提高了网格聚类的精度，另外还引进了网格核技术，使得SGCA算法的时间复杂度也有了明显地改善。本文使用VisualC++6．0实现了基于网格的共享近邻聚类算法、基于相似度的网格聚类算法、SNN算法、CIJQUE算法，并做了大量的对比实验，其中包括GNN算法和SGCA算法的正确性和有效性。GNN算法和SGCA算法都具有较好的可扩展性，可以发现任意形状的聚类，受噪声的影响不明显，它们不仅适用于综合数据集，而且对高维数据集也具有较好的聚类结果。实验结果表明，基于网格的共享近邻聚类算法采用网格密度阈值处理可以很好的解决传统网格聚类算法对参数敏感的问题，使用网格中心点技术提高了聚类的效率；基于相似度的网格聚类算法利用网格技术去除了数据集中的部分孤立点或噪声，边界点阈值函数能有效的提取类的边界点，提高了聚类的精度；网格核技术应用于SGCA算法进一步改善了它的时间复杂度。总之，基于网格的共享近邻聚类算法不仅能有效的识别出任意形状的聚类，而且也能有效的识别出孤立点或噪声，对噪声数据和数据输入顺序不敏感，在与传统的共享近邻聚类算法对比中显示出了一定的优越性；基于相似度的网格聚类算法不仅适用于综合数据集，而且对高维数据集也具有较好的聚类结果。6.学位论文李伯阳文本聚类方法研究及其应用2008随着互联网的不断深入发展，网络上堆积的数据日益庞大，并且大部分数据以文本的形式存储。文本的非数值性、复杂性等特点使得文本挖掘成为数据挖掘相关领域中的热点与难点。在与文本相关的一些应用中，如垃圾邮件甄别，文本分类方法受到了训练样本的限制，无法达到令人满意的效果。文本聚类方法由于具有无监督的学习能力，成为人们寻求解决这些问题的一个重要方向。文本聚类方法主要包括文本表示模型和文本聚类算法。目前大多数文本表示模型都是以词条为基本单位进行建立的，这使得模型数据具有高维与稀疏的特点。在高维数据空间中，聚类往往只存在于某些子空间中，并且不同的聚类所关联的子空间也存在差异。受“维度效应”的影响，传统的聚类算法一般无法直接对高维数据进行有效的聚类，需要通过一些特殊的处理。本文在常用的矢量空间模型(VSM)基础上，以聚类算法为出发点，研究如何基于不同的聚类算法建立相应的文本聚类方法。通过研究传统文本聚类方法的聚类过程，分析了传统方法对于聚类算法的要求，继而提出了一种具有鲁棒性的数据点收缩聚类算法，并在此基础上建立相应的文本聚类方法；通过分析传统文本聚类方法在维度约简方式上存在的不足，提出了一种子空间聚类算法，并在此基础上建立相应的文本子空间聚类方法。本文的主要工作如下：1．研究层次型聚类算法CURE，通过将其代表点收缩的思想与网格密度概念相结合，从而达到对数据分布更为细致的度量，在此基础上提出一种基于数据点收缩的网格聚类算法，并通过实验验证了算法的有效性；2．在网格聚类算法基础上建立了相应的文本聚类方法，并将其应用于垃圾邮件甄别与中文文本聚类领域；3．着重研究了子空间聚类算法，通过分析现有软子空间聚类算法在聚类结果稳定性和初始化方面存在的不足，提出一种专门处理文本数据的子空间聚类算法与相应的初始化算法；4．基于上述子空间聚类算法建立了文本子空间聚类方法并应用于垃圾邮件甄别与中文文本聚类领域；通过实验分析了该方法在维度处理上的优势。7.期刊论文张横云.ZHANGHeng-yun一种优化的基于网格的聚类算法-西南民族大学学报（自然科学版）2009,35(3)新的基于网格聚类算法(GCAB)利用网格处理技术对数据进行了预处理,并引进了网格密度阈值处理和网格中心点两种技术.实验表明,GCAB算法不仅具有DBSCAN算法准确挖掘各种形状的聚类和很好的噪声处理能力的优点,而且具有较高聚类速度.8.学位论文伍育红面向电子商务的数据挖掘中聚类算法的研究2007在信息和知识经济时代伴随着计算机技术和网络技术的不断发展，企业纷纷建立自己的商务网站，开展电子商务活动，日积月累网站上生成了大量的与客户有关的记录信息，这些信息对企业来说应该是一笔非常宝贵的财富，如果能得到充分挖掘，发现背后蕴涵的有用知识，为企业业务决策和战略发展服务，企业将会在市场竞争中占据有利地位，应运而生的数据挖掘技术给出了有效的解决方法，它能够对大量的、不完全的、有噪声的、模糊的、随机的数据进行挖掘，提取隐含在其中的、事先不知道但又是潜在有用的信息和知识。而聚类分析是数据挖掘技术中重要的组成部分，从技术角度讲，它的主要目的是将数据空间中的数据点划分到若干个类中。其中，将距离相近的数据点划分到相同的类中，而将距离较远的数据点划分到不同的类中。目前，已经提出了很多的聚类算法，它们基本上可以分为以下几种方法：划分方法、层次方法、基于密度、基于网格和混合方法等方法，这些方法各有优缺点。本文通过分析基于网格与基于密度的聚类算法特征，提出了一种基于网格和密度的混合聚类算法，通过分阶段聚类并选取代表单元中的种子对象来扩展类，从而减少区域查询次数，实现快速聚类。该算法保持了基于密度的聚类算法可以发现任意形状的聚类和对噪声数据不敏感的优点，同时保持了基于网格的聚类算法的高效性，适合对大规模数据的挖掘，并且实验数据分析验证了算法的有效性。在聚类分析领域中另一个长期困扰研究者的典型问题就是聚类参数的设置问题。只有合理的设置聚类参数才能聚类出高质量的聚类结果。然而被聚类的数据集分布情况在聚类前往往是未知的，所以难以设置合理的聚类参数。而设置不合理的聚类参数又使得聚类结果质量变低。所以聚类参数设置问题应该首先被解决好。本文对网格聚类算法进行了深入地分析研究。在研究了传统网格聚类算法的基础上，针对网格聚类算法对参数敏感的问题，提出了一种基于网格的参数自动化聚类算法，该算法使用参数自动化技术解决了算法对参数敏感的问