数据挖掘中聚类算法的应用设计

rj100
3 ℃
2020-05-28

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

吉林电子信息职业技术学院毕业论文（设计）题目：数据挖掘中聚类算法的应用设计系部：机电技术学院专业班级：12级机电17班指导教师：高岩姓名：王增亮吉林电子信息职业技术学院I摘要聚类分析是数据挖掘中的一个主要研究方向，目前已经深入到各个领域并取得了很好的进步。本文将从数据挖掘入手，详细探讨聚类算法在数据挖掘的发展过程中所起的作用，并对聚类算法在各个时期的理论和应用作相应分析。最后，我们将对聚类的K-Means算法进行实例操作，分析聚类算法存在的问题和一些解决方案。希望能总结对过去成果并对今后发展方向起到引导作用。关键词:信息；数据挖掘；聚类分析；K-Means算法吉林电子信息职业技术学院IIAbstractTheanalyseofclusteringisamajorpartinthedatamining，whichhavealreadybeenappliedintoseveraldomainsandearnedalargeadvancement.Inthepaper，wewillgiveadetaileddiscusswiththefunctionofclusteringalgorithmactedonthedevelopingofdatamining，startingwiththeintroductionofdatamining，andgiveaanalysisonthetheoreticsandappiciationoftheclusteralgorithmindifferentphases.Atlast，wewillvalidatetheK-Meansalgorihmofclusering，analysetheproblemexistedinthealgorithmandgivesomemethodstoreslovethemthroughagivenexample.Thesemaybesummarizetheachievementandchanneloffthedevelopingofdatamining.KeyWords:Information;DataMining;TheAnalyseofClustering;TheKMeansalgorithm吉林电子信息职业技术学院III目录摘要...............................................................................................................................IAbstract.............................................................................................................................II目录............................................................................................................................III引言..............................................................................................................................1第1章聚类分析基本概念与算法..............................................................................21.1聚类分析.........................................................................................................21.2常见数据类型和距离公式.............................................................................21.3聚类的一般步骤.............................................................................................41.4划分聚类.........................................................................................................41.5层次聚类.........................................................................................................5第2章新发展的聚类算法..........................................................................................72.1基于模糊的聚类方法.....................................................................................72.2量子聚类.........................................................................................................82.3核聚类.............................................................................................................82.4谱聚类.............................................................................................................9第3章程序调试........................................................................................................103.1原理描述.......................................................................................................103.2数据的引入和处理........................................................................................113.3实验操作过程...............................................................................................13结束语............................................................................................................................20参考文献........................................................................................................................21吉林电子信息职业技术学院1引言当我们步入二十一世纪时，信息产业在全世界范围内以信息的几何增长的速率快速发展起来。对各个领域和企业部门来说，增强对数据中信息价值的利用可以引导其在激烈的竞争环境中快速发展并力求胜出。在推行电子政务的今天，政府部门的数据也在进行数字化。科研机构更是收集了大量的科学研究数据，试图从中发现自然界和社会及经济运转的秘密。这些都是我们解读数字信息所需面临的一些新的挑战。比如，根据对客户销售关系的研究，我们可以知道，一个好的行为描述经常也是对行为本身的一种解释，至少提示从哪里寻找解释。这种解释通常来自我们对业务范围内的相关销售份额及客户和市场信息，所以要求我们通过不同模式进行“创意”分析，寻找利润的最大支撑点。信息是由数据所表达的客观事实，而知识是信息经过智能性加工过后的产物。目前虽然能实现高效的数据录入、查询、统计、输出和积累等功能，但是却随之出现一个问题，大量的数据相对降低了人们分析数据的能力，使发现大数据集中数据间关联规则更加困难，从而对根据数据预测趋势的能力得不到保障。出现了“数据丰富而信息贫乏”的现象。数据挖掘的目的就是帮助决策者寻找数据间潜在的知识，对决策者在现有的信息基础上预测未来的发展趋势并作出决策是非常有用的。一直以来，人们认识事物时往往先把被认识的对象进行分类，以便寻找其中同与不同的特征。在医学实践中经常需要做分类的工作，如根据病人的一系列症状、体征和生化检查的结果，判断病人所患疾病的类型。又如，当对中国古代的政治和经济状况进行解读时，以前只能通过史书中的片言记载，不能得到强有力的推断。而现在可以从数据挖掘的角度，利用各个学科相结合的技术和优势，对生物、天文、地理、人物传记、风俗人情等一系列大量的信息进行数据处理、挖掘和推测，从而可望发掘出新的结果。为此，数据挖掘的算法研究一直是我们所关注的重点，它具有巨大的潜在利润空间，这也是本文进行数据挖掘中聚类算法研究的目的和意义所在。吉林电子信息职业技术学院2第1章聚类分析基本概念与算法1.1聚类分析聚类分析（ClusterAnalysis）是根据事物本身的特性研究个体的一种方法，目的在于将相似的事物归类[1]。它的原则是同一类中的个体有较大的相似性，不同类的个体具有最小相似性（即差异性较大）。聚类分析具有以下特征：1）适用于没有先验知识的分类。如果没有这些事先的经验或一些国际、国内、行业标准，分类便会显得随意和主观。这时只要设定比较完善的分类变量，就可以通过聚类分析法得到较为科学合理的类别；2）它可以处理多个变量决定的分类，例如，要根据消费者购买量的大小进行分类比较容易，但如果在进行数据挖掘时，要求根据消费者的购买量、家庭收入、家庭支出、年龄等多个指标进行分类通常比较复杂，而聚类分析法可以解决这类问题；3）聚类分析法是一种探索性分析方法，能够分析事物的内在特点和规律，并根据相似性原则对事物进行分组，是数据挖掘中常用的一种技术；4）聚类主要集中于基于距离的聚类分析，基于K-Means聚类分析，基于K-中心点的聚类等。常用的聚类方法有统计学方法，模式识别，机器学习和数据库方法；1.2常见数据类型和距离公式1）假设句了数据集包含n个数据对象，则有数据矩阵（DataMatrix）111111fpiifipnnfnpxxxxxxxxx其中，ifx表示数据集中第i个对象的第f个属性值，从而矩阵表示对数据集中各个对象的属性记录的总和。2）连续变量类型，即取值在某个区间的数值型变量。包括高度、温度、重量等。计算绝对偏差的平均值121(...)fffffnffsxmxmxmn（1-1）吉林电子信息职业技术学院3其中121...fffnfmxxxn从而标准化度量值为iffiffxmzs相应的度量距离公式有以下几种常见形式：欧几里得距离公式2221122(,)()()...()nndxyxyxyxy曼哈坦距离公式112