数据挖掘报告

zhongzi
1 ℃
2019-12-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

Weak数据挖掘平台WEKA的全名是怀卡托智能分析环境,WEKA诞生于UniversityofWaikato(新西兰)(weka也是新西兰的一-种鸟名)并在1997年首次以其现代的格式实现。该软件以JavaM语言编写并包含了一个GUI来与数据文件交互并生成可视结果(比如表和曲线)。它还有一个通用API,WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理,分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。Weka简介KMeans算法对数据聚类K-means算法原理K均值算法以k为输入参数，把n个对象的集合分成k个簇，使得结果内的相似程度最高，而簇间的相似程度低。簇的相似度是关于簇中对象的举止度量。可以看作簇的质心。首先，随机地选择k个对象，每一个对象代表一个簇的初始均值或者中心。对剩余的每-个对象，根据其与各个簇均值的距离，把它指派到最相似的簇。然后计算每-一个簇新的均值。这个过程不断重复，知道准则函数收敛。其中准则函数定义如下:其中，E是数据集所有对象的平方误差和，P是空间中的点，表示给定对象，m是簇c的均值。算法描述:输入:聚类个数k，以及包含n个数据对象的数据库。输出:满足方差最小标准的k个聚类。K均值算法K均值算法的处理流程处理流程:(1)从n个数据对象任意选择k个对象作为初始聚类中心;(2)循环(3)到(4)直到每个聚类不再发生变化为止(3)根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;(4)重新计算每个(有变化)聚类的均值(中心对象)k-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得-一个“中心对象”(引力中心)来进行计算的。利用WEKA对SyntheticControlChart数据集进行聚类1.打开weka界面，如下图:在Application选项下选择Explorer.即可进入主界面。步骤一2.在Proprocess选项卡，点击openfiles,即可导入数据集，但是WEKA只能处理.arff格式的数据，所以如果不是.arff格式，应该要做一下转换。导入数据集:步骤二3.经过数据预处理的数据集已经是规范的了，所以不需要再进行处理，可以直接进行聚类分析。选择Cluster,进入聚类操作的界面，点击chooose,在弹出的树形列表中可以选择要使用的聚类算法，再此我们使用Simlkmeans,点击choose右边的方框，在弹出的对话框中设着聚类的相关参数。截图如下:步骤三4.点击start就可以开始进行聚类了步骤四聚类结果分析：步骤五Numberofinterations:2表明总共的迭代次数是2Clustercentroids:之后列出了各个簇中心的位置。对于数值型的属性，簇中心就是它的均值(Mean);分类型的就是它的众数(Mode),也就是说这个属性上取值为众数值的实例最多。对于数值型的属性，还给出了它在各个簇里的标准差(StdDevs)。ClusteredInstances:是各个簇中实例的数目及百分比。解释与分析可视化的聚类结果为了观察可视化的聚类结果，在左下方“Resultlist”列出的结果上右击，点“Visualizeclusterassignments”。弹出的窗口给出了各实例的散点图。可以看到如下图的可视化结果:通过本次作业，一方面，深入地了解了SimpleKMeans算法的基本原理、使用范围、不足等。另一方面，学习了Weka的用法。包括各种挖掘工具以及结果的含义。在完成本次作业的过程中，我对Weka的用法有了一个比较基本的了解，在这次用SimpleKMeans算法进行数据挖掘聚类分析的时候，通过聚类的结果更加明确了该算法的用途。后来，我又对另外一个Nominal的数据集进行了关联规则挖掘，发现了属性之间的关联。在完成本次大作业的过程中，我也遇到了许多的困难，碰到了许多的不明白的问题，但通过和同学之间的讨论以及搜索资料，最终，问题迎刃而解。通过完成这次大作业，培养了我独立学习和完成任务的能力，也激发了我对数据挖掘这一课程的学习兴趣。以后在课余时间，我仍会努力学习这一领域的知识。结论