数据挖掘报告

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Weak数据挖掘平台WEKA的全名是怀卡托智能分析环境,WEKA诞生于UniversityofWaikato(新西兰)(weka也是新西兰的一-种鸟名)并在1997年首次以其现代的格式实现。该软件以JavaM语言编写并包含了一个GUI来与数据文件交互并生成可视结果(比如表和曲线)。它还有一个通用API,WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。Weka简介KMeans算法对数据聚类K-means算法原理K均值算法以k为输入参数,把n个对象的集合分成k个簇,使得结果内的相似程度最高,而簇间的相似程度低。簇的相似度是关于簇中对象的举止度量。可以看作簇的质心。首先,随机地选择k个对象,每一个对象代表一个簇的初始均值或者中心。对剩余的每-个对象,根据其与各个簇均值的距离,把它指派到最相似的簇。然后计算每-一个簇新的均值。这个过程不断重复,知道准则函数收敛。其中准则函数定义如下:其中,E是数据集所有对象的平方误差和,P是空间中的点,表示给定对象,m是簇c的均值。算法描述:输入:聚类个数k,以及包含n个数据对象的数据库。输出:满足方差最小标准的k个聚类。K均值算法K均值算法的处理流程处理流程:(1)从n个数据对象任意选择k个对象作为初始聚类中心;(2)循环(3)到(4)直到每个聚类不再发生变化为止(3)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;(4)重新计算每个(有变化)聚类的均值(中心对象)k-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得-一个“中心对象”(引力中心)来进行计算的。利用WEKA对SyntheticControlChart数据集进行聚类1.打开weka界面,如下图:在Application选项下选择Explorer.即可进入主界面。步骤一2.在Proprocess选项卡,点击openfiles,即可导入数据集,但是WEKA只能处理.arff格式的数据,所以如果不是.arff格式,应该要做一下转换。导入数据集:步骤二3.经过数据预处理的数据集已经是规范的了,所以不需要再进行处理,可以直接进行聚类分析。选择Cluster,进入聚类操作的界面,点击chooose,在弹出的树形列表中可以选择要使用的聚类算法,再此我们使用Simlkmeans,点击choose右边的方框,在弹出的对话框中设着聚类的相关参数。截图如下:步骤三4.点击start就可以开始进行聚类了步骤四聚类结果分析:步骤五Numberofinterations:2表明总共的迭代次数是2Clustercentroids:之后列出了各个簇中心的位置。对于数值型的属性,簇中心就是它的均值(Mean);分类型的就是它的众数(Mode),也就是说这个属性上取值为众数值的实例最多。对于数值型的属性,还给出了它在各个簇里的标准差(StdDevs)。ClusteredInstances:是各个簇中实例的数目及百分比。解释与分析可视化的聚类结果为了观察可视化的聚类结果,在左下方“Resultlist”列出的结果上右击,点“Visualizeclusterassignments”。弹出的窗口给出了各实例的散点图。可以看到如下图的可视化结果:通过本次作业,一方面,深入地了解了SimpleKMeans算法的基本原理、使用范围、不足等。另一方面,学习了Weka的用法。包括各种挖掘工具以及结果的含义。在完成本次作业的过程中,我对Weka的用法有了一个比较基本的了解,在这次用SimpleKMeans算法进行数据挖掘聚类分析的时候,通过聚类的结果更加明确了该算法的用途。后来,我又对另外一个Nominal的数据集进行了关联规则挖掘,发现了属性之间的关联。在完成本次大作业的过程中,我也遇到了许多的困难,碰到了许多的不明白的问题,但通过和同学之间的讨论以及搜索资料,最终,问题迎刃而解。通过完成这次大作业,培养了我独立学习和完成任务的能力,也激发了我对数据挖掘这一课程的学习兴趣。以后在课余时间,我仍会努力学习这一领域的知识。结论

1 / 14
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功