Weka平台使用方法 关联+分聚类

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

目录1第一章.....................................................................................................................................................................................11.1知识获取平台—Weka简介..........................................................................................................................................11.2第二节Weka中的数据准备...........................................................................................................................................41.3第三节Weka运行演示...................................................................................................................................................62第二章关联规则(购物篮分析).........................................................................................................................................102.1第一节关联规则与相关概念.......................................................................................................................................102.2第二节关联规则基本模型...........................................................................................................................................112.3第三节关联挖掘...........................................................................................................................................................123.第三章聚类方法....................................................................................................................................................................153.1第一节聚类分析方法...................................................................................................................................................153.2聚类分析中的数据类型及数据结构............................................................................................................................153.3聚类分析中孤立点........................................................................................................................................................163.4聚类算法的分析............................................................................................................................................................174.第四章分类与回归................................................................................................................................................................204.1选择算法........................................................................................................................................................................204.2建模结果........................................................................................................................................................................224.3模型应用........................................................................................................................................................................234.4使用命令行(推荐)....................................................................................................................................................24第一节通过分类挖掘进行信息获取.................................................................................................................................26第二节贝叶斯分类方法简介.............................................................................................................................................27第三节在Weka中使用贝叶斯算法对bank-data建立分类模型.....................................................................................281第一章1.1知识获取平台—Weka简介◆Weka简介Weka是由新西兰怀卡托大学开发的智能分析系统(WaikatoEnvironmentforKnowledgeAnalysis)。在怀卡托大学以外的地方,Weka通常按谐音念成Mecca,是一种现今仅存活于新西兰岛的,健壮的棕色鸟,非常害羞,好奇心很强,但不会飞。Weka是用Java写成的,它可以运行于几乎所有的操作平台,包括Linux,Windows等操作系统。Weka平台提供一个统一界面,汇集了当今最经典的机器学习算法及数据预处理工具。做为知识获取的完整系统,包括了数据输入、预处理、知识获取、模式评估等环节,以及对数据及学习结果的可视化操作。并且可以通过对不同的学习方法所得出的结果进行比较,找出解决当前问题的最佳算法。2005年8月,在第11届ACMSIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。◆Weka平台在哪里下载?如何安装?用户可到上下载与具体操作系统相匹配的安装文件,然后在已安装了Java的机器上以通常的方式运行weka3.5.5.exe。用户名:liulizhen口令:2001123◆Weka包含了什么?Weka提供了许多用于数据可视化及预处理的工具(也称作过滤器),包括种类繁多的用于数据集转换的工具等。所有机器学习算法对输入数据都要求其采用ARFF格式。Weka作为一个公开的知识过去的工作平台,集合了大量能承担数据(知识)挖掘任务的机器学习算法,包括分类,回归、聚类、关联规则等。如果想实现自己提出或改进的数据挖掘算法,可以根据Weka的接口文档,在Weka中集成自己的算法。◆Weka的使用方法一、是将一种学习方法应用于一个数据集,然后分析其输出,从而更多地了解这些数据(分析数据集的潜在知识)。二、是使用已学习到的模型对新的实例做出分类预测三、是应用几种不同的学习器,再根据它们的性能表现选择其中一种用来做预测。在Weka中将学习方法又称作分类器或学习器,用户可在Weka互动式界面的菜单中选择一种想要的分类器。许多分类器带有可调节的参数,这些参数可通过属性列表或对象编辑器进行更改。所有学习器的性能都是通过一个共同的评估模块进行衡量。与选择学习器一样,用户也要从菜单中选择能满足或对应该学习器的过滤器(进行数据预处理)。不同的过滤器具有不同的参数。Weka与许多数据分析软件一样,Weka所处理的数据集是一个二维的表格这里我们要介绍一下Weka中的术语。表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。竖行称作一个属性(Attrbute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格叫做数据集,在Weka看来,呈现了属性之间的一种关系(Relation)。图中一共有14个实例,5个属性,关系名称为“weather”。Weka存储数据的格式是ARFF(Attribute-RelationFileFormat)文件,这是一种ASCII文本文件。图1所示的二维表格存储在如下的ARFF文件中。这也就是Weka自带的“weather.arff”文件,在Weka安装目录的“data”子目录下可以找到。简单说明在第三列数据85908696...是相应的“humidity”值。其次,最后一个声明的属性被称作class属性,在分类或回归任务中,它是默认的目标变量。\都是以字母开头的字符串

1 / 32
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功