《数据挖掘实训》weka实验报告

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

《数据挖掘实训》课程论文(报告、案例分析)院系信息学院专业统计班级10级统计3班学生姓名李健学号2010210453任课教师刘洪伟2013年01月17日课程论文评分表各项满分评分标准学生得分评分标准一10有明确的研究背景和意义评分标准二30数据准确、有时效性,必须是最新的数据评分标准三40方法得当,有实证分析评分标准四10条理性和逻辑性强,内容阐述清晰、结论明确评分标准五10论文按规定的格式撰写,文章中引用的内容需用脚注注明来源评分标准六特别提醒文章出现大段抄袭或者两人之间内容雷同达到80%以上,均不能及格。论文按规定的时间上交,每推迟一天,扣减2分总分评阅人签字《数据挖掘实训》课程论文选题要求:根据公开发表统计数据,请结合数据挖掘理论与方法,撰写一篇与数据挖掘领域相关的论文。写作要求:(1)数据准确、有时效性,必须是最新的数据。(2)文章必须有相应的统计方法,这些统计方法包括以前专业课中学到的任何统计方法,如参数估计、假设检验、相关与回归、多元统计等等。(3)论文的内容必须是原创,有可靠的分析依据和明确的结论。(4)论文按照规定的格式化撰写;(5)字数不少于2000字。数据挖掘(WEKA软件)实验报告统计学专业学生李健学号2010210453关键词:数据挖掘;游玩;因素;WEKA本次实验指在熟练的运用软件weka进行数据处理,其中包括数据准备,关联规则等同时了解weka的基本用法。一、软件介绍1简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。WEKA的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),是由新西兰怀卡托(Waikato)大学开发的机器学习软件,纯Java技术实现的开源软件,遵循于GNUGeneralPublicLicense,跨平台运行,集合了大量能承担数据挖掘任务的机器学习算法,分类器实现了常用ZeroR算法、Id3算法、J4.8算法等40多个算法,聚类器实现了EM算法、SimpleKMeans算法和Cobweb算法3种算法,能对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。2oo5年8月,在第11届ACMSIGKDD国际会议上,怀卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的最高服务奖,WEKA系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一。WEKA使用的是一种叫做arff(Attribute—RelationFileFormat)的数据文件结构。这种arff文件是普通的ASCII文本文件,内部结构很简单,主要是测试算法使用的轻量级的数据文件结构。arff文件可以自己建立,也可通过JDBC从Oracle和Mysql等流行数据库中获得。整个arf文件可以分为两个部分。第一部分给出了头信息(Headinformation),包括关系声明(RelationDeclaration)和属性声明(AttributeDeclarations)。第二部分给出了数据信息(Datainformation),即数据集中给出的数据。关系声明的定义格式为:@relationrelation—name;属性声明的定义格式为:@attributeattribute—namedatatype;数据信息的定义格式为独占一行的@data,后面跟着的就是数据信息。2.安装Weka的官方地址是。点开左侧download栏,可以进入下载页面,里面有windows,macos,linux等平台下的版本,我们以windows系统作为示例。目前稳定的版本是3.6。如果本机没有安装java,可以选择带有jre的版本。下载后是一个exe的可执行文件,双击进行安装即可。安装完毕,打开启动weka的快捷方式,如果可以看到下面的界面,那么恭喜,安装成功了。共有4个应用,分别是1)Explorer用来进行数据实验、挖掘的环境,它提供了分类,聚类,关联规则,特征选择,数据可视化的功能。(AnenvironmentforexploringdatawithWEKA)2)Experimentor用来进行实验,对不同学习方案进行数据测试的环境。(Anenvironmentforperformingexperimentsandconductingstatisticaltestsbetweenlearningschemes.)3)KnowledgeFlow功能和Explorer差不多,不过提供的接口不同,用户可以使用拖拽的方式去建立实验方案。另外,它支持增量学习。(ThisenvironmentsupportsessentiallythesamefunctionsastheExplorerbutwithadrag-and-dropinterface.Oneadvantageisthatitsupportsincrementallearning.)4)SimpleCLI简单的命令行界面。(Providesasimplecommand-lineinterfacethatallowsdirectexecutionofWEKAcommandsforoperatingsystemsthatdonotprovidetheirowncommandlineinterface.)二、实验内容1.选用数据文件为:small_dataset中的weather.arff数据文件2.在WEKA中点击explorer打开文件weather.arff3.对数据整理分析4.将数据分类:单机classify——在testoptions中选择第一项(Usetrainingset)——点击classifier下面的choose按钮选择trees中的J48由上图可知该树有5个叶子是否出去游玩由天气晴朗(sunny)、天气预报(overcast)以及阴雨天(rainy)因素决定5.关联规则我们打算对前面的“bank-data”数据作关联规则的分析。用“Explorer”打开“bank-data-final.arff”后,切换到“Associate”选项卡。默认关联规则分析是用Apriori算法,我们就用这个算法,但是点“Choose”右边的文本框修改默认的参数,弹出的窗口中点“More”可以看到各参数的说明。7.切换到“Associate”选项卡。默认关联规则分析是用Apriori算法,我们就用这个算法1),将经过离散化的数据存入subsetexample1.arff2),点击“Choose”旁边的文本框会弹出新窗口以修改离散化的参数。3),现在我们计划挖掘出支持度在10%到100%之间,并且lift值超过1.5且lift值排在前100位的那些关联规则。numRules”设为100,metrictype由confidence改为lift。其他选项保持默认即可。点击start输出100个数据Bestrulesfound:1.humidity=80.5_max7==play=no4conf:(0.57)lift:(1.6)lev:(0.11)[1]conv:(1.13)2.play=no5==humidity=80.5_max4conf:(0.8)lift:(1.6)lev:(0.11)[1]conv:(1.25)3.outlook=overcast4==play=yes4conf:(1)lift:(1.56)lev:(0.1)[1]conv:(1.43)4.play=yes9==outlook=overcast4conf:(0.44)lift:(1.56)lev:(0.1)[1]conv:(1.07)5.humidity=0_80.5windy=FALSE4==play=yes4conf:(1)lift:(1.56)lev:(0.1)[1]conv:(1.43)6.play=yes9==humidity=0_80.5windy=FALSE4conf:(0.44)lift:(1.56)lev:(0.1)[1]conv:(1.07)7.outlook=rainy5==temperature=0_74.54conf:(0.8)lift:(1.4)lev:(0.08)[1]conv:(1.07)8.temperature=0_74.58==outlook=rainy4conf:(0.5)lift:(1.4)lev:(0.08)[1]conv:(1.03)9.humidity=0_80.57==play=yes6conf:(0.86)lift:(1.33)lev:(0.11)[1]conv:(1.25)10.play=yes9==humidity=0_80.56conf:(0.67)lift:(1.33)lev:(0.11)[1]conv:(1.13)三、总结:通过实践周的学习,我们不仅继续学习了R还学习了Weka软件的应用。使我重新学习了一下数据挖掘的相关概念、知识和软件的应用,理解了数据挖掘的用途和使用步骤。在此过程中学会了运用各个模块的分析方法。通过本次实训操作,也认识到了数据挖掘对大量的数据进行探索后,能揭示出其中隐藏着的规律性内容,并且由此进一步形成模型化的分析方法。可以建立整体或某个业务过程局部的不同类型的模型,可以描述发展的现状和规律性,而且可以用来预测当条件变化后可能发生的状况。经过这一系列的系统学习,我们不仅能研究有关花种问题,同时更能处理好其他相关类问题的研究。参考文献[1]数据挖掘教程[2]韩家炜.数据挖掘概念与技术:机械工业出版社,2012

1 / 12
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功