Rapidminer教程Rapidminer简介•rapidminer中的功能均是通过连接各类算子(operataor)形成流程(process)来实现的,整个流程可以看做是工厂车间的生产线,输入原始数据,输入出模型结果。算子可以看做是执行某种具体功能的函数,不同算子有不同的输入输出特性。界面介绍界面介绍建模的一般流程•新建一个库(Repository)•选择需要的算子(operator)放入主流程(mainprocess)中•设置算子相关参数(parameter)•进行算子连接•执行流程以得到结果第一步:导入数据(方法一)•导入数据有两种方法,一种是通过工具栏选择import数据集,一种方法是通过算子载入数据集导入数据导入数据导入数据导入数据插入:数据类型•数据类型转换,数据大致上可分为数值(numerical)、两类(Binomial)、多类(Polynomial)数据,有时候希望相互转换,这就要用到TypeConversion类的算子来处理。导入数据导入数据(方法二)•第二种方法通过read算子载入CSV文件,导入数据集,连通后,运行,可以在结果中看到数据。这种方法导入的数据可以随时更改数据类型和数据种类。导入数据两种方法的对比•第一种方法导入数据后,数据的类型和数量不能再更改,只能通过增加operator(算子)的方法来更改数据类型。•第二种方法可以在导入数据后,再次更改数据类型和数量。相对来说第二种方法可能更好。两种方法的对比•但是,第二种方法我们一直未能顺利导入数据,虽然导入的结果显示是成功的,却一直无法获得值,始终显示为unknown。第二步:选择算子•把刚才导入的数据拖入主流程工作区,拖入后,它会以一个方箱形式呈现,不同的颜色暗示着不同的函数功能。•箱体左侧是输入接口,对应着输入类型的缩写。•右侧对应输出接口和相应缩写。•左下角会有三种颜色的状态灯,红灯表示关于该算子的设置错误,黄灯表示设置正常但还未进行过执行操作,绿灯表示设置正常且已经进行过执行操作。选择算子•因为数据很多,在此对数据的量进行筛选,在operator中选择sample算子进行筛选,可以应用搜索的功能直接搜索。设置算子相关参数•界面右侧的parameters选项卡中可以设置算子的具体参数,在此举例选择了100个数据。选择算子算子右侧选择不同的输出可以选择不同的数据源,sample为例,exa为进行参数设置后的新数据(下图),ori为原来的数据,每个算子都可以有多种数据源的选择第三步:连接算子•接下来将神经网络的算子也拖入流程工作区,进行具体的参数设置,将每个算子链接起来就可以了。如果能通过就会变成绿色。要选择mod模式,exa模式获得的是表格。在XML选项卡中,可以看到相对应的代码。连接算子运行得到结果•不同的算子,显示的结果可以有多种不同的显示方式,以神经网络为例,显示的方式有以下三种。运行得到结果•相较于第一种图形的显示方式,第二种显示方式类似于将数据用数字更直观的方式显示出来。结果的保存•在context选项卡,processoutput中,可以在location中选择数据存放的地点。结果的保存外部测试集评估模型•在建模时,我们通常会将样本数据分为两个部分,一半做为训练样本,另一半做为检验样本将数据分为两个等份,一部分数据连接到神经网络用于建模,另一部分连接到applymodel算子用于模型检验。交叉检验•以十重交叉检验为例,也就是将全部数据随机地分为等量的十份,选择其中的9份作为训练数据,剩下1份作为检测数据来评价模型。然后更换其中的1份数据,重复实验。这样得到10组不同的评价指标,最后综合评判模型的表现。在rapidminer中需要用X-Validation算子来实现这一功能。交叉检验Valadition可以双击点开,继续编辑里面Rapidminer与clementine对比•在此对比的为两个软件在相同数据上的时间性和正确性的对比。•在rapidminer中我们选择了与clementine相同的福特公司数据集,过滤TrialId,ObsNum,P8,V7,V9五个字段,数据量为30000左右。神经网络&SVM•神经网络•SVM11号晚上发现两个软件在数据上有很大的相差,神经网络和SVM在clementine中的数据量rapidminer无法跑出来,30000条数据跑了15+min依然没有响应,clementine只需要几分钟,6000条数据还要跑2min左右。只有决策树能跑出来,只对比决策树。决策树•流程图•Rapidminer运行时间:2min30s•Clementine运行时间:21s决策树•运行结果过于庞大,以下是缩略图决策树•评估•时间决策树•rapidminer正确性:•Clementine正确性:Rapidminer三种算法对比•流程图举例:三种模型看起来基本相同,只有选择的模型不同。选用的数据按照0.01取,相当于6043条数据。Rapidminer三种算法对比•决策树•神经网络•SVM结论•Rapidminer中三个算法相互对比,神经网络的准确度更高•Rapidminer与clementine相比,速度慢很多,需要更高的电脑配置才可以。两个软件得到的结果,有一定的差异性。我们还没有发现快速挖的优点。•Rapidminer可能与电脑性能有很大的关系,8G内存的电脑跑6000条数据只要28s心得•这个软件没有自带详细的教程和使用说明,我们在此提出强烈的谴责和抗议,不自带教程的软件都不是好软件!!•端午节期间大家都回家了,没有办法在一起跑数据,相互对比,白天忙于应酬各种亲戚,奔波于酒桌与饭桌之间,傍晚忙于应酬各种朋友,奔波于KTV烧烤摊之间,桌上吃饭聊天,桌下手机刷QQ彼此交流今天的进度并提出自己需要的数据结果,但每天还坚持半夜回去上网,给出组员互相需要的数据结果,互相合并整理文档,不得不说团结就是力量。