基于clementine的数据挖掘实验指导目录clementine决策树分类模型.........................................2一.基于决策树模型进行分类的基本原理概念...................................................................2二.范例说明............................................................................................................................2三.数据集说明........................................................................................................................3四.训练模型............................................................................................................................3五.测试模型............................................................................................................................7clementine线性回归模型.........................................10一.回归分析的基本原理.....................................................................................................10二.范例说明.........................................................................................................................10三.数据集说明.....................................................................................................................10四.训练模型.........................................................................................................................10五.测试模型.........................................................................................................................15Clementine聚类分析模型..........................................18一.聚类分析的基本原理......................................................................................................18二.范例说明..........................................................................................................................18三.数据集说明......................................................................................................................18四.建立聚类模型..................................................................................................................19Clementine关联规则模型..........................................24一.关联规则的基本原理.....................................................................................................24二.范例说明.........................................................................................................................24三.数据集说明.....................................................................................................................25四.关联规则模型.................................................................................................................25clementine决策树分类模型一.基于决策树模型进行分类的基本原理概念分类就是:分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型。由此生成的类描述用来对未来的测试数据进行分类。数据分类是一个两步过程:第一步,建立一个模型,描述预定的数据类集或概念集;第二步,使用模型进行分类。clementine8.1中提供的回归方法有两种:C5.0(C5.0决策树)和NeuralNet(神经网络)。下面的例子主要基于C5.0决策树生成算法进行分类。C5.0算法最早(20世纪50年代)的算法是亨特CLS(ConceptLearningSystem)提出,后经发展由JRQuinlan在1979年提出了著名的ID3算法,主要针对离散型属性数据;C4.5是ID3后来的改进算法,它在ID3基础上增加了:对连续属性的离散化;C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。优点:在面对数据遗漏和输入字段很多的问题时非常稳健;通常不需要很长的训练次数进行估计;比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;也提供强大的增强技术以提高分类的精度。二.范例说明该范例的背景是客户详细的个人投资计划作为一种市场营销活动的结果,snapshottrainN.db(训练数据)描述的是不同age(年龄),不同sex(性别),不同region(地域),不同income(收入),不同married(婚姻),等等的数据,通过分类算法对训练数据进行建模得到决策树模型,通过得到的决策树模型来判断测试数据集(snapshottestN.db)里面的每个记录的pep(个人投资计划)属性是yes还是no。使用clementine建立流程图,如图1所示:图1总流程图三.数据集说明数据集snapshottrainN.db,以下是该数据集的所有字段名:•id.唯一的识别号•age.年龄•sex.性别•region.地理位置•income.收入•merried.是否已婚•children.有几个孩子•car.是否有汽车•save_act.是否有储蓄账户•current_act.是否有活期存款•mortgage.是否有抵押•pep.是否有个人投资计划四.训练模型通过下面的操作,将完成如图2所示的流。图2训练模型(1)导入数据及预处理插入一个变项文件节点(Source\Var.File),双击该节点,在File框输入snapshottrainN.db的物理路径,如图3所示:图3输入节点(2)变量类型的定义及实例化:在建模之前,我们首先将一个类型节点TypeNode加到目前的流程中。点击ReadValues以读取数据。因为需要用年龄,性别,地区,收入等等为引数来估计个人投资计划,所以将id的Direction设为“None”,将pep设为“Out”,其他字段设为“In”。如图4所示:图4Type节点(3)查看数据源通过一个Table节点(Output\Table)与源数据连接,Excute(执行)Table结点即可,如图5所示:图5Table节点(4)用C5.0算法建立决策树模型建立一个C5.0结点(Modeling\C5.0)与Type节点相连,如图6所示::图6建模过程双击C5.0结点可对其进行编辑,这里取其Modelname为默认值“Auto”(进入法),其他选项也不做修改,Excute(执行)该节点,如图7所示:图7建模过程参数选择(5)模型结果分析执行C5.0结点即可得到判断pep取值的决策树模型,如图8所示:图8查看模型右键单击模型,单击Browse查看模型结果,如图9所示:图9模型结果将模型图标与Type节点相连,再添加一个“分析”节点,执行Analysis节点显示预测值和真实值的匹配程度如何的信息,如图10所示:图10模型好坏分析五.测试模型现有新的数据snapshottestN.db,将建好的分类模型(pep)加入到流程中,并利用Analysis节点分析结果,如图11所示:图11测试模型(1)导入数据及预处理与上面的方法相同,建立变项文件节点,选取源数据snapshottestN.db,如图12所示:图12输入节点预处理数据,与训练模型操作相同,如图13所示:图13测试数据筛选(2)查看数据源通过一个Table节点(Output\Table)与源数据连接,Excute(执行)Table结点即可,如图14所示:图14查看测试数据(3)连接模型将得到的回归模型加入到Type节点,如图15所示:图15连接模型双击C5.0结点可对其进行编辑,这里取其Modelname为默认值“Auto”(进入法),其他选项也不做修改,Excute(执行)该节点,如图16所示:图16测试模型参数选择(6)分析模型将模型图标与Type节点相连,再添加一个“分析”节点,执行Analysis节点显示预测值和真实值的匹配程度如何的信息,如图17所示:图17测试模型的分析结果clementine线性回归模型一.回归分析的基本原理所谓回归分析法,就是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量间的回归关系函数表达式,也称为回归方程,而其中最简单最基础的回归分析法就是线性回归分析。clementine8.1中提供的回归方法有两种:Regression和Logistic,其中clementine8.1中的Regression算法就是指线性回归模型。下面的例子主要基于线性回归算法Regression算法,其主要思路如下.回归节点用于生成线性回归模型。这种模型可根据输入字段估计出用于预测输出字段的最佳拟合线性方程。回归方程表示将预测输出值与实际输出值之间的平方差最小化的直线或平面。这是用于数据汇总和进行预测的十分常见的统计技术。要求:只有数值型字段可用于回归模型。必须只有一个“Out”字段和一个以上的“In”字段。字段方向为“Both”或者“None”的字段将被忽略,同样被忽略的还有非数值型字段。优点:回归模型相对简单,并为生成