数据挖掘软件Clementine介绍

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘软件CLEMENTINE介绍Clementine产品介绍Clementine是ISL(IntegralSolutionsLimited)公司开发的数据挖掘工具平台。1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。Clementine中的DataMining的方法•Classification•Clustering•Estimation•Prediction•MarketBasketAnalysis•Description预测和分类推估类似,不同在于是预測未來,將新资料带入既有资料建立的模型预见結果銀行新申请信用卡的客戶要給多少额度估计和分类的不同在於目标变量为连续值,常和分类配合用分类判断为会贷款客户后再推估会贷款的金額聚类非监督式,未知有几类,将性质类似的资料加以区分,把顾客资料分群对不同群体采用不同推销手法购物篮分析找出哪些事件会一起发生超級市场发現男性客戶会一起购买啤酒跟尿布描述增进对于资料的认识,图形视觉化呈现,或规則、决策树等相关技术神经网络决策树(C5.0C&RT)Logistic回归等等相关技术K-Means两步骤Kohonen等等相关技术分类跟估计的所有方法相关技术AprioriGRI等等相关技术决策树规则各类图表等等分类目标变量(因变量、反应变量数)为类別的狀況信用卡公司將既有资料分为「伪卡」「非伪卡」找出伪卡的模式数据挖掘应用----业务建摸Debt10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome$40KQQQQII123456factor1factor2factorn神经网络NeuralNetworks聚类分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis决策树DecisionTrees•倾向性分析•客户保留•客户生命周期管理•目标市场•价格弹性分析•客户细分•市场细分•倾向性分析•客户保留•目标市场•欺诈检测关联分析Association•市场组合分析•套装产品分析•目录设计•交叉销售Clementine面板Clementine的使用•1打开一个流文件•2执行流文件中的某一流程•3得到结果•4浏览结果1•4浏览结果2•5浏览结果3Clementine流文件的建立•1读取数据文件1在节点区,双击文件读入节点,在流区出现其图标再在流工作区,双击文件读入节点,读入所需数据文件。•读取数据文件2•对数据进行处理12456去掉两个变量Na、K3增加新变量:Na_to_K=Na/K•定义变量的方向在节点区双击Type节点,使之在流区中出现把Drug的Direction从in(输入)改为out(输出)•作分类处理•保存流文件读取文本数据与查看数据•Clementine可以读入的数据文件文本格式数据SPSS/SAS数据Excel,Access,dBase,Foxpro,Oracle,SQLServer,DB2等数据库用户输入数据文件读入节点:读取文本数据与查看数据•查看数据1点击Data和Types,出现数据的属性•查看数据2点击Table,使之出现在流工作区,再点击Execute(执行),得到右面图表:Clementine中的字段类离散型二分eg:sex:m/f多分eg:等级:好/中/差􀂃离散eg:连续型整数实数日期、时间其它数据理解之数据质量•缺失值的检查:quality节点点击Quality节点,使之出现在工作区,再执行Quality,出现数据质量表,从中可以看出,数据100%有效,一共有200个有效数据。•Distribution节点----初步理解字符型字段的分布1234简单数据整理•Derive节点介绍2增加新变量:Na_to_K=Na/K根据原有字段值生成新字段值•Filter节点介绍对某些字段进行重命名或丢弃某些无意义的字段去掉两个变量Na、K数据理解之数据间简单关系•Web节点----研究字符型字段间关系1•Web节点----研究字符型字段间关系2执行后,得到字符间的网状连系,其中粗线条,表示字符之间的强联系。•Statistics节点----研究连续型字段间线性相关关系得到Na_to_K的统计属性,及它与Age的线性关系•2规则归纳模型规则归纳模型c5.0•3crt决策树•4kohonen聚类•5k--means聚类•6twostep聚类•7apriori关联规则模型

1 / 34
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功