1.4-Clementine-软件基本操作

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1.4Clementine软件基本操作第一章数据挖掘概述1数据挖掘的一般流程及数据挖掘软件在数据挖掘过程中的地位Betterdataminingresults!InsightBusinessproblem?Whatyouknow数据挖掘方法论——项目顺利实施的保证•商业理解•数据理解•数据准备•建立模型•模型评估•模型发布2Clementine发展历程Clementine是ISL(IntegralSolutionsLimited)公司开发的数据挖掘工具平台1998年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点1998-20073Clementine面板流区域Streamcanvas菜单栏工具栏面板区pallete节点区node流、结果、模型管理区项目管理区数据挖掘要求的数据格式变量1变量2变量3记录1………………记录2………………记录3………………………………………………变量记录(行代表记录,列代表变量)4Clementine的界面和设计思路可视化界面四个区域分别是建模区、结点区、模型描述区、项目管理区通过连接结点构成数据流建立模型Clementine通过6类结点的连接完成数据挖掘工作,它们是:Source(源结点):Database、Var.Files等RecordOps(记录处理结点):Select、Sample等`FieldOps(字段处理结点):Type、Filter等Graphs(图形结点):Plot、Distribute等Modeling(模型结点):NeuralNet、C5.0等Output(输出结点):Table、Matrix等5Clementine操作基本知识鼠标应用三键与双键鼠标左键选择节点或图标置于建模区右键激活浮动菜单中键连接或断开两个节点帮助5Clementine操作基本知识节点的增加,以为例Click“Sources”,Click,Click“流区域”Click“Sources”,DoubleClickClick“Sources”,Dragto“流区域”节点的删除Click,DeleteRightClick,Click“Delete”节点的移动:Drag5Clementine操作基本知识节点的编辑DoubleClickRightClick,Click“Edit”节点的重命名和解释RightClick,Click“Edit”,Click“Annotations”DoubleClick,Click“Annotations”RightClick,Click“RenameandAnnotations”5Clementine操作基本知识构建流时节点的连接Highlight,AddtotheCanvasRightClick,Click“Connect”,ClickDragthemiddlemuttonfromto构建流时节点连接的删除RightClickor,Click“Disconnect”RightClick“Connection”,Click“DeleteConnection”DoubleClickor5Clementine操作基本知识流的执行Highlight“Stream”,ClickRightClick,Click“Execute”IntheEditWindowofthe,Click“Execute”流的保存帮助HelpMenuDialogueWindow6Clementine可读取的数据文件读取文本数据与查看数据7变量的类型根据数据的不同,可以把变量分为以下一些类型数值型变量定类变量例如:客户编号、性别、邮编等不能比较大小定序变量产品等级、信用级别、客户收入水平分类等可以比较大小、不能进行加减运算定距变量出生日期、温度等可以进行加减运算、不能进行乘除运算定比变量收入、长度等可以进行乘除运算7变量的类型进一步细分连续性变量(Range)例如:年龄离散型变量(Discrete)例如:人口数二分类型(Flag)例如:性别多分类型(Set)例如:职业定序型(OrderedSets)例如:学历、收入水平缺省型(Default)7变量的类型从存储角度可分为整数型(Interger)实数型(Real)字符串型(String)时间型(Time)日期型(Date)8各类变量尺度比较变量尺度描述例子可进行的运算定类定类变量是离散变量,为了反映一个事物区别于其他事物的特征。只能进行等于或者不等于的比较。邮编、客户编号、性别众数、列联相关、2检验定序定序变量是离散变量,可以比较大小。客户等级、信用级别、收入水平分类中位数、累计百分比、秩相关、游程检验定距定距变量是连续变量,可以比较大小,并且进行加减运算。日期、利润平均值、标准差、皮尔逊相关、t检验和F检验定比定比变量是连续变量,可以进行加减乘除各类运算。年龄、收入、长度几何平均数、比例指标9描述性统计量描述统计量(summarystatistic),也称汇总统计量或概括统计量用少量数字概括大量数据的技术离散变量的描述性统计频数累计频数频率累计频率(累计必须是定序变量)反映连续数据平均趋势的指标平均数算术平均数几何平均数截尾算术平均数:比较稳健有效地描述平均值中位数:(代表群体基本的趋势,集中的趋势)众数(多用于离散变量)四分位数(25%,50%,75%)百分位数反映连续数据离散趋势的指标极差(全距)range=max-min内距50%的差距内距又称四分位差、也称四分间距(inter-quartilerange),是指将各个变量值按大小顺序排列,然后将此数列分成四等份,所得第三个四分位上的值与第一个四分位上的值的差。方差:更适合离散趋势的描述(趋势放大)标准差变异系数:标准差/均值,值越大,则离散程度越大。平均数与标准差的应用切比雪夫定理在任何一个数据集中,至少有(1-1/z2)的数据项与平均数的距离在z个标准差之内,其中z是任意大于1的值。切比雪夫定理含义1.至少75%的数据项与平均数的距离在2个标准差之内;2.至少89%的数据项与平均数的距离在3个标准差之内;3.至少94%的数据项与平均数的距离在4个标准差之内。连续变量的经验法则正态分布是一种最常用的连续型分布关于正态分布的经验法则1.约68%的数据项与平均数的距离在1个标准差之内;2.约95%的数据项与平均数的距离在2个标准差之内;3.几乎全部数据项(99.97%)与平均数的距离在3个标准差之内。切比雪夫和经验法则的应用问题某单位有100个人,他们的平均身高是170cm,标准差为5cm,那么有多少人的身高是落在160cm-180cm这个区间里的呢?经验法则的应用根据切比雪夫定理,该单位至少有75%的人身高在160cm—180cm这个区间里根据正态分布经验法则,该单位大约有95%的人身高在160cm—180cm这个区间里10Clementine中的字段方向11Clementine中提供的模型概述DataMiningModelSupervisedModel(PredictiveModel)UnsupervisedModelDataReductionNeuralNetworksC5.0C&RT(CART)RegressionLogisticregressionKohonenK-meansTwo-StepPCA(PrincipalComponentAnalysis)FactorClusteringAPRIORIGRISequenceAssociations

1 / 28
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功