Clementine数据挖掘快速上手

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

dClementineClementineClementineClementine数据挖掘快速上手数据挖掘快速上手数据挖掘快速上手数据挖掘快速上手Version1.0Version1.0Version1.0Version1.0PreparedPreparedPreparedPreparedbybybyby高处不胜寒高处不胜寒高处不胜寒高处不胜寒QQQQQQQQ群:群:群:群:140944151409441514094415140944152009-10-152009-10-152009-10-152009-10-15一、Clementine数据挖掘的基本思想数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,它是一种深层次的数据分析方法。随着科技的发展,数据挖掘不再只依赖在线分析等传统的分析方法。它结合了人工智能(AI)和统计分析的长处,利用人工智能技术和统计的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。Clementine为我们提供了大量的人工智能、统计分析的模型(神经网络,关联分析,聚类分析、因子分析等),并用基于图形化的界面为我们认识、了解、熟悉这个软件提供了方便。除了这些Clementine还拥有优良的数据挖掘设计思想,正是因为有了这个工作思想,我们每一步的工作也变得很清晰。(如图一所示)CRICRICRICRISSSSP-DMP-DMP-DMP-DMpppprrrrocessocessocessocessmomomomoddddeeeellll如图可知,CRISP-DMModel包含了六个步骤,并用箭头指示了步骤间的执行顺序。这些顺序并不严格,用户可以根据实际的需要反向执行某个步骤,也可以跳过某些步骤不予执行。通过对这些步骤的执行,我们也涵盖了数据挖掘的关键部分。商业理解((((BBBBuuuussssiiiinnnneeeessssssssununununderderderderssssttttaaaandndndndiiiinnnngggg)))):商业理解阶段应算是数据挖掘中最重要的一个部分,在这个阶段里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。数据理解((((DDDDaaaattttaaaaundundundundererererstandingstandingstandingstanding)))):数据是我们挖掘过程的“原材料”,在数据理解过程中我们要知道都有些什么数据,这些数据的特征是什么,可以通过对数据的描述性分析得到数据的特点。数据准备((((DDDDaaaatttteeeepppprrrreeeeppppaaaarrrratatatationionionion)))):在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工作。选出要进行分析的数据,并对不符合模型输入要求的数据进行规范化操作。建模((((MoMoMoModdddeeeelinlinlinlingggg)))):建模过程也是数据挖掘中一个比较重要的过程。我们需要根据分析目的选出适合的模型工具,通过样本建立模型并对模型进行评估。模型评估((((EEEEvvvvaluataluataluataluatiiiionononon)))):并不是每一次建模都能与我们的目的吻合,评价阶段旨在对建模结果进行评估,对效果较差的结果我们需要分析原因,有时还需要返回前面的步骤对挖掘过程重新定义。结果部署((((DeploymentDeploymentDeploymentDeployment)))):这个阶段是用建立的模型去解决实际中遇到的问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。d二、Clementine的基本操作方法1.操作界面的介绍ClClClClemeemeemeemennnnttttiiiinnnneeee操作界面1111....1111数据流程区Clementine在进行数据挖掘时是基于数据流程形式,从读入数据到最后的结果显示都是由流程图的形式显示在数据流程区内。数据的流向通过箭头表示,每一个结点都定义了对数据的不同操作,将各种操作组合在一起便形成了一条通向目标的路径。数据流程区是整个操作界面中最大的部分,整个建模过程以及对模型的操作都将在这个区域内执行。我们可以通过文件(File)-新建流(newstream)新建一个空白的数据流,也可以打开已有的数据流。所有在一个运行期内打开的数据流都将保存在管理器的Stream栏下。1111....2222选项面板选项面板横跨于Clementine操作界面的下部,它被分为收藏夹(Favorites)、数据源(Sources)、记录选项(RecordOps)、字段选项(FieldsOps)、图形(Graphs)、建模(Modeling)、输出(Output)、导出八个栏,其中每个栏目包含了具有相关功能的结点。结点是数据流的基本组成部分,每一个结点拥有不同的数据处理功能。设置不同的栏是为了将不同功能的结点分组,下面我们介绍各个栏的作用。数据源(Sources):该栏包含了能读入数据到Clementine的结点。例如Var.File结点读取自由格式的文本文件到Clementine,SPSSFile读取spss文件到Clementine。记录选项(RecordOps):该栏包含的结点能对数据记录进行操作。例如筛选出满足条件的记录(select)、将来自不同数据源的数据合并在一起(merge)、向数据文件中添加记录(append)等。字段选项(FieldOps):该栏包含了能对字段进行操作的结点。例如过滤字段(filter)能让被过滤的字段不作为模型的输入、导出(derive)结点能根据用户定义生成新的字段,同时我们还可以定义字段的数据格式。图形((((GrapGrapGrapGraphhhhssss)))):该栏包含了众多的图形结点,这些结点用于在建模前或建模后将数据由图形形式输出。建模((((ModelingModelingModelingModeling)))):该栏包含了各种已封装好的模型,例如神经网络(NeuralNet)、决策树(C5.0)等。这些模型能完成预测(NeuralNet,Regression,Logistic)、分类(C5.0,C&RTree,Kohonen,K-means,Twostep)、关联分析(Apriori,GRI,Sequece)等功能。输出((((OOOOuuuutptptptputututut)))):该栏提供了许多能输出数据、模型结果的结点,用户不仅可以直接在Clementine中查看输出结果,也可以输出到其他应用程序中查看,例如SPSS和Excel。收藏夹((((FaFaFaFavvvvoriteoriteoriteoritessss)))):该栏放置了用户经常使用的结点,方便用户操作。用户可以自定义其Favorites栏,操作方法为:选中菜单栏的工具(Tools),在下拉菜单中选择收藏夹(Favorites),在弹出的PaletteManager中选中要放入Favorites栏中的结点。1111....3333管理器管理器中共包含了流(Streams)、输出(Outputs)、模型(Models)三个栏。其中流(Streams)中放置了运行期内打开的所有数据流,可以通过右键单击数据流名对数据流进行保存、设置属性等操作。输出(Outputs)中包含了运行数据流时所有的输出结果,可以通过双击结果名查看输出的结果。模型(Models)中包含了模型的运行结果,我们可以右键单击该模型从弹出的浏览(Browse)中查看模型结果,也可以将模型结果加入数据流中。1111....4444项目窗口的介绍项目窗口含有两个选项栏,一个是CRISP-DM,一个是类(Classes)。CRISP-DM的设置是基于CRISP-DMModel的思想,它方便用户存放在挖掘各个阶段形成的文件。由右键单击阶段名,可以选择生成该阶段要拥有的文件,也可以打开已存在的文件将其放入该阶段。这样做的好处是使用户对数据挖掘过程一目了然,也有利于对它进行修改。类(Classes)窗口具有同CRISP-DM窗口相似的作用,它的分类不是基于挖掘的各个过程,而是基于存储的文件类型。例如数据流文件、结点文件、图表文件等。2、数据流基本操作的介绍2222....1111生成数据流的基本过程数据流是由一系列的结点组成,当数据通过每个结点时,结点对它进行定义好的操作。我们在建立数据流是通常遵循以下四步:①、向数据流程区增添新的结点;②、将这些结点连接到数据流中;③、设定数据结点或数据流的功能;④、运行数据流。2222....2222向数据流程区添////删结点当向数据流程区添加新的结点时,我们有下面三种方法遵循:①、双击结点面板中待添加的结点;②、左键按住待添加结点,将其拖到数据流程区内;③、选中结点面板中待添加的结点,将鼠标放入数据流程区,在鼠标变为十字形时单击数据流程区。通过上面三种方法我们都将发现选中的结点出现在了数据流程区内。当我们不再需要数据流程区内的某个结点时,可以通过以下两种方法来删除:①左键单击待删除的结点,用删除(delete);②右键单击待删除的结点,在出现的菜单中选择删除(delete)。2222....3333将结点连接到数据流中上面我们介绍了将结点添加到数据流程区的方法,然而要使结点真正发挥作用,我们需要把结点连接到数据流中。以下有三种可将结点连接到数据流中的方法:①、双击结点左键选中数据流中要连接新结点的结点(起始结点),双击结点面板中要连接入数据流的结点(目标结点),这样便将数据流中的结点与新结点相连接了;图六双击目标结点以加入数据流②、通过鼠标滑轮连接在工作区内选择两个待连接的结点,用左键选中连接的起始结点,按住鼠标滑轮将其拖曳到目标结点放开,连接便自动生成。(如果鼠标没有滑轮也选用alt键代替)由滑轮连接两结点③、手动连接右键单击待连接的起始结点,从弹出的菜单栏中选择连接(Connect)。选中连接(Connect)后鼠标和起始结点都出现了连接的标记,用鼠标单击数据流程区内要连接的目标结点,连接便生成。图八选择菜单栏中的连接ccccononononnnnnecececectttt图九点击要连入的结点注意:①、第一种连接方法是将选项面板中的结点与数据流相连接,后两种方法是将已在数据流程区中的结点加入到数据流中②、数据读取结点(如SPSSFile)不能有前向结点,即在连接时它只能作为起始结点而不能作为目标结点。2222....4444绕过数据流中的结点当我们暂时不需要数据流中的某个结点时我们可以绕过该结点。在绕过它时,如果该结点既有输入结点又有输出结点那么它的输入节点和输出结点便直接相连;如果该结点没有输出结点,那么绕过该结点时与这个结点相连的所有连接便被取消。方法:用鼠标滑轮双击需要绕过的结点或者选择按住alt键,通过用鼠标左键双击该结点来完成。2222....5555将结点加入已存在的连中当我们需要在两个已连接的结点中再加入一个结点时,我们可以采用这种方法将原来的连接变成两个新的连接。方法:用鼠标滑轮单击欲插入新结点的两结点间的连线,按住它并把他拖到新结点时放手,新的连接便生成。(在鼠标没有滑轮时亦可用alt键代替)2222....6666删除连接当某个连接不再需要时,我们可以通过以下三种方法将它删除:①、选择待删除的连接,单击右键,从弹出菜单中选择DeleteConnection;②、选择待删除连接的结点,按F3键,删除了所有连接到该结点上的连接;③、选择待删除连接的结点,从主菜单中选择断开连接(EditNodeDisconnect)。2222....7777数据流的执行数据流结构构建好后要通过执行数据流数据才能从读入开始流向各个数据结点。执行数

1 / 27
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功