SPSS数据挖掘工具——Clementine介绍

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

SPSS数据挖掘工具——Clementine介绍钟云飞Email:peter@spssbj.com.cnTel:82515131-804议程讨论什么是数据挖掘数据挖掘方法论Clementine的技术特性什么是数据挖掘?数据挖掘是从大量数据中发现未知并且有价值的规则和模式的过程什么是数据挖掘?数据挖掘不是:分析方法和模型的盲目应用大量数据堆积而成的无价值规律数据挖掘是:是以用户和业务为中心的,充分利用分析模型技术和计算机的强大功能的交互过程可以从大量数据中发现有价值的规律,没有数据挖掘这些是无法想象的什么是数据挖掘?数据挖掘可以从很多方面提高效率、降低成本或改善服务更好的过程控制质量提高需求计划…………销售生产产品设计数据挖掘药物发现产品计划产品设计产品排列需求驱动的库存控制客户关系管理…………数据挖掘的商业思路更好的数据挖掘结果!知识商业问题?行业经验数据挖掘的技术思路?商业问题数据挖掘问题!商业问题解决方案数据挖掘问题类型分类——商业角度电信行业:流失、交叉销售、欠费模式发现、客户分群、客户价值评估……金融行业:贷款偿还预测、客户信用政策分析、客户分群、金融犯罪的发现……零售业:促销活动有效性分析、顾客忠诚度分析、购买推荐……政府行业:欺诈发现……电子商务:网络日志分析……………………………………返回数据挖掘问题类型分类——技术角度数据描述和汇总(Datadescriptionandsumarization)细分(Segmentation)概念描述(Conceptdescriptions)分类(Classification)预测(Prediction)相关分析(Dependencyanalysis)返回一个演示—客户价值评估——数据挖掘更多的时候是一种理念,而不是表现在复杂的方法商业问题:微软公司提供的例子数据库——罗斯文商贸公司,如何对客户价值进行评估数据挖掘问题:(1)如何描述客户价值?——购买总金额?购买频次?平均每次购买金额?最近购买金额?它们的线性组合?(2)需要什么样的数据挖掘方法?——描述汇总?分类?预测?概念描述?细分?相关分析?商业问题解决方案从所有客户中找出最有价值的10个客户,将名单发给市场部门,让其对这些客户进行更多的关注数据挖掘方法论以解决商业问题为核心CRISP-DMCrossIndustryStandardProcessforDataMining(CRISP-DM)跨行业的数据挖掘标准流程以用户为中心的交互过程最终目标是数据挖掘结果在企业或机构中得到应用数据挖掘方法论2002年8月7日由调查,的特征完全支持CRISP-DM标准针对CRISP-DM的各个阶段都有相应的结点相对应数据理解Clementine的特征数据理解支持图形支持交互性可以指定颜色、样式等数据理解Clementine的特征更多的数据理解支持描述性统计量和交叉表字段类型信息能够调用专业统计软件SPSS中的所有过程使用人工智能的技术探索你的数据数据准备Clementine的特征数据准备同时从不同的数据源获取数据指定缺失值形式设定‘全局值’汇总数据缺失值填补主成分/因子分析合并字段和记录读取文本数据………………数据准备Clementine的特征通过SQL语句导回使得数据挖掘的大量过程可以在数据库端进行1.大量的操作在数据库端进行.2.建模等工作在Server上进行3.客户端用于查看数据挖掘结果.4.数据无需在网上无谓的传输.建立模型Clementine的特征有监督的数据挖掘模型预测算法:神经网络、C&RT、线性回归分类算法:C5.0、Logistic回归、C&RT、神经网络无监督的数据挖掘模型聚类算法:K-means、Kohonen、TwoStep关联算法:apriori,GRI,Sequence建立模型Clementine的特征易用性非常好如果你熟悉数据挖掘算法,可以使用专家选项建立模型Clementine的特征建立模型时有意义的反馈图产生模型后生成的生动的结果建立模型Clementine的特征Meta-Modeling通过合成多个模型提高模型的效果模型评估Clementine的特征多种评估模型表现的方法同时评估多个模型的效果通过检验集评价模型的总体效果生成误判矩阵置信度评估图——gains,lift,response,profit,andROI模型发布Clementine的特征模型发布即:向决策者提供信息(图形和表格)实现在数据库内打分实时打分Clementine能够满足以上三个要求模型发布Clementine的特征ClementineSolutionPublisher:业界领先的数据挖掘发布技术模型导出:C代码或XMLClementineSolutionPublisher:整个数据挖掘过程Clementine建立模型、发布模型结构示意图用户界面SPSSDataAccessPackClementineSolutionsPublisherRuntimeC/S结构或B/S结构发布数据挖掘模型C/S结构建立数据挖掘模型数据库模型库分析员ClementineClementineBatchModeClementine的特征Clementine数据流可以保存并在BatchMode下运行通过BatchMode,Clementine可以在命令行下运行不能生成图形,所有结果保存在文件里或者数据库中ScriptingClementine的特征可以应用Scripting编写简单的程序来控制和执行Clementine数据流Scripts可以完成用户应用数据流可以完成的所有工作Scripting经常用于自动执行数据流,这样就可以避免用户去执行那些重复性特别大或者特别耗时的工作控制数据流执行的顺序建立复杂的应用建立Clementine过程使之可以嵌入用户的应用系统或者通过在Batch模式下调用Clementine执行ScriptCEMIClementine的特征可以增加新的算法、特定的数据准备过程、特定的图形功能或者调用其他的应用程序等等CATSClementine的特征Clementine数据挖掘应用模板(ClementineApplicationTemplates,CAT’S)制定特定行业的数据挖掘模板电信行业数据挖掘应用模板客户关系管理数据挖掘应用模板WebMining应用模板欺诈发现数据挖掘应用模板SPSS还将制作更多的模板数据挖掘的一个实例——药物选择决策支持系统如何通过数据挖掘实现医院医生选择治疗手段的决策支持系统某医院治疗某种疾病可以选择5种药物,分别是drugA、drugB、drugC、drugX、drugY,每种药物根据病人的情况不同疗效也会不同,医院有很多历史的病历作为参考,如何从这些历史数据中发现病人特征和推荐药物的关系?数据描述变量名称变量含义备注Age年龄Sex性别BP血压分为高(high)、低(low)和正常(normal)三种Cholesterol胆固醇含量分为高(high)、低(low)和正常(normal)三种Na钠含量K钾含量Drug最适合药物以下五种之一:drugA、drugB、drugC、drugX、drugY遵循CRISP-DM的数据挖掘过程商业理解(文档)数据理解(数据流)数据准备(数据流)建立模型(数据流)模型评估(数据流)结果发布(数据流)模型发布——分析应用

1 / 34
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功