Clementine-第一讲数据挖掘

81879313
4 ℃
2020-02-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据挖掘与Clementine应用绪论安徽财经大学统数学院2020年2月4日12时4分361课程主要内容数据挖掘和Clementine概述Clementine的数据读入和数据集成Clementine的数据理解Clementine的数据准备Clementine的基本分析Clementine的数据精简分类预测方法:决策树分类预测方法:神经网络分类预测方法:支持向量机分类预测方法:贝叶斯网络数据结构分析:聚类数据结构分析:关联规则2020年2月4日12时4分236主要参考文献薛薇,Clementine数据挖掘方法及应用,电子工业出版社SPSSInc,Clementine®12.0NodeReference,IntegralSolutionsLimited,2007SPSSInc,Clementine®12.0AlgorithmsGuide,IntegralSolutionsLimited,2007SPSSInc,Clementine®12.0ApplicationsGuide,IntegralSolutionsLimited,20072020年2月4日12时4分336参考文献IanH,Witten,EibeFrank,DATAMINING:PracticalMachineLearningToolsandTechniques,SecondEdition,MorganKaufmannPublishers,Inc.2005MehmedKantardzic,DATAMINING:Concepts,Models,Methods,andAlgorithms,IEEEPress,2002DavidHand,PrinciplesofDataMining,MITPress,2001JiaweiHan,MichelineKamber,DataMining:ConceptsandTechniques,MorganKaufmannPublishers,Inc.2001Thuraisingham,BhavaniM.Datamining:technologies,techniques,toolsandtrends,CRCPress,19992020年2月4日12时4分436数据挖掘和Clementine综述数据挖掘的产生背景什么是数据挖掘数据挖掘和数据库中的知识发现数据挖掘方法论数据挖掘的任务和应用数据挖掘得到的知识形式数据挖掘算法的分类Clementine软件概述2020年2月4日12时4分536数据挖掘产生的背景从数据分析看数据挖掘政治算术、概率论与数理统计、数据挖掘两个主要原因催生数据挖掘海量数据的分析需求应用对理论的挑战2020年2月4日12时4分636海量数据的分析需求微观管理层面，以商业领域为例：美国某著名连锁超市，数据库中已积累了TB(万亿字节)级以上的顾客购买行为数据和其他销售数据。互联网和电子商务的普及，网上商城、网上书店和营业厅积累的Web点击流存储容量多达GB级。国内的一些知名电子商务平台，全国注册用户高达几亿，日交易量超过几百万笔，日交易数据量至两位TB级2020年2月4日12时4分736海量数据的分析需求2011年，全球著名数据挖掘咨询公司KDnuggets的调查显示，被调查的148家公司中，大约35.4%公司处理和分析的最大数据量超过100GB，21.4%的超过1T，而这两个指标2010年分别为32.2%和18.3%。2020年2月4日12时4分836海量数据的分析需求著名的数据仓库专家RalphKimball：“我们花了二十多年的时间将数据放入数据库，如今是该将它们拿出来的时候了。”数据仓库行业最主要的开拓者2020年2月4日12时4分936海量数据的分析需求海量数据分析中的问题：“信息爆炸”、“数据多但知识少”辅助决策的数据大多来自企业不同业务处理系统实施定量分析需要深厚的专业知识，更需要有效的分析工具数据仓库和数据挖掘的产生和发展，使得当今的计算机网络应用体系从业务管理层逐步跃升到决策支持层2020年2月4日12时4分1036应用对理论的挑战：数据仓库数据库与数据仓库、人工智能与机器学习、统计学等理论的应用是数据挖掘诞生发展的理论基础数据库与数据仓库“是否存在更有效的存储模式实现高维海量数据的存储管理？”“数据库中的数据处理能力仅仅局限在简单的查询和汇总层面上吗？”数据仓库技术已成为一种有效的面向分析主题的数据整合、数据清洗和数据存储管理集成工具大量基于数据仓库的数据挖掘工具大行其道公司：SqlServer、IBM方法：OLAP、BI2020年2月4日12时4分1136应用对理论的挑战：人工智能人工智能和机器学习理论如何利用计算机模拟人脑的部分思维，如何利用计算机进行实际问题的求解和优化等典型系统：专家系统：知识表示、100万条常识博弈系统：1997年，IBM“深蓝”与国际象棋大师卡斯帕罗夫的比赛自然语言的理解：2011年，IBM“沃森”与人类选手在“危险边缘”的比赛包括解析隐晦含义、反讽与谜语等，而电脑并不擅长进行这类复杂思考.情感理解困难2020年2月4日12时4分1236应用对理论的挑战：统计学海量数据和数据类型多样化带来的挑战例如：总体和样本验证驱动型分析和数据驱动型分析“干净”数据和“脏”数据过去在统计应用视野之外的数据存储和组织问题，与数据库技术相结合2020年2月4日12时4分1336什么是数据挖掘：概念数据挖掘和数据库中的知识发现1995年，在加拿大蒙特利尔召开第一届知识发现KDD和数据挖掘DM国际学术会议2020年2月4日12时4分1436什么是数据挖掘：理解数据挖掘是一个利用各种方法，从海量的有噪声的凌乱数据中，提取隐含和潜在的，对决策有用的信息和模式的过程“海量”：样本量庞大、样本量不大但数据维度很高、样本量庞大且数据维度很高特色：分布特征未知条件下的，高维非线性的，归纳型的分析方法信息：用于数据的分类预测模式：用于数据特征和关联性的刻画2020年2月4日12时4分1536什么是数据挖掘：研究特点交叉学科2020年2月4日12时4分1636数据挖掘方法论数据挖掘方法论是数据挖掘实施的总体指导方案CRISP-DM（CrossIndustryStandardProcessofDataMining）业务理解数据理解数据准备建立模型方案评估方案实施数据2020年2月4日12时4分1736数据挖掘的任务数据总结分类和回归聚类分析关联分析2020年2月4日12时4分1836数据挖掘得到的知识形式浓缩数据：原始数据的精练统计报表销售产品销售地区1月2月3月……销售时间（月）A产品B产品北京销售额（万元）2020年2月4日12时4分1936数据挖掘得到的知识形式浓缩数据：原始数据的精练2020年2月4日12时4分2036数据挖掘得到的知识形式图形2020年2月4日12时4分2136数据挖掘得到的知识形式规则：一种逻辑表达形式IF(消费频率=经常)∪((消费频率=偶尔)∩(收入水平=高收入∪中收入))THEN打算购买数学模型2020年2月4日12时4分2236数据挖掘的算法分类从算法分析数据的方式划分假设检验型算法：自顶向下（Top-Down）型一般原理推出个别结论的验证型演绎方法知识发现型算法：自底向上（Bottom-Up）型从个别数据中归纳出一般性结论的归纳分析方法尿布和啤酒2020年2月4日12时4分2336数据挖掘的算法分类从算法来自的学科类型划分机器学习算法和统计学算法20世纪80年代中期，LeoBreiman等《分类和回归树》和机器学习专家J.RossQuinlin的ID3算法机器学习的核心：通过对数据集n维属性空间的搜索，找到数据属性特征的恰当概括任务是通过对有限的系统输入输出分析，估计输入输出的相关性并进行分类预测，或揭示系统的内在结构特征2020年2月4日12时4分2436数据挖掘的算法分类机器学习学习机的任务是从其所支持的函数集f(X，W)中，选择一个一般化的与系统输入和输出关系最近似的函数f(X,w)，并给出预测值y’选择近似函数的依据是损失函数L(e(y，f(X，w)))，是误差函数e的函数输入发生器学习机系统Xyy’=f(X,w)2020年2月4日12时4分2536数据挖掘的算法分类机器学习较多集中在模型搜索和参数优化方面2020年2月4日12时4分2636数据挖掘的算法分类从学习过程的类型划分有指导的学习算法无指导的学习算法2020年2月4日12时4分2736Clementine软件概述Clementine（IBMSPSSModeler）最早属英国ISL（IntegralSolutionsLimited）公司的产品，后被SPSS公司收购2009年，SPSS被IBM公式收购，V14版自2000年以来，KDnuggets公司面向全球开展“最近12个月你使用的数据挖掘工具”的跟踪调查，Clementine一直列居首位2020年2月4日12时4分2836Clementine软件概述Clementine的操作与数据分析的一般流程相吻合Clementine形象地将各个环节表示成若干个节点，将数据分析过程看作是数据在各个节点之间的流动，并通过图形化的“数据流”方式，直观表示整个数据挖掘操作使用Clementine的目标：建立数据流，即根据数据挖掘的实际需要，选择节点，依次连接节点建立数据流，不断修改和调整流中节点的参数，执行数据流，最终完成相应的数据挖掘任务2020年2月4日12时4分2936Clementine软件概述数据流的建立遵循数据挖掘方法论读入数据浏览数据Source选项卡Output选项卡观察单变量分布特点观察多变量相关性Graphs选项卡Output选项卡评估数据质量数据转换和派生数据精简FieldOps选项卡RecordOps选项卡建立多个模型评价选择模型Modeling选项卡建立数据源数据理解数据准备建立模型集成数据基本分析深入分析数据筛选2020年2月4日12时4分3036Clementine的窗口Clementine的主要窗口数据流编辑区节点工具箱窗口流管理窗口Streams中，文件扩展名.strOutputs中，文件扩展名.couModels中，文件扩展名.gm项目管理窗口项目文件的扩展名.cpj2020年2月4日12时4分3136数据流的基本管理数据流的基本管理：第一，选择和管理节点第二，建立和调整节点间的连接第三，设置节点参数第四，执行数据流2020年2月4日12时4分3236缓冲节点和超节点缓冲节点：点具有数据缓冲的作用，即可在某个节点上建立一个数据缓冲区，存放数据流执行至此的中间结果，并可保存到磁盘文件中建立缓冲节点保存缓冲区内容清空缓冲区加载缓冲数据撤销节点缓冲2020年2月4日12时4分3336缓冲节点和超节点超节点：多个节点集成在一个节点，便于数据流的浏览和管理建立超节点查看超节点取消超节点2020年2月4日12时4分3436Clementine使用示例案例数据：药物（Drug：DrugA、DrugB、DrugC、DrugX、DrugY）、血压（BP，High、Normal、Low）、胆固醇（Cholesterol，Normal、High）、唾液中钠元素（Na）和钾元素（K）含量，病人年龄（Age）、性别（Sex，M、F）2020年2月4日12时4分3536Clementine使用示例第一，将数据到Clementine中第二，浏览数据内容第三，观察各个变量的数据分布特征第四，观察服用不同药物的病人唾液中钠元素和钾元素的含量单纯K含量较低的病人选用DrugY应比较理想第五，观察服用不同药物病人唾液中钠元素和钾元素的浓度比值Na/K比值高水平的病人，DrugY是理想选择