数据挖掘与Clementine应用绪论安徽财经大学统数学院2020年2月4日12时4分361课程主要内容数据挖掘和Clementine概述Clementine的数据读入和数据集成Clementine的数据理解Clementine的数据准备Clementine的基本分析Clementine的数据精简分类预测方法:决策树分类预测方法:神经网络分类预测方法:支持向量机分类预测方法:贝叶斯网络数据结构分析:聚类数据结构分析:关联规则2020年2月4日12时4分236主要参考文献薛薇,Clementine数据挖掘方法及应用,电子工业出版社SPSSInc,Clementine®12.0NodeReference,IntegralSolutionsLimited,2007SPSSInc,Clementine®12.0AlgorithmsGuide,IntegralSolutionsLimited,2007SPSSInc,Clementine®12.0ApplicationsGuide,IntegralSolutionsLimited,20072020年2月4日12时4分336参考文献IanH,Witten,EibeFrank,DATAMINING:PracticalMachineLearningToolsandTechniques,SecondEdition,MorganKaufmannPublishers,Inc.2005MehmedKantardzic,DATAMINING:Concepts,Models,Methods,andAlgorithms,IEEEPress,2002DavidHand,PrinciplesofDataMining,MITPress,2001JiaweiHan,MichelineKamber,DataMining:ConceptsandTechniques,MorganKaufmannPublishers,Inc.2001Thuraisingham,BhavaniM.Datamining:technologies,techniques,toolsandtrends,CRCPress,19992020年2月4日12时4分436数据挖掘和Clementine综述数据挖掘的产生背景什么是数据挖掘数据挖掘和数据库中的知识发现数据挖掘方法论数据挖掘的任务和应用数据挖掘得到的知识形式数据挖掘算法的分类Clementine软件概述2020年2月4日12时4分536数据挖掘产生的背景从数据分析看数据挖掘政治算术、概率论与数理统计、数据挖掘两个主要原因催生数据挖掘海量数据的分析需求应用对理论的挑战2020年2月4日12时4分636海量数据的分析需求微观管理层面,以商业领域为例:美国某著名连锁超市,数据库中已积累了TB(万亿字节)级以上的顾客购买行为数据和其他销售数据。互联网和电子商务的普及,网上商城、网上书店和营业厅积累的Web点击流存储容量多达GB级。国内的一些知名电子商务平台,全国注册用户高达几亿,日交易量超过几百万笔,日交易数据量至两位TB级2020年2月4日12时4分736海量数据的分析需求2011年,全球著名数据挖掘咨询公司KDnuggets的调查显示,被调查的148家公司中,大约35.4%公司处理和分析的最大数据量超过100GB,21.4%的超过1T,而这两个指标2010年分别为32.2%和18.3%。2020年2月4日12时4分836海量数据的分析需求著名的数据仓库专家RalphKimball:“我们花了二十多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。”数据仓库行业最主要的开拓者2020年2月4日12时4分936海量数据的分析需求海量数据分析中的问题:“信息爆炸”、“数据多但知识少”辅助决策的数据大多来自企业不同业务处理系统实施定量分析需要深厚的专业知识,更需要有效的分析工具数据仓库和数据挖掘的产生和发展,使得当今的计算机网络应用体系从业务管理层逐步跃升到决策支持层2020年2月4日12时4分1036应用对理论的挑战:数据仓库数据库与数据仓库、人工智能与机器学习、统计学等理论的应用是数据挖掘诞生发展的理论基础数据库与数据仓库“是否存在更有效的存储模式实现高维海量数据的存储管理?”“数据库中的数据处理能力仅仅局限在简单的查询和汇总层面上吗?”数据仓库技术已成为一种有效的面向分析主题的数据整合、数据清洗和数据存储管理集成工具大量基于数据仓库的数据挖掘工具大行其道公司:SqlServer、IBM方法:OLAP、BI2020年2月4日12时4分1136应用对理论的挑战:人工智能人工智能和机器学习理论如何利用计算机模拟人脑的部分思维,如何利用计算机进行实际问题的求解和优化等典型系统:专家系统:知识表示、100万条常识博弈系统:1997年,IBM“深蓝”与国际象棋大师卡斯帕罗夫的比赛自然语言的理解:2011年,IBM“沃森”与人类选手在“危险边缘”的比赛包括解析隐晦含义、反讽与谜语等,而电脑并不擅长进行这类复杂思考.情感理解困难2020年2月4日12时4分1236应用对理论的挑战:统计学海量数据和数据类型多样化带来的挑战例如:总体和样本验证驱动型分析和数据驱动型分析“干净”数据和“脏”数据过去在统计应用视野之外的数据存储和组织问题,与数据库技术相结合2020年2月4日12时4分1336什么是数据挖掘:概念数据挖掘和数据库中的知识发现1995年,在加拿大蒙特利尔召开第一届知识发现KDD和数据挖掘DM国际学术会议2020年2月4日12时4分1436什么是数据挖掘:理解数据挖掘是一个利用各种方法,从海量的有噪声的凌乱数据中,提取隐含和潜在的,对决策有用的信息和模式的过程“海量”:样本量庞大、样本量不大但数据维度很高、样本量庞大且数据维度很高特色:分布特征未知条件下的,高维非线性的,归纳型的分析方法信息:用于数据的分类预测模式:用于数据特征和关联性的刻画2020年2月4日12时4分1536什么是数据挖掘:研究特点交叉学科2020年2月4日12时4分1636数据挖掘方法论数据挖掘方法论是数据挖掘实施的总体指导方案CRISP-DM(CrossIndustryStandardProcessofDataMining)业务理解数据理解数据准备建立模型方案评估方案实施数据2020年2月4日12时4分1736数据挖掘的任务数据总结分类和回归聚类分析关联分析2020年2月4日12时4分1836数据挖掘得到的知识形式浓缩数据:原始数据的精练统计报表销售产品销售地区1月2月3月……销售时间(月)A产品B产品北京销售额(万元)2020年2月4日12时4分1936数据挖掘得到的知识形式浓缩数据:原始数据的精练2020年2月4日12时4分2036数据挖掘得到的知识形式图形2020年2月4日12时4分2136数据挖掘得到的知识形式规则:一种逻辑表达形式IF(消费频率=经常)∪((消费频率=偶尔)∩(收入水平=高收入∪中收入))THEN打算购买数学模型2020年2月4日12时4分2236数据挖掘的算法分类从算法分析数据的方式划分假设检验型算法:自顶向下(Top-Down)型一般原理推出个别结论的验证型演绎方法知识发现型算法:自底向上(Bottom-Up)型从个别数据中归纳出一般性结论的归纳分析方法尿布和啤酒2020年2月4日12时4分2336数据挖掘的算法分类从算法来自的学科类型划分机器学习算法和统计学算法20世纪80年代中期,LeoBreiman等《分类和回归树》和机器学习专家J.RossQuinlin的ID3算法机器学习的核心:通过对数据集n维属性空间的搜索,找到数据属性特征的恰当概括任务是通过对有限的系统输入输出分析,估计输入输出的相关性并进行分类预测,或揭示系统的内在结构特征2020年2月4日12时4分2436数据挖掘的算法分类机器学习学习机的任务是从其所支持的函数集f(X,W)中,选择一个一般化的与系统输入和输出关系最近似的函数f(X,w),并给出预测值y’选择近似函数的依据是损失函数L(e(y,f(X,w))),是误差函数e的函数输入发生器学习机系统Xyy’=f(X,w)2020年2月4日12时4分2536数据挖掘的算法分类机器学习较多集中在模型搜索和参数优化方面2020年2月4日12时4分2636数据挖掘的算法分类从学习过程的类型划分有指导的学习算法无指导的学习算法2020年2月4日12时4分2736Clementine软件概述Clementine(IBMSPSSModeler)最早属英国ISL(IntegralSolutionsLimited)公司的产品,后被SPSS公司收购2009年,SPSS被IBM公式收购,V14版自2000年以来,KDnuggets公司面向全球开展“最近12个月你使用的数据挖掘工具”的跟踪调查,Clementine一直列居首位2020年2月4日12时4分2836Clementine软件概述Clementine的操作与数据分析的一般流程相吻合Clementine形象地将各个环节表示成若干个节点,将数据分析过程看作是数据在各个节点之间的流动,并通过图形化的“数据流”方式,直观表示整个数据挖掘操作使用Clementine的目标:建立数据流,即根据数据挖掘的实际需要,选择节点,依次连接节点建立数据流,不断修改和调整流中节点的参数,执行数据流,最终完成相应的数据挖掘任务2020年2月4日12时4分2936Clementine软件概述数据流的建立遵循数据挖掘方法论读入数据浏览数据Source选项卡Output选项卡观察单变量分布特点观察多变量相关性Graphs选项卡Output选项卡评估数据质量数据转换和派生数据精简FieldOps选项卡RecordOps选项卡建立多个模型评价选择模型Modeling选项卡建立数据源数据理解数据准备建立模型集成数据基本分析深入分析数据筛选2020年2月4日12时4分3036Clementine的窗口Clementine的主要窗口数据流编辑区节点工具箱窗口流管理窗口Streams中,文件扩展名.strOutputs中,文件扩展名.couModels中,文件扩展名.gm项目管理窗口项目文件的扩展名.cpj2020年2月4日12时4分3136数据流的基本管理数据流的基本管理:第一,选择和管理节点第二,建立和调整节点间的连接第三,设置节点参数第四,执行数据流2020年2月4日12时4分3236缓冲节点和超节点缓冲节点:点具有数据缓冲的作用,即可在某个节点上建立一个数据缓冲区,存放数据流执行至此的中间结果,并可保存到磁盘文件中建立缓冲节点保存缓冲区内容清空缓冲区加载缓冲数据撤销节点缓冲2020年2月4日12时4分3336缓冲节点和超节点超节点:多个节点集成在一个节点,便于数据流的浏览和管理建立超节点查看超节点取消超节点2020年2月4日12时4分3436Clementine使用示例案例数据:药物(Drug:DrugA、DrugB、DrugC、DrugX、DrugY)、血压(BP,High、Normal、Low)、胆固醇(Cholesterol,Normal、High)、唾液中钠元素(Na)和钾元素(K)含量,病人年龄(Age)、性别(Sex,M、F)2020年2月4日12时4分3536Clementine使用示例第一,将数据到Clementine中第二,浏览数据内容第三,观察各个变量的数据分布特征第四,观察服用不同药物的病人唾液中钠元素和钾元素的含量单纯K含量较低的病人选用DrugY应比较理想第五,观察服用不同药物病人唾液中钠元素和钾元素的浓度比值Na/K比值高水平的病人,DrugY是理想选择