Copyright©2003,SASInstituteInc.Allrightsreserved.应用SAS/EM进行数据挖掘2003-04-16赛仕软件研究所(上海)有限公司Copyright©2003,SASInstituteInc.Allrightsreserved.议程数据挖掘概述SAS数据挖掘项目方法论及工具SAS/EM简介WorkshopCopyright©2003,SASInstituteInc.Allrightsreserved.企业决策支持信息系统OLTP数据仓库统计分析数据挖掘决策支持企业知识DWSolutionDM&AnalysisSolutionApplicationforC/S&B/SCBISolution1stQtr2ndQtr3rdQtr4thQtrPowerPlayFileEditDataValuesDisplayTextLegendLocation1992AllProductsAgegroupsRevenue($000)OLAP查询报表Copyright©2003,SASInstituteInc.Allrightsreserved.什么是数据挖掘?定义:从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程-Fayyad,Piatetsky-Shapiro特征:•处理海量的数据;•揭示企业运作中的内在规律;•为企业运作提供直接决策分析,并为企业带来巨大经济效益。Copyright©2003,SASInstituteInc.Allrightsreserved.待分析数据数据仓库处理后数据模式变换后数据知识Source:”FromDataMiningtoKnowledgeDiscovery:AnOverview”,AdvancesinKnowledgeDiscoveryandDataMining,AAAIPress/TheMITPress.数据抽取数据预处理数据挖掘数据变换解释评价数据挖掘全过程Copyright©2003,SASInstituteInc.Allrightsreserved.数据挖掘涉及领域神经计算数据库知识发现数据挖掘统计学模式识别机器学习人工智能Copyright©2003,SASInstituteInc.Allrightsreserved.数据挖掘算法(按有无目标变量)有监督算法无监督算法(有目标变量)(无目标变量)传统回归无神经网络决策树逻辑/概率回归决策树聚类神经网络神经网络判别分析基于记忆的推理决策树主成分分析聚类关联/序列分析连接分析因子分析预测分类探索关联Copyright©2003,SASInstituteInc.Allrightsreserved.①预测用过去的数据预测未来发生什么预测未来发生的可能性历史数据预测算法-神经元网络-决策树-回归②描述用过去的数据描述现在发生了什么描述现在已经发生的规律历史数据描述算法-聚类-关联数据挖掘算法(按分析目的)Copyright©2003,SASInstituteInc.Allrightsreserved.回归算法:线性回归、逻辑回归、概率回归统计方法:主成分分析、因子分析、判别分析等关联算法:关联模式、序列模式、连接分析等聚类算法:Cluster、SOM/Kohonen神经元网络:MLP、RBF决策树:CHAID、CART、C4.5、C5.0数据挖掘算法Copyright©2003,SASInstituteInc.Allrightsreserved.x20.00.20.40.60.81.0x10.00.20.40.60.81.0x20.00.20.40.60.81.0x10.00.20.40.60.81.0使用一元二次项使用简单线性①预测型–回归希望预测“绿点”在哪些情况下发生以及发生的概率数据挖掘常用算法Copyright©2003,SASInstituteInc.Allrightsreserved.Time13yesno70%9663%ratio.39time10ratio8410359%①预测型–决策树希望预测“绿点”在哪些情况下发生以及发生的概率QuotedpriceLowerlimitprice(ratio)Time00.20.40.60.8910111315数据挖掘常用算法Copyright©2003,SASInstituteInc.Allrightsreserved.timemethod#oforderratio#ofordereditemsY1=f1(x).Y2=f2(x).Y3=f3(x).Y=f1(x)+f2(x)+f3(x)数据挖掘常用算法①预测型–神经元网络希望预测“绿点”在哪些情况下发生以及发生的概率Copyright©2003,SASInstituteInc.Allrightsreserved.CombinationADACCAB&CDSupport2/52/52/51/5Confidence2/32/32/41/3ABCACDBCDADEBCE②描述型–关联了解客户购买哪些产品组合数据挖掘常用算法Copyright©2003,SASInstituteInc.Allrightsreserved.cluster4cluster3cluster1cluster2cluster5②描述型–聚类把具有相似行为的客户分到一群QuotedamountTotalamountQuotedPriceAveragePrice数据挖掘常用算法Copyright©2003,SASInstituteInc.Allrightsreserved.议程数据挖掘概述SAS数据挖掘项目方法论及工具EM简介WorkshopCopyright©2003,SASInstituteInc.Allrightsreserved.SAS数据挖掘项目方法论反复挖掘数据(SEMMA)定义业务问题考察业务情况提出业务问题考察数据可用性制定业务计划选择数据挖掘方法探索(E)调整(M)建模(M)评估(A)抽样(S)系统环境评估评估系统环境评估企业准备情况评估IT环境选择软硬件环境规划实施体系结构数据准备创建数据挖掘环境检查和校验数据准备数据模型实施设计模型集成的体系结构生成管理和业务报告清理数据使其可用把模型应用于生产回顾与评价回顾模型对企业生产的效果回顾投资回报回顾模型的性能Copyright©2003,SASInstituteInc.Allrightsreserved.企业化经典统计数据分析工具−统计分析:STAT,LAB,INSIGHT−计量经济学与时间序列分析:ETS−运筹优化:OR−质量控制与质量提高:QC−矩阵编程语言:IML−图形与分析工具:GRAPHThinClient:EnterpriseGuide数据挖掘工具:SAS/EnterpriseMiner−傻瓜兼专家型国际标准的全方位的统计分析和数据挖掘工具Copyright©2003,SASInstituteInc.Allrightsreserved.EM基本介绍EM特色EM界面SEMMA方法论节点简介节点通用概貌Copyright©2003,SASInstituteInc.Allrightsreserved.SAS/EM特色支持广泛的平台包括各种UNIX,MVS,OS/390,Linux可访问的数据源多达50多种,和数据库,数据仓库很好的集成Client/Server结构。SEMMA方法论引导,将数据挖掘功能模块组成处理流程图,可视化,图形化,拖拽式操作界面,适用于业务和技术人员丰富的可视化数据探索节点,对数据进行细致分析提供多种数据预处理和变换工具,包括变量自动选择等功能提供丰富的数据挖掘模型和灵活的算法:决策树,神经元网络,回归,基于记忆的推理,两阶段模型,K均值聚类,自组织映射及其他统计方法,以及模型组装技术(Ensemble)提供模型评估模块和多种评估准则提供完整的数据挖掘模型代码输出和打分(Scoring)功能报告工具可以将整个数据挖掘流程和结果生成HTML格式的详细的报告,与其它业务专家和数据挖掘专家共享。Copyright©2003,SASInstituteInc.Allrightsreserved.SAS/EM界面Copyright©2003,SASInstituteInc.Allrightsreserved.数据取样SAMPLE选数据样本?数据探索EXPLORE可视化数据探索聚类分析和分类数据调整MODIFY数据重组和细分添加和变换变量模式化MODEL决策树模型数理统计分析人工神经网络时间序列分析评价ASSESS新数据预测结论综合和评价SAS数据挖掘过程方法论-SEMMACopyright©2003,SASInstituteInc.Allrightsreserved.节点简介:Sampling类节点InputData–确定数据源。Sampling–提供多种抽样方法,如简单随机抽样、分层抽样、分类抽样等。DataPartition–将数据划分为训练(Train)、检验(Validation)、测试(Test)数据,以避免模型过拟合。Copyright©2003,SASInstituteInc.Allrightsreserved.节点简介:Explore类节点DistributionExplorer–提供数据的多维分布图,以了解变量的趋势和特色Multiplot–提供所有变量的分布图及对KOV的关系图SAS/INSIGHT–提供交互式直观统计分析VariableSelection–提供选择对KOV重要的KIVs的功能Association–提供关联分析和序列分析LinkAnalysis–提供连接关系分析Copyright©2003,SASInstituteInc.Allrightsreserved.节点简介:Modify类节点DataSetAttributes–设置或改变数据集与变量的属性FilterOutliers–提供处理数据集中异常点、稀缺值的功能TransformVariables–提供变量变换的功能DataReplacement–数据集中数据的替换和校正,主要用于处理缺失数据Cluster–提供多种方法的聚类分析(K-mean)SOM/Kohonen–自组织特征映射网络据进行分类Copyright©2003,SASInstituteInc.Allrightsreserved.节点简介:Model类节点Regression–提供多元回归、逻辑/概率回归及自动选择变量变量的功能DecisionTree–决策树,支持CHAID,CART,ID3/C4.5等算法NeuralNetwork–提供MLP、RBF等网络结构,及多种调整方法UserDefinedModel–为SAS程序编制的模型提供统一的模型评价界面Ensemble–提供模型整合的功能,如Combine,Stratified,Bagging&BoostingTwo-StageModel–两阶段模型MemoryBasedReasoningCopyright©2003,SASInstituteInc.Allrightsreserved.节点简介:Assess类节点Assessment–对不同模型提供图形化比较:“哪一个模型最好?”Reporter–自动生成HTML格式报告Copyright©2003,SASInstituteInc.Allrightsreserved.节点简介:Scoring类节点Score–可输出SAS/BASE方式的预测代码–可用于对新的数据集进行预测C*Score–可输出Ccode的预测代码Copyright©2003,SASInstituteInc.Allrightsreserved.节点简介:Utilities类节点SASCode–提供SAS程序接口。GroupProcessing–提供分组处理的