SASEnterpriseMiner4数据挖掘实例SAS中文论坛网站://mysas.vicp.netSASEnterpriseMiner4数据挖掘实例目录1.SAS8.2EnterpriseMiner简介...........................................................................22.EM工具具体使用说明.........................................................................................23.定义商业问题......................................................................................................34.创建一个工程......................................................................................................44.1调用EM...........................................................................................................44.2新建一个工程...................................................................................................54.3应用工作空间中的节点....................................................................................55.数据挖掘工作流程...............................................................................................65.1定义数据源......................................................................................................65.2探索数据..........................................................................................................85.2.1设置Insight节点...................................................................................85.2.2察看Insight节点输出结果....................................................................95.3准备建模数据..................................................................................................115.3.1建立目标变量.......................................................................................115.3.2设置目标变量......................................................................................135.3.3数据分割.............................................................................................215.3.4替换缺失值.........................................................................................225.4建模...............................................................................................................235.4.1回归模型.............................................................................................235.4.2决策树模型.........................................................................................255.5评估模型........................................................................................................285.6应用模型........................................................................................................305.6.1抽取打分程序......................................................................................305.6.2引入原始数据源..................................................................................315.6.3查看结果.............................................................................................326.参考文献:........................................................................................................34SASEnterpriseMiner4数据挖掘实例SAS中文论坛网站://mysas.vicp.net1.SAS8.2EnterpriseMiner简介数据挖掘就是对观测到的庞大数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。[1]一个数据挖掘工程需要足够的软件来完成分析工作,为了计划、实现和成功建立一个数据挖掘工程,需要一个集成了所有分析阶段的软件解决方案,包括从数据抽样到分析和建模,昀后公布结果信息。大部分专业统计数据分析软件只实现特定的数据挖掘技术,而SAS8.2EnterpriseMiner是一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件。SAS8.2EnterpriseMiner把统计分析系统和图形用户界面(GUI)集成在一起,并与SAS协会定义的数据挖掘方法——SEMMA方法,即抽样(Sample)、探索(Explore)、修改(Modify)建模(Model)、评价(Assess)紧密结合,对用户友好、直观、灵活、适用方便,使对统计学无经验的用户也可以理解和使用。EnterpriseMiner简称EM,它的运行方式是通过在一个工作空间(workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相应的设置,昀后运行整个工作流程(workflow),便可以得到相应的结果。2.EM工具具体使用说明EM中工具分为七类:Sample类包含InputDataSource、Sampling、DataPartitionExplore类包含DistributionExplorer、Multiplot、Insight、Association、VariableSelection、LinkAnalysis(Exp.)Modify类包含DataSetAttribute、TransformVariable、FilterOutliers、Replacement、Clustering、SOM/Kohonen、TimeSeries(Exp.)Medel类包括Regression、Tree、NeuralNetwork、Princomp/Dmneural、UserDefinedModel、Ensemble、Memory-BasedReasoning、TwoStageModelAssess类包括Assessment、ReporterSASEnterpriseMiner4数据挖掘实例SAS中文论坛网站://mysas.vicp.netScoring类包括Score、C*ScoreUtility类包括GroupProcessing、DataMiningDatabase、SASCode、Controlpoint、Subdiagram每个节点的具体使用方法可以在EM打开界面,选择SAS主菜单中帮助子菜单中的“EM参考资料”选项,进一步查看各个节点的具体使用方法。下面我们将以客户商品信息为例来建立如下的工作流程,从而引导我们学会使用EM(EnterpriseMiner)。3.定义商业问题假设有一家目录服务公司每个月都要向发出一份服饰用品和家用器皿的商品目录。为了更好的面对商品战,公司打算发出一张主要宣传厨房用品(dining),包括厨具(kitchenware)、器皿(dishes)和餐具(flatware)的目录。由于对所有的客户发送目录的成本是公司无法承受的,所以公司需要把目标锁定在那些有购买倾向的客户。我们可以通过EM来建立一个倾向模型来完成这个任务,从而得到一个邮寄对象列表。要完成这个任务我们需要准备好关于客户购买产品记录的数据库表,表中应该包含近两年内客户是否购买了厨具(kitchenware)、器皿(dishes)和餐具(flatware)的数据,以及其他与客户购买倾向相关的变量。我们这里根据客户购买的历史数据建立起来了数据集(数据库表)CUSTDET1,它包含了49个变量。SASEnterpriseMiner4数据挖掘实例SAS中文论坛网站://mysas.vicp.net上表中的TotalDining(kitch+dish+flat)变量是我们新建的变量,它的值等于KitchenProduct、DishesPurchase和FlatwarePurchase三个变量的值的和,这个变量可以用来预示客户购买厨房用品(dining)的倾向,同时也是建模的基础。当建立好这个数据集以后,相当于我们已经为我们的挖掘准备好了数据源,接下来我们就可以在EM的工作空间(workspace)里建立我们的挖掘工作流程(workflow)了。4.创建一个工程4.1调用EM启动SAS系统后,有两种方式调用EM,一种是通过菜单调用,一种是通过在命令窗口输入命令调用。菜单方式在SAS系统主菜单中选择“解决方案—〉分析—〉企业数据挖掘”SASEn