5种数据挖掘工具分析比较

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘工具调查与研究姓名:马蕾学号:1808270325种数据挖掘工具分别为:1、IntelligentMiner2、SASEnterpreiseMiner3、SPSSClementine4、马克威分析系统5、GDMIntelligentMiner一、综述:IBM的ExterpriseMiner简单易用,是理解数据挖掘的好的开始。能处理大数据量的挖掘,功能一般,可能仅满足要求.没有数据探索功能。与其他软件接口差,只能用DB2,连接DB2以外的数据库时,如Oracle,SAS,SPSS需要安装DataJoiner作为中间软件。难以发布。结果美观,但同样不好理解。二、基本内容:一个挖掘项目可有多个发掘库组成;每个发掘库包含多个对象和函数对象:数据:由函数使用的输入数据的名称和位置。离散化:将记录分至明显可识别的组中的分发操作。名称映射:映射至类别字段名的值的规范。结果:由函数创建的结果的名称和位置。分类:在一个项目的不同类别之间的关联层次或点阵。值映射:映射至其它值的规范。函数:发掘:单个发掘函数的参数。预处理:单个预处理函数的参数。序列:可以在指定序列中启动的几个函数的规范。统计:单个统计函数的参数。统计方法和挖掘算法:单变量曲线,双变量统计,线性回归,因子分析,主变量分析,分类,分群,关联,相似序列,序列模式,预测等。处理的数据类型:结构化数据(如:数据库表,数据库视图,平面文件)和半结构化或非结构化数据(如:顾客信件,在线服务,传真,电子邮件,网页等)。架构:它采取客户/服务器(C/S)架构,并且它的API提供了C++类和方法IntelligentMiner通过其独有的世界领先技术,例如自动生成典型数据集、发现关联、发现序列规律、概念性分类和可视化呈现,可以自动实现数据选择、数据转换、数据挖掘和结果呈现这一整套数据挖掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。三、现状:现在,IBM的IntelligentMiner已形成系列,它帮助用户从企业数据资产中识别和提炼有价值的信息。它包括分析软件工具——IntelligentMinerforData和IBMIntelligentMinerforText,帮助企业选取以前未知的、有效的、可行的业务知识——3如客户购买行为,隐藏的关系和新的趋势,数据来源可以是大型数据库和企业内部或Internet上的文本数据源。然后公司可以应用这些信息进行更好、更准确的决策,获得竞争优势。四、挖掘案例:(客户细分)1.商业需求::客户细分2.数据理解:根据用户基本信息(实际上还包括客户消费行为,人口统计信息等,本示例为简单起见,只在这个表的数据基础上进行挖掘)进行客户细分3.数据准备:4.建模:选择挖掘模型(比如是分群,还是分类)确定模型输入,需要做的处理,结果分析选择模型输入字段:挖掘模型选择:神经分群发掘函数使用了一个Kohonen特征映射神经网络。Kohonen特征映射使用一个称作自组织的进程来将相似的输入记录组合在一起。您可以指定群集的数目和遍数。这些参数控制进程时间和将数据记录分配到群集时使用的粒度程度。分群的主任务是为每个群集查找中心。此中心也称为称为原型。对于每个在输入数据中的每个记录,神经分群发掘函数计算和记录计分最近的群集原型。每个数据记录的计分是用到群集原型的欧几里得距离表示的。计分越靠近0,与群集原型的相似性程度就越高。计分越高,记录与群集原型就越不相似。输入数据的每个遍历,中心被调整来达到更好的整个分群模型质量。在发掘函数运行时,进度指示器显示每次遍历的质量改进状况。4.建模:选择模型:指定输入数据:4选择分群方式:5分群模型设置概要:5.运行模型:点击蓝色按钮运行模型,运行模型进程:6.模型结果分析:运行结果(群):6运行结果,统计:从上面两个图中我们可以看出一些有意义的分群,根据consume_level和online_duration分群有一定意义。而比如用gender进行的分群我们可以直接观察出来,意义不大,只有两个大类,可以直观地看出男女比例:consume_level(消费层次)的群特征信息:可以看出在第2、3类消费层次占的比重较大。7在线通话时长的一点分析:从上面图中可以看出,大部分客户每一个月消费是50元以下的。50-200各区间逐步递8减;而一个月消费300以上的,也从3%,8%,12%逐渐递增的态势。挖掘的这些消费分群信息,对有针对性的营销,提前对客户进行细分是很有意义的。6.保存调出模型:客户分类挖掘示例(待续):采用一样的数据,对客户消费水平进行分类预测(consume_level)混淆矩阵:分类百分率:9SASEnterpriseMiner一、综述:SAS完仝以统计理论为基础,功能强大,有完备的数据探索功能。但难以掌握,要求是高级统计分析专业人员.结果难以理解。价格也极其昂贵,而且是租赁模式。二、基本内容:支持SAS统计模块,使之具有杰出的力量和影响,它还通过大量数据挖掘算法增强了那些模块。SAS使用它的SEMMA方法学以提供一个能支持包括关联、聚类、决策树、神经元网络和统计回归在内的广阔范围的模型数据挖掘工具。SASEntelpriseMiner设计为被初学者和有经验的用户使用。它的GUI界面是数据流驱动的,且它易于理解和使用。它允许一个分析者通过构造一个使用链接连接数据结点和处理结点的可视数据流图建造一个模型。另外,此界面允许把处理结点直接插入到数据流中。由于支持多种模型,所以EnterpriseMiner允许用户比较(评估)不同模型并利用评估结点选择最适合的。另外,EnterpriseMiner提供了一个能产生被任何SAS应用程序所访问的评分模型的评分结点。三、用户配置:SASEnterpriseMiner能运行在客户/服务器上或(计算机的外围设备)能独立运行的配置上。此外,在客户/服务器模式下,EnterpriseMiner允许把服务器配置成一个数据服务器、计算服务器或两者的综合。EntepnseMiner被设计成能在所有SAS支持的平台上运行。该结构支持胖客户机配置(要求客户机上的完全SAS许可证)以及瘦客户机(浏览器)版本。四、数据挖掘技术、算法和应用程序:SASEntelpriseMiner支持关联、聚类、决策树、神经元网络和经典的统计回归技术。五、前景:它在统计分析软件上的丰富经验,所以SAS开发出了一个全功能、易于使用、可靠和易于管理的系统。模型选项和算法所覆盖的广阔范围、设计良好的用户界面、现存数据商店的能力和在统计分析市场所占的巨大份额(允许一个公司获得一个增加的SAS部件而不是一个新的工具)都可能使SAS在数据挖掘市场上取得领先位置。由于它最近刚投放市场,所以在写此书时只能获得少数公布的用户基推测试。这些结果表明EnterpriseMiner在可伸缩性、预测准确性和处理时间上都表现得很好。总的来说,此工具适合于企业在数据挖掘方面的应用以及CBM的全部决策支持应用。六、案例:10SAS软件成就安利(中国)高效物流安利(中国)透过库存优化系统提升服务效率20%,客户满意率指标达到97%安利是国际上知名的直销企业,1992年进入中国市场。目前,中国是安利在全球最大的市场,安利(中国)2008年的销售业绩达179亿元人民币,占安利全球收入的1/3强,并且保持着强劲的增长势头。目前,安利(中国)拥有1000多种产品,全国共有229间店铺、29个配送中心、22个外仓和1个4万平方米的物流中心,仓库总面积达10万平方米,存储量达5.6万个卡板,每年的运输里程1,396万公里,相当于绕地球349圈。安利(中国)特有的“店铺+直销+经销”的多元化营销模式和频繁而快速的的市场促销活动,加大了库存管理的难度,要求运营流程和相关人员具有更高的灵活应变能力。为了更好地配合安利业务的高速发展,使得信息流的发展能够与未来企业供应链的飞速发展相适应并具有一定的前瞻性,安利(中国)管理层决定进一步深化当前的商业分析应用,在供应链管理方面引入SAS技术,建立“库存优化系统(InventoryOptimizationSystem,缩写IOS)”,统筹考虑各种相互约束的条件,将“正确的产品”以“正确的成本”在“正确的时间”送达“正确的地点”,实现对复杂市场环境的快速反应,从而进一步提高企业的市场竞争力。库存优化系统(IOS)的主要功能IOS是一种极为有效的库存管理工具,它提供了基于服务水平、交货时间和成本等用户指定的约束条件测算最佳库存水平和模式的能力。具体功能如下:1.多层次的产品需求预测通过业内领先的SAS时间序列分析技术,根据过往历史上的相关销售数据,对不同层次的商品、地区进行自动诊断、建模、执行以及调整预测,可以精密到具体产品、店铺级别的需求数据,预测未来的客户需求量。IOS采集了安利(中国)历史三年、超过7千万张订单的数据进行分析。预测的结果由于考虑了需求的变动趋势、季节性波动、产品促销、产品属性等因素,并基于最为健壮的模型库,因此生成的预测数据更为准确。并且具有高可扩展性、灵活变动等特点。112.考虑全面的智能排车系统根据预测的需求量,运用优化模型计算出每个地区的补货频率。同时,结合车型、运载量、运输成本等相关运输数据,计算出未来一周最优的排车计划。排车计划会结合各补货计划人员负责的区域,以均衡各人的工作安排,及更妥善的人力分配。系统中直观、清晰地展现出当前的排车计划、车辆信息等。排车计划由于受到公司策略安排、产品促销、库存调配、人手安排等因素的影响,具有一定的变动性。计划人员可以灵活方便地对其进行变动,而这些变动又被系统纪录起来,并区分成计划调整和临时变动两种状态,以作为日后排车的依据和对排车效果分析的数据源。3.最优化的库存补货策略库存补货策略首先要基于多层次的补货网络,从成品生产的工厂到物流中心到外仓,从外仓到店铺。综合考虑各个产品的预测需求量和需求的变动性、运输时间、包装规格、库存成本、运输成本、运输频率、客户服务水平、库存策略、最小订货量等影响因素后,更精细地动态制定库存补货策略,包括重订购水平以及订购至水平。这些补货策略能细致到具体每个仓库、每间店铺中的每个产品,而且能随着时间的推移动态适应市场变化,并进行相应的调整。4.指标分析和预警功能此功能为整个库存管理提供日常所需的KPI(KeyPerformanceIndication)报表和紧急状态预警。包括库存水平分析、采购建议分析、存货预警、暂时缺货EAS(EmergingAlert12System)分析、运输空载率、产品销售监控等一系列分析数据和报表。SPSS(StatisticalProductandServiceSolutions)一、综述:“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”。但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”。SPSS是世界上最早采用图形菜单驱动界面的统计软件,该软件应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。迄今SPSS软件已有30余年的成长历史。全球约有25万家产品用户,它们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业,是世界上应用最广泛的专业统计软件。二、特点:它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。输出结果十分美观,存储时则是专

1 / 19
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功