_spss公司_crisp-dm 流程手册

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1CRISP-DM1.0CrossIndustryStandardProcess-DataMining1.0数据挖掘指导手册本书是一部有关跨行业的数据挖掘标准程序(以下简称CRISP-DM)模型的书籍,主要包括以下几个部分:CRISP-DM方法论,CRISP-DM参考模型,CRISP-DM用户指导,CRISP-DM报告的书写以及相关帮助信息的附录部分。文书及其内容为CRISP-DM委员会股东版权所有:NCRSystemsEngineeringCopenhagen(USAandDenmark),DaimlerChryslerAG(Germany),SPSSInc.(USA)andOHRAVerzekeringenenBankGroepB.V(TheNetherlands)版权所有©1999,2000本书中涉及到的所有商标以及服务标记分别属于其各自的拥有者,并得到CRISP-DM委员会成员的认可。CRISP-DM1.0CRISP-DM1.0前言1996末,在当时尚为年轻和不成熟的数据挖掘市场中,三位市场上的“老战士”设想、构思了CRISP-DM。DaimlerChrysler公司(后名为Daimler-Benz)先于各个工商业组织,早已经在其商业运作中成功地运用了数据挖掘。SPSS公司(后名为ISL)早在1990年就开始提供基于数据挖掘的服务,并于1994年开发了第一个数据挖掘的工作平台——Clementine.NCR公司建立了包括数据挖掘咨询顾问以及技术专家在内的团队,为客户提供咨询服务,并把它作为旨在为其使用Teradata数据集的客户提供增值服务的一个组成部分。那个时候,对数据挖掘爆炸式的广泛理解表明了当时的市场对数据挖掘的初步兴趣。这既令人兴奋,又让人有所顾虑。我们按照我们的方式逐步的去理解和开发数据挖掘。然而我们做得是否正确?是否每一个数据挖掘的初学者都要像我们那样经过不断的尝试和失败去学习它?从一个提供者的角度而言,我们怎么向一个有所预期的顾客展示:数据挖掘已经足够成熟,可以作为他们商业操作中的一个关键因素?我们推断,一个非私有的、公开的标准程序模型,无论是对我们、还是所有从业者而言,都会涉及到上面提到的问题。一年后,我们成立了委员会,创建了这个以CRoss-IndustryStandardProcessforDataMining首字母缩写的名字,并获得了欧洲委员会提供的基金,开始实施我们昀初的想法。我们旨在使CRISP-DM成为一个在工业运用、工具性以及应用方面都没有偏颇的中立性模型,因此我们不得不获得来自尽可能宽泛领域内的从业者们的帮助(例如,数据集的提供者和管理顾问),同时他们还要对数据挖掘具有一定的兴趣。为了获得这些帮助,我们成立了CRISP-DM的专门兴趣小组(正如人们所知道的“TheSIG”)。我们通过邀请那些对数据挖掘感兴趣的人参加我们在阿姆斯特丹的一天工作小组,从而建立了这个兴趣小组。在那个工作小组中,我们阐释了我们的想法,并邀请他们讲述他们自己的想法,公开的讨论怎样使得CRISP-DM获得进步和发展。在组织工作小组的那一天,委员会中的成员都怀着一颗忐忑的心。会不会没有人对此有足够感兴趣,以至于他们不愿意发表意见?或者也许他们表明了自己的想法,但却告诉我们他们认为这一基本程序不会有什么足够吸引人的需要?再或者我们的想法如此超前,以至于任何标准化的想法都会成为一个不切实际的幻想?然而,工作小组超出我们的预期。主要表现为以下三点:①有两倍于我们起初预期的人出现在现场。②与会者有一个近乎完全一致的想法:企业需要一个标准化的程序,而且现在就需要。③由于每一位参与者都从他们自身的企业实践经验角度阐释了他们对于数据挖掘的见解,所以有关这一标准程序的看法已经很明晰:尽管仍有些表面的差异——主要表现在阶段的划分和术语上——但有关数据挖掘程序的理解,参与者有着惊人的一致。到工作小组结束时,我们在听取了SIG成员的意见和批评之后,已有相当的自信认为可以发布一个标准程序模型来维持这个数据挖掘社团。在接下来的两年半时间里,我们着手于CRISP-DM的进一步开发和研制工作,并在Mercedes-Benz公司和我们的保险部门合伙人——OHRA公司的大规模数据挖掘实践项目中,进行试验。此外,我们还进行了CRISP-DM与商2业数据挖掘工具的整合工作。TheSIG的成立具有无限的价值,其成员数量已超过200人,伦敦、纽约和布鲁塞尔也已成立了工作小组。1999年中期,也就是欧洲委员会资助的那部分项目结束的时候,我们自认为已经起草了一个相当好的程序模型的草稿。那些熟悉草稿的人会发现经过一年的时间,CRISP-DM1.0绝对有了根本的不同,尽管现在它更加全面和完善。但是我们也清晰地意识到,在项目进行的过程中,程序模型仍然是一个需要不断改进的模型:CRISP-DM还仅仅在一个相当窄的领域内有效。在过去的一年中,DaimlerChrysler有机会把CRISP-DM应用到更广泛的领域当中去。SPSS和NCR公司的专业服务组已经采纳了CRISP-DM,并在大量的涉及许多工商业问题的消费者应用中,成功了运用了CRISP-DM。在这段时间内,我们注意到,非协会成员的服务提供商们采用了CRISP-DM;分析师们已把它作为一个行业标准,不断的参考这一模型;同时消费者们也逐渐意识到了CRISP-DM的重要性(目前CRISP-DM经常在RFP文件中被提到)。我们相信我们昀初的想法已经被彻底的证实,进一步的扩展和改善虽然是必需的,但我们认为CRISP-DM1.0已足可以继出版、发行。从技术原理上来讲,CRISP-DM还未能以一个学术、理论的形式来构建,它也不是一些权威委员会的精英们闭门思过的结果。过去我们也曾尝试过这些方法,旨在构建CRISP-DM的方法论,但这些方法很少能够建立一个实践性的、成功的以及被广泛采纳的标准。CRISP-DM之所以成功,就在于它建立在人们进行数据挖掘项目的实践的和真实的经验的基础之上。基于这一点,我们要非常感谢那些在项目中努力并提供想法的从业者们。CRISP-DM委员会2000年8月目录I导言....................................................91CRISP-DM方法论............................................91.1分级细目.....................................................91.2参考模型和用户指南....................................................102根据通用模型策划专用模型....................................102.1数据挖掘文本..........................................................102.2根据文本策划模型................................................112.3策划的策略....113章节介绍.............................................................123.1内容...123.2意图....12IICRISP-DM参考模型.......................................131商业理解(企业理解)...........................................................161.1确定商业目标...............................................161.2评估形势..................171.3确定数据挖掘目标....................................................181.4制定项目计划.............................................................192数据理解...............................................................202.1收集原始数据............................................................202.2描述数据...................................................................212.3探索数据.........................................................212.4检验数据质量.................................................223数据准备............................................................233.1选择数据243.2清理数据243.3构造数据......................................................243.4整合数据...............................253.5格式化数据254建模......................................................274.1选择建模技术........................................2734.2制作检验设计............................................................284.3建造模型.....................................................................284.4评估模型..................................................................295评估......................................................305.1评估结果.................................................305.2回顾历程...............................................................315.3确定下一步方案....................................................316部署运用....................................................................326.1制定部署运用方案.............................................................326.2制定监控和维护方案.....................................336.3书写昀终报告.........................................................336.4回顾项目33IIICRISP-DM用户指南........................................351商业理解..................................351.1确定商业目标.....................................351.2评估形势371.3确定数据挖掘目标.................

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功