数据挖掘技术简介演讲人:钟云飞Email:peter@spss.com.cn2002年7月19日大纲•什么是数据挖掘•数据挖掘的标准流程:CRISP-DM•数据挖掘工具——SPSSClementine简介第一部分:什么是数据挖掘?数据挖掘都干了些什么?英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。使直邮的回应率提高了100%数据挖掘都干了些什么?GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。。。。。。通过数据挖掘的方法使库存成本比原来减少了3.8%数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。营销费用减少了30%数据挖掘都干了些什么?美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。。。。。。发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的服务水平。。。。。。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务通过数据挖掘您可以发现最有价值的客户通过数据挖掘您可以使组合销售更有效率通过数据挖掘您可以留住那些最有价值的客户通过数据挖掘您可以用更小的成本发现欺诈现象•通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分析活动。•数据挖掘能够帮助你选择正确瞄准潜在目标,向现有的客户提供额外的产品,识别那些准备离开的好客户。什么是数据挖掘•电信:流失•银行:聚类(细分),交叉销售•百货公司/超市:购物篮分析(关联规则)•保险:细分,交叉销售,流失(原因分析)•信用卡:欺诈探测,细分•电子商务:网站日志分析•税务部门:偷漏税行为探测•警察机关:犯罪行为分析•医学:医疗保健数据挖掘应用领域数据挖掘效益分析(直邮)(BigBank&CreditCardCompany)目的:发现新客户数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000第二部分:数据挖掘标准流程——CRISP-DMCRISP-DM简介•CRISP-DM是CRoss-IndustryStandardProcess-DataMining的缩写•由SPSS、NCR、Daimler-Benz在1996年制定•CRISP是当今数据挖掘业界通用流行的标准之一•它强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域CRISP-DM•商业理解•数据理解•数据准备•建立模型•模型评估•模型发布商业理解(BusinessUnderstanding)•找问题-确定商业目标•对现有资源的评估•确定问题是否能够通过数据挖掘来解决•确定数据挖掘的目标•制定数据挖掘计划数据理解(DataUnderstanding)•确定数据挖掘所需要的数据•对数据进行描述•数据的初步探索•检查数据的质量数据准备(DataPreparation)•选择数据•清理数据•对数据进行重建•调整数据格式使之适合建模建立模型(Modeling)•对各个模型进行评价•选择数据挖掘模型•建立模型模型评估(Evaluation)•评估数据挖掘的结果•对整个数据挖掘过程的前面步骤进行评估•确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型模型发布(Deployment)•把数据挖掘模型的结果送到相应的管理人员手中•对模型进行日常的监测和维护•定期更新数据挖掘模型第三部分:数据挖掘工具—SPSSClementine简介•Makeadifferencewiththe•predictivepowerofdatamining应用Clementine达到你数据挖掘的目标•图形化的界面、数据流的形式建立模型,保证了应用Clementine进行数据挖掘关注商业更甚于关注技术本身•开放式的技术是更好的保护您的投资的保障•高度的扩展性保证对数据库中大量的数据进行挖掘•业界领先的发布技术使数据挖掘结果更好的传递到相应管理人员手中把你的商业经验溶入数据挖掘过程是数据挖掘成功的关键Betterdataminingresults!InsightBusinessproblem?Whatyouknow丰富的数据挖掘算法•PredictionNeuralnet,C5.0•ClassificationNeuralnet,C5.0•SegmentationKohonen,Kmeans,C5.0•AssociationApriori,GRI,Webgraph•SequenceCaprI,NeuralNet,Regression与SPSS及AnswerTree无缝集成提供更多的算法•LogisticRegression•DiscriminantAnalysis•FactorAnalysis•Manymore...•C&RT•CHAID•ExhaustiveCHAID•QUEST使你在数据仓库上的投资得到最大的回报•Sybase•DB2•Informix•OpenIngress•Oracle•SQLServer•+ODBCdriversforothers•+ODBCsocketfornativedrivers开放的建模性能在Clementine中通过CEMI加入新的算法Clementine的系统结构1.Performmanyoperationsinthedatabase.2.Performtherestonapowerfulserver.3.Usetheclientprocessorforviewingresults.ClementineServerdelivershugeperformancegains•Generatingadistributiongraph–995secondswhenprocessedonthedesktop–69secondswhenprocessedontheserver–19secondswhenpushedbackintothedatabaseIn-databaseprocessingdeliversbetterperformanceasdatasetsgetlarger•Selectingcases–secondsrequiredformillionsofrecordswhenprocessedontheserverv.inthedatabaseClementineServercutsmodelbuildingtimeupto90%•Modelbuilding–timeneededforbuildingmodelsontheserverasapercentageofthetimeneededforbuildingthemodelonthedesktopClementineSolutionPublisher:领先的模型发布技术ModelexportClementineSolutionPublisher:modelandprocessingSPSS为您提供全方位的服务,帮助您获得商业成功•全方位的服务•全球性的公司•与业界领袖的伙伴关系