复旦商务智能概论--4数据挖掘PrinciplesofDM

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘原理赵卫东博士复旦大学软件学院WhatisDataMining?AccordingtotheGartnerGroup,Dataminingistheprocessofdiscoveringmeaningfulnewcorrelations,patternsandtrendsbysiftingthroughlargeamountsofdatastoredinrepositories,usingpatternrecognitiontechnologiesaswellasstatisticalandmathematicaltechniques.Dataminingreferstotheworkofdiscoveringnewanduseful(business)knowledgefromlargerealdatabasesthroughanon-trivialprocessandusingasoundmethodologyandmultipledataprocessingandanalyticaltechniques.Examples:Detecttaxationfraud:notdeclaringallincomefortaxation;Fromthethousandsofmobilephonecustomers,predictwhichcustomersaregoingtoswitchtoacompetitor.数据挖掘受多学科的影响数据挖掘是一个交叉科学领域,受多个学科影响,包括数据库系统、统计、机器学习、可视化和信息科学。一个比较正式的数据挖掘的定义高层次上的主动式自动发现方法,被称为发现驱动型知识发现。从数据中提取正确的、有用的、未知的和综合的信息并用它进行决策的过程。数据挖掘的相关学科是统计理论、数据库技术和人工智能。前BusinessObjects的ToddRowe曾表示:“从技术上讲,甚至只要有完备的Excel数据就能用上BI。”过程数据挖掘并不是一个装在软件包装盒中的工具可以简单的买到并运行在商业智能环境中,也不会自动开始产生值得注意的商业规律。正确的提取的信息应该是正确的,并且在统计上是重要的以支持有依据的决定。正确意味着确证性和完整性。不但需要从数据库中得到正确的客户,还希望得到所有正确的客户。这就需要原始数据和数据挖掘过程都具有正确性。有用的数据挖掘过程可能会传递正确的和重要的结果,但是这些知识必须是对商业有用的。如结果告诉你要在一个大量的渠道上多样化市场运作,这可能会无法办到。同样结果必须使你能抢在竞争对手之前行动。未知的数据挖掘要产生新的信息。如果过程只是传递一些无关紧要的结果,那么数据挖掘的商业动力就会消失。这就是区分验证和探索的性质。最小要求以上显示了数据挖掘最小要求,可以用它来评价数据挖掘是否对业务环境增加了附加的价值其他要求WhyDataMining?GainaninsightintobusinessdataIdentifyusefulpatterns,correlationsandmodelsfromdataautomaticallytoanswerquestionslike,Whichcustomerislikelytochurnintwomonths?Whichcustomerismycrossselltarget?Whatarethecharacteristicsofmyhighspendingandlowspendingcustomers?DataminingisacoretechnologyofbusinessintelligenceDataminingisacoreapplicationofdatawarehousesDataminingisthecoretechnologyofanalyticalCRMDataminingisthecoretechnologyofonlinerecommendationandpersonalizationine-commerceDatamininghasbecomeapartofbusinessfunctioninmanycompaniesDataminingisregularlyusedin典型的数据挖掘系统结构Verification-DrivenAnalysisVerification-drivendataminingtoolsextractdata.Theuserisexpectedtogenerateinformationbasedonhisinterpretationofthereturneddata.NewProcessWithDataMiningDiscovery-drivenComputersiftsthroughmillionsofhypothesesandonlypresentsthemostinteresting/validonesExample:Fromasamplegroupofclientsthathavedefectedtoacompetitivebank-identifyclientcharacteristicsthatarestronglycorrelated,andusingtheseattributes,scoretherestoftheclientandprospectpopulationandthestrengthoftheirrelationshipstosamplegroup.WhatCanDataMiningDo?ClassificationandEstimationPredictionForecastingClusteringandSegmentationAssociationDiscoveryDescriptionandvisualizationMarketBasedAnalysisandUp-Selling/Cross-SellingPharmaceuticalIndustry:DrugEffectivenessbyPatientTypeDefectAnalysisinManufacturingUniversityandEmployeeRecruitmentEmployeeTurnoverPredictionsCreditRiskDeterminationCreditCardFraudCustomerGroupingandBehaviourPrediction数据挖掘过程占70%的工作量,是最重要的阶段占25%的工作量原始数据库目标数据预处理后数据部署数据挖掘结果抽取预处理数据挖掘评估定义业务问题数据预处理(占70%工作量)数据建模(占25%工作量)结果分析系统演示EffortDistributionCRISP–DMisaniterative,adaptiveprocess.IBMIntelligentMiner可视化界面AlphaMiner界面数据挖掘过程是循环的过程上图会容易造成一个线性过程的印象。事实上,每一步的结果会导致这样一个结论:需要从前几步中得到更多的信息,并不断重复这一过程。这些循环保证了最后的结果是完全为业务量身定制的。业务分析理想化地,公司中的所有活动都在不同程度上通过策略和商业目标与公司的任务描述相关。数据挖掘使你能够比以前在更高的层次上控制你的目标。业务分析涉及到领域专家和挖掘专家。前者专心于规定商业需求,而后者从数据挖掘的观点上保证这些要求的可行性,并且具体说明满足这些要求所需的挖掘操作。数据分析为了研究使用统计方法的数据,可能有必要清理数据,添入缺损的值,或者从几个系统中将数据整合起来。数据分析将会对以后步骤中必须的数据转换提供一个初步的了解,比如数据清理和整合。可能也会指出获取外部的信息是必要的,比如说日常商业运作中并不需要的顾客人口统计数据。在这一步中涉及到的角色是挖掘专家,他们执行大部分的任务,还有数据库管理员,他们将通过提供数据的访问权限来支持这些活动。数据准备当挖掘所需的数据可供使用时,往往需要在真正进行挖掘前做一些准备工作。对于是否需要做这些准备工作,大部分在数据分析步骤中进行评估。数据质量数据显示出一些特定的值,叫做偏离点,它们远离预期的正常范围。这些值可用多种方法来处理:如果它们仍在现实中存在的话,对这些数据取对数可以将它们转化到较小的范围。否则可以将包含这些值的记录除去,或者将所有记录中的相关属性除去。空缺值一个更常见的问题是空缺值。此外,有些记录的值可能空缺,或者某一个属性可能会有大量的空缺值。对第一种情况,可以不使用这些记录;对第二种情况,可以丢弃这个属性。猜测空缺值另一种处理空缺值的方法是归咎(imputation)。可以用几种技术来猜测空缺值,下面是一些相关技术,复杂度逐渐增加:从别的记录中随机抽取一个值添入。取其他记录中对应属性的最频值,中间数或平均数。对其他记录中这个属性的值分布做一个统计模型,然后根据分布情况,随机选一个值。试图用统计或挖掘技术从相似记录的值中预估空缺值。数据预处理数据中的不一致性数据挖掘能够有效地处理数据中的不一致性。即使源数据是干净的、整合的和经过验证的,它们仍有可能包含现实世界的不真实的数据。有效认识和解决数据质量相关问题的唯一办法,就是企业对内部处理流程进行监视、分析和报告。美国硬盘生产商Maxtor公司的首期信息长官斯考特.海卡尔说“商务智能最大的困难在于需要确保用于总结性分析和仪表板中的最底层的数据永远干净、一致并相关。我们需要数据仓库具备自我治疗能力,能够自动地感应、侦查、通告和维修任何不正确、缺失或未经核对的数据因素。但这至少需要一到两年才会发生。”噪声这种噪声可能是由用户的错误输入或是顾客填写问卷时的笔误造成的。如果这些错误不是发生的太频繁,数据挖掘工具还是能够忽略它们,并且找出数据中存在的整体模式。脏数据形成的原因滥用缩写词数据输入错误不同的惯用语(如:ASAP对“atfirstchance”)重复记录丢失值拼写变化不同的计量单位过时的编码数据清洗(客户数据)Maggie.kline@future_electronics.comMargaretSmith-KlinephdFUTUREElectronics5/23/031016thavemanhattanny10012001124367Salutation:Ms.Firstname:MargaretLastname:Smith-KlinePostname:Ph.D.Matchstandards:Maggie,Peg,PeggyGender:StrongFemaleCompanyname:FutureElectronicsAddress1:101AvenueoftheAmericasCity:NewYorkState:NYZIP+4:10013-1933Email:maggie.kline@future_electronics.comSSN:001-12-4367DateMay23,2003输入记录输出记录MsMargaretSmith-KlinePh.D.FutureElectronics101AvenueoftheAmericasNewYorkNY10013-1933maggie.kline@future_electronics.comMay23,2003姓名:Ms.MargaretSmith-KlinePh.D.公司名:FutureElectronicsCo.LLC社会保障号:001-12-4367购买日期:5/23/2003地址:101AvenueoftheAmericasNewYork,NY10013-1933纬度:40.722970经度:-74.005035Fedcode:36061电话:(222)922-9922Email:maggie.kline@future_elect

1 / 39
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功