数据挖掘的应用林祯舜(EricLin)数据挖掘总监智动营销策划咨询(上海)有限公司新浪创新设计分享论坛2006-04-27北京课程纲要¾数据挖掘的基本概念¾数据挖掘方法论¾点击流数据挖掘¾案例研讨:会员的激活应用数据挖掘的基本概念何谓数据挖掘DataMining?•找寻隐藏在数据中的讯息,如趋势(Trend)、特征(Pattern)及相关性(Relationship)。•KDD的一部份。•运用计算机储存运算能力及使用统计方法工具。DataMining–Definition&Goal•Definition–DMistheexplorationandanalysisoflargequantitiesofdatainordertodiscovermeaningfulpatternsandrules.•Goal–Toallowan“enterprise”*toIMPROVEits______throughbetterunderstandingofits______.–PotentialforCompetitiveAdvantage.What,Who*Synonymsinclude:corporation,firm,non-profitorganization,governmentagencyFoundationsofDataMining9Dataminingistheprocessofusing“raw”datatoinferimportant“business”relationships.9Despiteaconsensusonthevalueofdatamining,agreatdealofconfusionexistsaboutwhatitis.9DataMiningisacollectionofpowerfultechniquesintendedforanalyzinglargeamountsofdata.9Thereisnosingledataminingapproach,butratherasetoftechniquesthatcanbeusedstandaloneorincombinationwitheachother.DataMining–Whynow?1.Dataarebeingproduced2.Dataarebeingwarehoused3.Computingpowerismoreaffordable4.Competitivepressuresareenormous5.DataMiningsoftwareisavailableWhy,Where,When•DataMining结合了六种领域Databasesystems,DataWarehouses,OLAPMachinelearningStatisticalanddataanalysismethodsVisualizationMathematicalprogrammingHighperformancecomputing数据仓储、KDD和dataMining之关系•数据仓库(DataWarehouse):是一个经过处理、整合之数据库。•KDD(KnowledgeDiscoveryinDatabase)是一种知识发现的一连串程序。•数据挖掘(DataMining)只是KDD的一个重要程序。DataMining与DataBase•Datapreparation占了Datamining过程70%•致胜方程式「Database」+「Datamining」=会说话的数据库数据挖掘的功能‧分类(classification)‧推估(estimation)‧预测(prediction)‧关联分组(affinitygrouping)‧同质分组(clustering)资料挖掘相关技术•记忆基础推理法(Memory-BasedReasoning;MBR)•市场购物篮分析(MarketBasketAnalysis)•决策树(DecisionTrees)•基因算法(GeneticAlgorithm)•群集侦测技术(ClusterDetection)•连结分析(LinkAnalysis)•在线分析处理(On-LineAnalyticProcessing;OLAP)•类神经网络(NeuralNetworks)•区别分析(DiscriminantAnalysis)•罗吉斯回归分析(LogisticAnalysis)数据挖掘方法论DataMining’sVirtuousCycle1.Identifythebusinessopportunity*2.Miningdatatotransformitintoactionableinformation3.Actingontheinformation4.Measuringtheresults*Textbookinterchanges“problem”with“opportunity”Modelingisiterative:1.Defineproblem2.Selecttool3.Collectdata4.Makemodel5.Apply6.EvaluateTraditionalstatisticalmethods:firstmodel,thendata数据挖掘是从解决实际问题开始Dataexplorationstartswithdata.Dataexplorationstartswithidentifyinganeed.??!点击流数据挖掘Thesimplemodelsforthreebehavioralprocesses•Timing→“when”•Counting→“howmany”•“Choice”→“whether/which”1.Eachofthesesimplemodelshasmultipleapplications2.MorecomplexbehavioralphenomenacanbecapturedbycombiningmodelsfromeachoftheseprocessesFurtherApplications:TimingModels•Repeatpurchasingofnewproducts•Responsetimes:-Couponredemptions-Surveyresponse-Directmail(response,returns,repeatsales)•Customerretention/attrition•Otherdurations:-Salesforcejobtenure-LengthofwebsitebrowsingsessionFurtherApplications:CountModels•Repeatpurchasing•Customerconcentration(“80/20”rules)•Salesforceproductivity/allocation•NumberofpageviewsduringawebsitebrowsingsessionFurtherApplications:“Choice”Models•Brandchoice•Mediaexposure•Multibrandchoice•Tastetests(discriminationtests)•“Click-through”behavior案例研讨:会员的激活应用一般网站或电子商务网站在经过两年的运营之后会逐渐积累了大量的客户,随着时间的推移,有许多客户因为各种原因不再浏览网站或是不再网站上购物,这些日渐疏离的客户逐渐成为沉睡的客户,在客户逐渐疏离的过程中,一定有一些特别的现象可以甄别出来,一位客户成为沉睡的客户后一定有一些方法可以再次的吸引到他(她),这些原因除了宏观上品牌的影响之外,可以从微观的客户行为上找到刺激的诱因,让沉睡的客户再次的活跃,如果网站完善了数据仓库,许多的原因可以透过数据挖掘在既有的数据中找到答案,因此找到能够激活沉睡会员的利益点(trigger)就是数据挖掘的主要任务,透过利益点和行为数据的分析可以建立针对某些沉睡会员的筛选模型,在会员沉睡之前透过某些活动唤醒(或防止)会员沉睡,从积极主动的角度管理会员。背景问题的定义与厘清问题的定义与厘清商业问题的定义商业问题的定义透过数据挖掘,建立一个机制可以帮助网站,尤其是电子商务网站筛选出可能成为沉睡的客户,进行客户挽留的活动,防止客户流失,增加客户的贡献价值。数据挖掘问题的定义数据挖掘问题的定义建立沉睡客户(客户流失)筛选模型问题的定义与厘清商业及数据挖掘的定义商业及数据挖掘的定义问题的定义与厘清一些思考上的误区一些思考上的误区被动与主动被动与主动沉睡的会员已经沉睡,这是已经发生的事实,任何一个拥有大量客户数据的企业都会面临这个问题,重点是如何预防(或是找到诱因),而不是让沉睡的会员苏醒,因为不管如何做,仍然会有会员不会苏醒(离我们远去),数据挖掘的涵义是要我们从被动的透过营销活动刺激与补救,转换成积极主动的预测及挽留。问题的定义与厘清一些思考上的误区一些思考上的误区前与后前与后不是细分后进行测试,而是在测试后细分。因为细分后测试,我们仍然在假设问题,这是传统市场细分的误区,现在要换个角度思考,我们拥有大量的客户浏览/购买等行为数据,我们可以先不做细分,应该是要从数据中寻找寻找细分的关键变量,这才是真正影响客户行为的主要因素。先暂不做假设,因为我们还没有相关数据的支持。但不表示我们以后不做假设及测试。思考的几个问题沉睡会员的定义沉睡会员的定义建议采用较广泛的定义,先用某时间段没再来访(或登录)的会员当成沉睡的会员。反应变数的选择反应变数的选择开信?登录?浏览?购买?需要哪些字段需要哪些字段确认信息(账号或身分证号)、背景(生日、年龄、地区、学历等)、浏览行为(加入会员的时间、曾经浏览过哪些类别的商品、过去浏览的页数、过去浏览的时间等)、购买行为(过去曾经购买过的商品、曾经消费的次数、金额等)思考的几个问题测试的过程测试的过程思考的几个问题测试的过程测试的过程思考的几个问题测试的过程测试的过程ThankYou!Q&A林禎舜(EricLin)数据挖掘總監智動營銷策劃諮詢(上海)有限公司Tel:021-6428-2926ext8986E-mail:ericlin@pmiims.com