腾讯数据挖掘技术Agenda数据挖掘是什么?1模型+算法2数据挖掘实践分享3心得与总结4从运筹帷幄到决胜千里…舌战群儒草船借箭巧借东风火烧赤壁赤壁怀古苏轼……羽扇纶巾谈笑间樯橹灰飞烟灭......观日月之行,察天地之变风雷电雨云云多会下雨刮风会下雨下雨会闪电闪电会打雷……换成它呢???数据爆炸的时代DataMining,circa1963IBM7090600cases“Machinestoragelimitationsrestrictedthetotalnumberofvariableswhichcouldbeconsideredatonetimeto25.”数据挖掘是……DataInformationKnowledgeWisdomTofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、Data+contextInformation+rulesKnowledge+experience多学科的融合DatabasesStatisticsPatternRecognitionKDDMachineLearningAINeurocomputingDataMiningAgenda数据挖掘是什么?1模型+算法2数据挖掘实践分享3心得与总结4几个基本概念模型(Model)vs模式(Pattern)数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出描述型挖掘(Descriptive)vs预测型挖掘(Predictive)描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征预测型挖掘:根据观察到的对象特征值来预测它的其他特征值描述型挖掘可以是目的,也可以是手段数据挖掘是一个过程-“fromdataminingtoknowledgediscoveryindatabase”.U.fayyad,G.P.ShapiroandP.Smyth(1996)数据挖掘方法论•CRISP_DM(CrossIndustryStandardProcessforDM)–1998年,由NCR、Clementine、OHRA和Daimler-Benz的联合项目组提出•SEMMA–SAS公司提出的方法–Sample,Explore,Modify,Model,Assess•在战略上使用Crisp_DM方法论,在战术上应用SEMMA方法论工欲善其事必先利其器数据清洗填充缺失值,修均噪声数据,识别或删除孤立点,并解决数据不一致问题主要分析方法:分箱(Binning)、聚类、回归数据集成多个数据库、数据方或文件的集成数据变换规范化与汇总数据简化减少数据量的同时,还可以得到相同或相近的分析结果主要分析方法:抽样、主成分分析数据离散化数据简化的一部分,但非常重要(尤其对于数值型数据来说)先来玩玩数据(EDA)探索性数据分析(ExploratoryDataAnalysis,EDA)探索性地查看数据,概括数据集的结构和关系对数据集没有各种严格假定主要任务数据可视化(apictureisworthathousandwords)残差分析(数据=拟合+残差)数据的重新表达(什么样的尺度-对数抑或平方根-会简化分析)方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值)常见方法统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等统计图,如饼图、直方图、散点图、箱尾图等模型,如聚类数据挖掘=模型+算法分类预测关联规则孤立点探测聚类LogisticRegression决策树神经网络K-MeansK-ModeSOM(自组织图)AprioriFP-Growth基于统计基于距离基于偏差你使用过信用卡吗?卡应该发给谁?哪些持卡人会拖欠?哪些拖欠的客户会还款?影响资产组合(Portfolio)1、根据历史,预测将来2、目标是一个分类变量3、预测结果是一个统计意义下的概率1、哪些人可以发卡,额度是多少。2、持卡人拖欠的概率是多少3、该对谁催收分类过程NAMERANKYEARSTENUREDMikeAssistantProf3noMaryAssistantProf7yesBillProfessor2yesJimAssociateProf7yesDaveAssistantProf6noAnneAssociateProf3no训练集分类学习训练集NAMERANKYEARSTENUREDJefProfessor4?IFrank=‘professor’ORyears6THENtenured=‘yes’JefisYES!分类器NAMERANKYEARSTENUREDTomAssistantProf2noMerlisaAssociateProf7noGeorgeProfessor5yesJosephAssistantProf7yes物以类聚,人以群分人为地选取细分维度–客户价值–地域–活跃程度–……维度灾难的发生–维度增长–细分数目指数增长–人脑仅能处理有限的维度市场聚类示意基于欧氏距离的三维空间中的聚类基于质心的聚类算法(K-Means))|||||(|),(222jzizjyiyjxixjidA1A2B1xyz发现商品间的关联规则buy(x,”diapers”)buy(x,”beers”)关联规则的量度支持度:Support(A=B)=#AB/#N,表示A和B同时出现的概率期望可信度:Support(A)=#A/#N,表示A出现的概率置信度:Confidence(A=B)=Support(A=B)/Support(B)改善度:Lift(A=B)=Confidence(A=B)/Support(B)名称描述公式支持度X、Y同时出现的频率P(X∩Y)期望可信度Y出现的频率P(Y)置信度X出现的前提下,Y出现的频率P(Y|X)改善度置信度对期望可信度的比值P(Y|X)/P(Y)关联规则的度量发现具有最小置信度和支持度的全部规则X^YZ支持度(support),s,事务中包含{X&Y&Z}的概率置信度(confidence),c,事务中包含{X&Y}的条件下,包含Z的条件概率TransactionIDItemsBought2000A,B,C1000A,C4000A,D5000B,E,F令最小支持度为50%,最小置信度为50%,则有AC(50%,66.6%)CA(50%,100%)顾客购买尿布顾客购买两者顾客购买啤酒从算法到应用数据挖掘厂商挖掘和统计分析平台–SASEM–SPSSClementine–S+Miner–StatisticDataMiner与数据库集成挖掘平台–IBMIM–Oracle–NCRTeradataMiner–SQL2005DM行业运用及解决方案–Unica–KXEN–HNCAgenda数据挖掘是什么?1模型+算法2数据挖掘实践分享3心得与总结4看看QQ的流失数据流失率2007年3月2007年4月2007年5月2007年6月当月活跃总帐户数253,668,411255,749,736264,006,894269,060,000当月流失老帐户数6,572,0876,006,5825,466,8078,217,569当月老帐户流失率2.59%2.35%2.07%3.05%每个月500~1000万的老用户流失,一年老用户流失接近1亿,实际自然人流失状况虽然没有这么严重,但是仍然是一个惊人的数据。客户流失是每个行业每天都在面对的问题1、建立流失预测模型,回答客户是否要流失,何时流失的问题2、通过预测模型建立客户流失管理机制,更为有效地管理流失,而不是去防止流失一切从目标出发目标变量:即需要根据业务需求确定模型需要预测的对象,在QQ客户流失模型中即是在业务上对“流失”的定义。沉默客户数在4月后区域稳定模型选择连续沉默2个月作为流失的定义目标变量的定义:Good:在表现窗口连续两个月有登陆的客户Bad:在表现窗口连续两个月都没有登陆的客户Intermediate:在表现窗口其中一个月有登陆的客户打开观测用户的窗口训练样本\测试样本观察窗口:2007年1月—2007年3月表现窗口:2007年5月—2007年6月TimeLag:2007年4月交叉校验样本观察窗口:2007年2月—2007年4月表现窗口:2007年6月—2007年7月TimeLag:2007年5月观察窗口表现窗口TimeLagMM-1M-2M-3M-4M-5M+1M+2M+31观察窗口:形成自变量的时间段。表现窗口:形成因变量的时间段。23TimeLag:预留给业务部门进行相应操作的时间段。123变化幅度特征变量描述用户使用量上的变化幅度勾勒出用户行为的特征基本属性变量描述用户的基本属性产品使用行为特征描述用户使用产品的情况消息业务使用行为特征描述用户使用消息业务的情况音频业务使用行为特征描述用户使用音频业务的情况视频业务使用行为特征描述用户使用视频业务的情况客户在线的行为特征从在线时长,登陆次数,登陆频率等角度研究用户的使用行为归属地变化的行为特征描述用户在某一时间周期内登陆所在地的变化情况中间变量比例特征变量描述用户业务使用占比基础变量变量描述行为趋势特征变量描述用户的使用行为变化趋势变量描述黄沙吹尽始到金基础变量和中间变量数目约为224个经过变量变换后的变量数目约为1700个变量筛选使用Logistic回归的Stepwise方法进行下一步拟合卡方统计量ChiSquare信息价值InformationValue信息增益GainIndex单变量回归偏相关分析PartialCorrelationLift曲线训练样本Lift图01234560123456789十分位Lift值Lift十分位样本数量Lift0226,7295.171226,7292.272226,7281.033226,7300.554226,7290.355226,7290.256226,7300.157226,7290.118226,7290.079226,7300.05Total2,267,2931ROC曲线训练样本的ROC曲线0%10%20%30%40%50%60%70%80%90%100%0%10%20%30%40%50%60%70%80%90%100%十分位实际流失占比50%75%建立闭环的业务流程流失客户分析数据挖掘数据分析数据采集/ETL现有流程评估计划和设计挽留行动执行挽留行动评估挽留结果调整应用流程Agenda数据挖掘是什么?1模型+算法2数据挖掘实践分享3心得与总结4几点心得实施数据挖掘是一个战略性举措BusinessFirst,TechniqueSecond数据挖掘不是万能的,没有它也不是万万不能数据挖掘是一个循环探索的过程参考文献网络资源!!