客户数据挖掘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

*项目四客户信息的数据挖掘*案例卓越亚马逊的推荐系统*学习目标通过本章的学习,将能够:*理解数据挖掘的含义*熟悉数据挖掘的功能*熟悉数据挖掘的主要技术*掌握数据挖掘的业务流程*了解客户关系管理对数据挖掘的需求*理解数据挖掘在客户关系管理中的作用4数据挖掘数据库越来越大有价值的知识可怕的数据数据挖掘背景5数据爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS人口统计生命周期——数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。●数据挖掘(DataMining)——数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。——数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘数据挖掘的特点——数据挖掘与传统分析方法的区别数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征:先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识有效信息是指符合实际情况且具有一定的代表性可实用是指可以指导企业的营销决策**数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识*数据挖掘所得到的信息应具有先未知、有效和可实用三个特征*数据源必须是大量的、真实的、有噪声的*发现的是用户感兴趣的知识*发现的知识要可接受、可理解、可运用*并不要求发现放之四海皆准的知识,仅支持特定的发现问题*数据挖掘任务:描述和预测*描述可以通过下述方法得到:*1、数据特征化*2、数据区分*3、数据特征化和比较客户接触客户信息客户数据库统计分析与数据挖掘客户知识发现客户管理知识发现:从数据中深入抽取隐含的、未知的和有潜在用途的信息从商业数据到商业智能各行业电子商务网站算法层商业逻辑层行业应用层商业应用商业模型挖掘算法CRM产品推荐客户细分客户流失客户利润客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析…WEB挖掘网站结构优化网页推荐商品推荐。。。基因挖掘基因表达路径分析基因表达相似性分析基因表达共发生分析。。。银行电信零售保险制药生物信息科学研究。。。相关行业数据挖掘的应用Debt10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome$40KQQQQII123456factor1factor2factorn神经网络NeuralNetworks聚类分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis决策树DecisionTrees•倾向性分析•客户保留•客户生命周期管理•目标市场•价格弹性分析•客户细分•市场细分•倾向性分析•客户保留•目标市场•欺诈检测关联分析Association•市场组合分析•套装产品分析•目录设计•交叉销售数据挖掘的应用●数据挖掘技术的分类——回顾分析:注重解决过去和现在的问题如:两年来不同地区、人口和产品情况下的各销售部门销售业绩分析——预测分析:在历史信息的基础上预测某些事件和行为如:建立预测模型来描述客户的流失率——分类:根据某种标准将数据库记录分类到许多预先定义好的类别如:信用卡公司将客户记录分为好、中、差三类分类可以产生规则:如果一个客户收入超过5000万元,年龄在45-55岁之间,居住在某地区,那么他的信用等级为好。数据挖掘技术●数据挖掘技术的分类——聚类:根据某些属性将数据库分割为一些子集和簇如:在了解客户的过程中,尝试使用从未使用过的属性分割人群以发现潜在客户的簇——关联:通过考察记录来识别数据间的密切关系关联关系常常表现为规则,常用于超市购物篮分析如:所有包含A和B的记录中有60%同时包含C。——演变分析:描述行为随时间变化的对象的规律或趋势如:通过对客户多次购物行为的分析可以发现购物行为在时间上的关系常用于产品目录营销的分析数据挖掘的一般目的就是检测、解释和预测数据中定性的和/或定量的模式数据挖掘技术*(四)孤立点分析*数据库中包含一些数据对象,他们与数据的一般行为或模型不一致。*(五)分类和预测*找出描述并区分数据类或概念的模型,以便能够使用模型预测和分类标志未知的对象类。●现代方法——关联规则(AssociationRules)关联规则的表现形式关联规则是一种无指导学习的数据挖掘中最普遍的知识发现,是指在行为上具有某种关联的多个事物在一次事件中可能同时出现,从而在多个事物中建立联系规则的方法。“如果怎么样、怎么样、怎么样,那么就会怎么样”关联规则的构成前件——“如果怎么样、怎么样、怎么样”后件——“那么就怎么样”——如果买了西装,就会买领带——如果买精显彩电,就会买家庭影院系统规则的构成如果怎么样、怎么样、怎么样,就会怎么样前件,激发条件后件,结果规则表现为在前件所有条件成立的前提下,后件结果会以某一正确概率出现关联规则(AssociationRules)规则的置信度和支持度关联规则(AssociationRules)规则的置信度又称为规则的正确率,是指在前提出现的情况下,后件出现的概率规则的支持度又称为规则的覆盖率,是指包含规则出现的属性值的交易占所有交易的百分比例:如果客户买牛奶,那么他们也会买面包置信度:在10000次交易中客户购买了牛奶,而且其中的5000个交易也同时购买了面包,则上述规则的置信度为5000/10000=50%支持度:在超市一个月的客户交易中,共有600000次交易,其中购买牛奶的交易为60000次,支持度为60000/600000=10%规则的生成●现代方法——关联规则(AssociationRules)最近邻方法规则:如果一个客户处于●的状况,那么他可能是一个逃款者关联规则可以使用传统的方法生成,但适当提供的属性很多时,因为每条规则的结果可能包含大量的前提条件,使用传统方法会变得不切实际。规则的生成——关联规则(AssociationRules)市场篮子分析就是一种关联规则的表现时间序列分析是一种反映客户行为在时间上的关联性的关联规则•商业银行的客户细分*规则的应用——关联规则(AssociationRules)——以前件为目标——归纳所有前件一样的规则——分析后件的营销效果——设计促销方案(完善前件)——例——收集所有前件为文具、复读机的规则,分析这些商品打折是否促进其他高利润商品的销售,从而调整商品结构、设计促销方案规则的应用——关联规则(AssociationRules)——以后件为目标——归纳所有后件一样的规则——分析什么因素与后件有关或对后件有影响——设计前件促成后件——例——收集到所有后件为西装的规则,可以帮助我们了解西装的销售受哪些因素的影响或与哪些因素相关,从而可以考虑将这些因素集合在一起而产生促销效果。规则的应用——关联规则(AssociationRules)置信度低置信度高支持度高支持度低规则的置信度和支持度规则很少是正确的,但可以经常使用规则很少是正确的,而且很少被使用规则多数情况下是正确,但很少被使用规则多数情况下是正确的,而且可以经常使用——以置信度或支持度为目标**BellAtlantic的数据挖掘系统非常成功,不仅为他们的业务开展带来很大的方便,而且节省了许多开支。BellAtlantic的电话服务目前已经覆盖了美国14个州,拥有商业电话、住家电话帐户近亿个。*BellAtlantic数据挖掘系统的首要任务就是尽快地追收拖欠的电话费,同时尽量减少收债部门的成本。**软件系统的选择非常重要。经过反复挑选后,BellAtlantic采用了SAS统计软件系统建立数据挖掘系统,然后在SAS环境中利用SAS宏程序建立挖掘系统。*然后是建立SAS格式库。许多数据需要格式化,比如年龄,可以从20到100岁,需要分成不同的组,这都需要利用模式来进行数据转换。有的数据不是连续变量,比如婚姻状况(单身/已婚),也需要进行一些变换才可以进行计算。日期也是需要模式化的,不同计算机系统记录日期方法不同,需要把日期转换成一致的方法。在金融保险行业日期这个变量非常重要,因为很多客户的行为都记录在日期里面了。电话公司里记帐、付款的日期也非常重要。●数据挖掘方法学——模式数据库中一个事件或事件的结合,这些事件比预期的要经常发生,其实际发生率明显不同于随机情况下的可期望发生率。模式是数据驱动的,一般只反映数据本身——模型对构建事件的源时的历史数据库的描述,并且能够成功地应用于新的数据,以便对缺少的数据作出预测或对期望的数据作出说明。模型的一般表现形式数学方程式描述各客户段的规则集计算机表示方式模式可视化数据挖掘技术●数据挖掘方法学——取样根据问题的需要采用随机取样的方法从数据库中抽取数据进行挖掘,有助于迅速发现模式、创建模型数据本身的处理过程需要验证——验证模型模型创建过程需要保证正确模型应用的验证在依据一些历史数据建造模型后,将模型应用于未参与建造模型的其他类似的历史数据,比较其模型输出结果与实际结果。数据挖掘技术●经典方法——统计统计可以通过对类似下列问题的回答获得模式○在我的数据库中存在什么模式○某个事件发生的可能性是什么○那些模式是重要的模式统计的一个重要价值就是它提供了对数据库的高层视图,这种视图提供了有用的信息,但不要求在细节上理解数据库的每一条记录。01020304050607080901季度2季度3季度4季度东部西部北部数据挖掘方法●经典方法——最近邻通过检测与预测对象最接近的对象的状况对预测对象进行预测原理:某一特定对象可能与其他某一或某些对象比其它一些第三对象更接近;相互之间“接近”的对象会有相似的取值根据其中一个对象的取值,预测其最近邻对象的预测值商业应用:文献检索市场篮子分析应用评价:最近邻的数量最近邻的距离决定最近邻预测的可信度数据挖掘方法●现代方法——基础理论有指导的学习(SupervisedLearning)归纳概念分类标准与模型分类有指导的学习的目的:建立分类模型用模型确定新数据实例的类别训练数据(TrainingData)与检验集(TestSet)用于创建模型的数据实例称为训练数据用于检验模型的准确度的数据实例称为检验集数据挖掘方法有指导的学习(SupervisedLearning)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿数据挖掘方法患者代码嗓子痛发烧淋巴肿充血头痛诊断结果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?有指导的学习(SupervisedLearning)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴肿发烧NoNoYesYes咽炎敏感症感冒淋巴肿、发烧是有意义的属性嗓子痛、充血、头痛是无意义的属性数据挖掘方法有指导的学习(Supervi

1 / 65
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功