数据挖掘与客户关系管理培训课件

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘与客户关系管理全有文档案例卓越亚马逊的推荐系统学习目标通过本章的学习,将能够:•理解数据挖掘的含义•熟悉数据挖掘的功能•熟悉数据挖掘的主要技术•掌握数据挖掘的业务流程•了解客户关系管理对数据挖掘的需求•理解数据挖掘在客户关系管理中的作用第10章CRM与数据挖掘1数据挖掘概述2数据挖掘的任务、技术和实施过程3数据挖掘在CRM中应用4CRM数据挖掘应用实例5数据挖掘软件在CRM中的应用示例1数据挖掘概述1.1数据挖掘的产生1.2数据挖掘的定义1.3数据挖掘的技术1.4数据挖掘的功能1.5数据挖掘的流程1.6数据挖掘的发展方向1.1数据挖掘的产生•数据爆炸但知识贫乏•支持数据挖掘技术的基础•数据挖掘逐渐演变的过程数据挖掘数据库越来越大有价值的知识可怕的数据数据爆炸但知识贫乏数据挖掘的出现数据爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期数据爆炸但知识贫乏更大,更便宜的存储器--磁盘密度以Moore’slaw增长--存储器价格飞快下降更快,更便宜的信息处理器--分析更多的数据--适应更多复杂的模型--引起更多查询技术--激起更强的可视化技术数据挖掘处理技术--数理统计--人工智能--机器学习支持数据挖掘技术的基础数据挖掘的演化•机器学习•数据库中的知识发现•数据挖掘1.2数据挖掘的定义•SAS研究所(19910):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。•Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。•Handetal(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。数据挖掘的定义•技术角度的含义•商业角度的含义•与传统方法的区别数据挖掘的技术上的定义•数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。•这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。数据挖掘的商业角度的定义•按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。客户接触客户信息客户数据库统计分析与数据挖掘客户知识发现客户管理知识发现:从数据中深入抽取隐含的、未知的和有潜在用途的信息从商业数据到商业智能数据挖掘与传统分析方法的区别•数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.•先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系1.3数据挖掘的功能•自动预测趋势和行为•关联分析•对象分类•聚类分析•概念描述•偏差检测数据挖掘功能—预测•数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。数据挖掘功能—关联分析•数据关联是数据库中存在的一类重要的可被发现的知识。•若两个或多个变量的取值之间存在某种规律性,就称为关联。•关联可分为简单关联、时序关联、因果关联。•关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。•关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。•时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。数据挖掘功能—分类•按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。数据挖掘功能—聚类•数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。数据挖掘功能—概念描述•概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。数据挖掘功能—偏差检测•数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。•偏差检测对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。1.4数据挖掘应用•应用领域:银行、电信、保险、交通、零售等商业领域•能解决的典型商业问题包括:–数据库营销(DatabaseMarketing)–客户群体划分(CustomerSegmentation&Classification)–背景分析(ProfileAnalysis)–交叉销售(Cross-selling)–客户流失性分析(ChurnAnalysis)–客户信用记分(CreditScoring)–欺诈发现(FraudDetection)各行业电子商务网站算法层商业逻辑层行业应用层商业应用商业模型挖掘算法CRM产品推荐客户细分客户流失客户利润客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析…WEB挖掘网站结构优化网页推荐商品推荐。。。基因挖掘基因表达路径分析基因表达相似性分析基因表达共发生分析。。。银行电信零售保险制药生物信息科学研究。。。相关行业数据挖掘的应用Debt10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome$40KQQQQII123456factor1factor2factorn神经网络NeuralNetworks聚类分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis决策树DecisionTrees•倾向性分析•客户保留•客户生命周期管理•目标市场•价格弹性分析•客户细分•市场细分•倾向性分析•客户保留•目标市场•欺诈检测关联分析Association•市场组合分析•套装产品分析•目录设计•交叉销售数据挖掘的应用1.5数据挖掘未来研究方向•发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;•寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;•研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现WebMining;•加强对各种非结构化数据的开采(DataMiningforAudio&Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;•处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。•交互式发现和知识的维护更新。2数据挖掘的任务、技术、方法和实施过程2.1数据挖掘任务•数据总结•分类发现•聚类分析•关联规则发现2.2数据挖掘技术•数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法。其中,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。●数据挖掘技术的分类——回顾分析:注重解决过去和现在的问题如:两年来不同地区、人口和产品情况下的各销售部门销售业绩分析——预测分析:在历史信息的基础上预测某些事件和行为如:建立预测模型来描述客户的流失率——分类:根据某种标准将数据库记录分类到许多预先定义好的类别如:信用卡公司将客户记录分为好、中、差三类分类可以产生规则:如果一个客户收入超过5000万元,年龄在45-55岁之间,居住在某地区,那么他的信用等级为好。数据挖掘技术●数据挖掘技术的分类——聚类:根据某些属性将数据库分割为一些子集和簇如:在了解客户的过程中,尝试使用从未使用过的属性分割人群以发现潜在客户的簇——关联:通过考察记录来识别数据间的密切关系关联关系常常表现为规则,常用于超市购物篮分析如:所有包含A和B的记录中有60%同时包含C。——时间序列:用于帮助识别与时间有关的模式如:通过对客户多次购物行为的分析可以发现购物行为在时间上的关系常用于产品目录营销的分析数据挖掘的一般目的就是检测、解释和预测数据中定性的和/或定量的模式数据挖掘技术●数据挖掘方法学——模式数据库中一个事件或事件的结合,这些事件比预期的要经常发生,其实际发生率明显不同于随机情况下的可期望发生率。模式是数据驱动的,一般只反映数据本身——模型对构建事件的源时的历史数据库的描述,并且能够成功地应用于新的数据,以便对缺少的数据作出预测或对期望的数据作出说明。模型的一般表现形式数学方程式描述各客户段的规则集计算机表示方式模式可视化数据挖掘技术●数据挖掘方法学——取样根据问题的需要采用随机取样的方法从数据库中抽取数据进行挖掘,有助于迅速发现模式、创建模型数据本身的处理过程需要验证——验证模型模型创建过程需要保证正确模型应用的验证在依据一些历史数据建造模型后,将模型应用于未参与建造模型的其他类似的历史数据,比较其模型输出结果与实际结果。数据挖掘技术人工神经网络•神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多)。神经网络常用于两类问题:分类和回归。决策树•决策树把数据归入可能对一个目标变量有不同效果的规则组。例如,我们希望发现可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。决策树•假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的

1 / 124
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功