数据挖掘在CRM中的应用作者:赵纪元出处:yesky摘要:本文简要的阐述了数据挖掘的基本概念,探讨了数据挖掘在CRM中的应用,论述了SAS数据挖掘的方法,最后通过案例分析说明数据挖掘是企业决策分析的有效工具。引言随着计算机技术、网络技术、通讯技术和Internet技术的发展,各行各业业务操作流程的自动化,企业内产生了数以几十或上百GB计的大量业务数据。这些数据和由此产生的信息是企业的财富。它如实的记录着企业运作的本质状况,但是面对如此海量的数据,迫使人们不断寻找新的工具,来对企业的运营规律进行探索,为商业决策提供有价值的知识,使企业获得利润。能满足企业这一迫切需求的强有力的工具就是数据挖掘。一、基本概念那么什么是数据挖掘呢?简单地说,数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识、模型或规则的过程。对于企业而言,数据挖掘有助于发现业务的趋势,揭示已知的事实、预测未知的结果。从这个意义上讲,知识是力量,数据挖掘是财富。二、数据挖掘在CRM中的应用数据挖掘按照其功能以及应用来划分,主要有:分类、关联、时间模式和聚类。它们可以应用到以客户为中心的企业决策分析和管理的各个不同领域和阶段。在客户关系管理(CRM)中,它可以应用在以下几个方面:-客户群体分类分析;-客户效益分类分析和预测;-客户背景分析;-客户满意度分析;-交叉销售;-客户信用分析;-客户流失分析;-客户的获得与保持等。1.客户群体分类分析近年来,一对一营销正在被众多的企业所青睐。一对一营销是指了解每一个客户,并同其建立起持久的关系。数据挖掘可以把大量的客户分成不同的类,在每一个类里的客户具有相似的属性,而不同类里的客户的属性也不同。正所谓的“物以类聚,人以群分”。例如,化装品企业的客户分为:少儿、青年、中年和老年或者按性别分为男、女,通过数据挖掘知其不同客户的爱好,提供有针对性的产品和服务,来提高不同类客户对企业和产品的满意度。2.交叉销售现代企业和客户之间的关系是经常变动的,一旦一个人或一个团体成为企业的客户,就要竭力使这种客户关系趋于完善,需要对现有的客户进行交叉销售,为原有客户销售新的产品和/或服务。交叉销售是建立在win-win原则上的,对客户来讲,要得到更多更好满足他需求的服务且从中受益,对企业来讲,也会因销售额的增长而获益。数据挖掘可以帮助你分析出最优的合理的销售匹配。3.新客户的获得和老客户的保留企业的增长和发展壮大需要不断维持老的客户,不断获得新的客户。不论企业希望得到的是哪类客户,数据挖掘都能帮助你识别出这些潜在的客户群,并提高市场活动的响应率,使你做到心中有数,有的放矢。三、SAS数据挖掘的方法(SEMMA)1.Sample──数据取样当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据。通过数据取样,要把好数据的质量关,一定要保证取样的代表性、真实性、完整性和有效性。这样才能通过此后的分析研究得出反映本质规律性的结果。2.Explore──数据特征探索、分析和予处理当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求;其中有没有什么明显的规律和趋势;有没有出现你所从未设想过的数据状态;因素之间有什么相关性;它们可区分成怎样一些类别……这都是要首先探索的内容。进行数据特征的探索、分析,最好是能进行可视化的操作,如SAS的SAS/INSIGHT和SAS/SPECTRAVIEW。这两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形。它们不仅能做各种不同类型统计分析显示,而且可做多维、动态、甚至旋转的显示。应用这两个工具对样本数据进行预分析、推测主要的数据、异常趋势和规律性。3.Modify──问题明确化、数据调整和技术选择通过Sample和explore两步之后,对原来要解决的问题可能会有了进一步的明确,这时要尽可能对问题解决的要求能进一步的量化。在问题进一步明确化的基础上,你就可以按照问题的具体要求来审视你的数据集了,看它是否适应你的问题的需要。针对问题的需要,可能要对数据进行增删,也可能按照你对整个数据挖掘过程的新认识,要组合或者生成一些新的变量,以体现对状态的有效的描述。SAS对数据强有力的存取、管理和操作的能力保证了对数据的调整、修改和变动的可能性。4.Model──模型的研发、知识的发现数理统计方法是数据挖掘工作中最常用的主流技术手段。SAS/STAT软件包中就覆盖了所有的实用数理统计方法,提供了十多个过程可进行各种不同类型模型、不同特点数据的回归分析,如正交回归、响应面回归、Logistic回归、非线性回归等,且有多种形式模型化的方法选择。可处理的数据有实型数据、有序数据和属性数据,并能产生各种有用的统计量和诊断信息。在方差分析方面,SAS/STAT为多种试验设计模型提供了方差分析工具。更一般的,它还有处理一般线性模型和广义线性模型的专用过程。在多变量统计分析方面,SAS/STAT为主成分分析、典型相关分析、判别分析和因子分析提供了许多专用过程。SAS/STAT含有多种聚类准则的聚类分析方法。利用SAS/STAT可进行生存分析(这对客户保有程度分析等特别有用)。这些工具不仅能揭示企业已有数据间的新关系、隐藏着的规律性;而且能反过来预测它的发展趋势,或是在一定条件下将会出现什么结果。另外,SAS人工神经元网络和决策树的方法结合起来可用于从相关性不强的多变量中选出重要的变量。采用哪一个模型,一方面,主要取决于你的数据集的特征和你要实现的目标,另一方面,数据挖掘是一个反复的、不簖深化的和实践的过程。在实践中选出最适合于你的模型。5.Assess──模型和知识的综合解释和评价从上述过程中将会得出一系列的分析结果、模式或模型。若能得出一个直接的结论当然很好。但更多的时候会得出对目标问题多侧面的描述。这时就要能很好的综合它们的影响规律性提供合理的决策支持信息。所谓合理,实际上往往是要你在所付出的代价和达到预期目标的可靠性的平衡上作出选择。假如在你的数据挖掘过程中,就预见到最后要进行这样的选择的话,那末你最好把这些平衡的指标尽可能的量化,以利你综合抉择。你提供的决策支持信息适用性如何,这显然是十分重要的问题。除了在数据处理过程中SAS软件提供给你的许多检验参数外,评价的办法之一是直接使用你原来建立模型的样板数据来进行检验。假如这一关就通不过的话,那末你的决策支持信息的价值就不太大了。一般来说,在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。四、案例分析本案例是应用SAS的数据挖掘方法(SEMMA)、工具(SAS/EM)及采用人工神经网络模型对某集团对其某一个产品客户是否愿意购买的调查表响应的分析和决策。如果不采用数据挖掘这一工具,对此问题,企业的决策者可能会显得茫然,或凭经验或凭直觉给出极为粗略的答复。图1是用SAS/EM一个数据挖掘的界面。在SAS/EM的窗口下,只需Drag-and-Drop即可迅速的实现该项目的挖掘过程的搭建,包括创建数据源、数据取样、数据分割、变量转换、数据探索及预处理、人工神经网络建模、模型评估和决策及展示等。图1:SAS/EM数据挖掘的过程及界面图2是对该活动利用人工神经网络做出的结果。从图2中可以看出,当企业不进行任何建模分析时,盲目的将调查表发出,其响应率约为23.9%。这样既浪费了人力、才力和时间,又不能调查者进行分析,我们并不知道具有什么特征的客户喜欢这个产品并将调查表提交。神经网络能够根据数据集的分布特征自动的发现规律,并以权值表示之。这些权值实际上表征着并隐藏着客户的特征,如年龄在30-45岁之间的大多数客户喜欢该产品并乐意将调查表提交。从图2中看出,如果企业将调查表减少为原来的30%,并按神经网络权值隐含的规则散发调查表,其响应率可望达到33%。如果企业将调查表减少为原来的10%,并按神经网络权值隐含的规则散发调查表,其响应率可望达到51%。图2:神经网络模型的分析图3是在图2神经网络模型指导下,对新的数据源进行决策的结果的展示。按照该神经网络模型权值隐含的规则,发出调查表,响应率高达48%。这样,既节约了人力,财力,又对客户的特征进行了分析,为企业的决策提供了支持。图3:利用神经网络作出的决策的展示小结在信息时代,要充分利用企业的信息资源,从以产品为中心的管理模式转变为以客户为中心的管理模式上来,利用数据挖掘技术,分析客户的特征,探索企业和所对应市场的运营规律性,不断提高企业的经济效益是企业发展的必由之路。