运用呼叫中心的电子邮件整合顾客信息用于客户流失预测

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

通过呼叫中心电子邮件整合顾客的声音进入决策支持系统,为客户流失预测——KristofCoussement,DirkVandenPoel比利时根特大学,经济及工商管理学院,市场营销系,比利时根特Tweekerkenstraat2,9000Ghent,2006年10月9日收到;2007年8月7日收到修改形式,2008年1月21日被接受;2008年三月十七日在线提供摘要:我们研究流失预测决策支持系统性能优化的问题。特别是,我们调查以下措施的有利影响,即通过呼叫中心的电子邮件加入顾客的声音,—即文字信息—到一个只使用传统营销信息的客户流失预测系统。我们发现,加入非结构化文本信息到传统的流失预测模型,使预测性能显著增加。从管理的角度来看,这个综合框架帮助营销决策者更好的确定最容易改变的客户。因此,针对他们的客户保留活动能更有效,因为这个预测方法能更好得预测客户谁更有可能离开。关键词:客户关系管理(CRM),数据挖掘,客户流失预测,文本挖掘,呼叫中心电子邮件,顾客的声音(VOC),二元分类模型1.简介在过去,公司专注于销售产品、知识甚少的服务或针对购买产品客户的有关战略。今天的商业正在从这种“以产品为中心”演变到“以客户为中心”的环境。企业需要找到方法来获得和提高市场份额,同时降低成本[7]。因此,现有企业必须重新考虑与客户的业务关系[24]。客户关系管理(CRM)正在成为在今天的商业环境中成功的关键因素[2,16]。目前正通过实施数据挖掘从结构化数据仓库获得客户信息[35]。管理客户流失的一种方法,是预测哪些客户最有可能离开,然后针对性实施激励措施使他们留下来。因此,这些是支持营销决策者对正确的客户实施正确的营销活动。一个由Burez和VandenPoel进行的田间试验[9]已经表明,公司从大范围转向针对性的营销策略转变,可以提高盈利能力。保持和满足现有的客户比高消耗地吸引新客户利润更高[26]。确定哪些顾客最容易改变很重要[17]。为了建立一个有效的客户挽留计划,公司必须建立一个模型,该模型应尽可能地准确;事实上VandenPoelandLarivie`re[36]的研究表明保持率的一个小变化可能会导致盈利能力的显著变化。我们决定有必要通过呼叫中心电子邮件整合客户的声音进入一个传统的客户流失预测模型使其成为更好的模型:一个具有较高的预测性能的模型。资讯科技的急速发展和互联网使客户与公司沟通更加方便,呼叫中心正在迅速扩大范围,数量和规模[1],因为许多公司依靠他们解决客户关心的问题,提供产品信息[25]。然而,市场营销经理往往忽视这些有价值的信息,因为(i)它不能直接适用于传统营销环境;(ii)很少关注内部知识如何转换为(文字)信息分析的形式;(iii)并无随时可以使用的框架整合信息。我们开发了一个客户流失预测决策支持系统,它从营销数据库的客户电子邮件中集成了自由格式的文字资料。虽然以前的研究中曾通过VOC了解客户的需求和行为(如文献[10,11,21]),仍没有在流失预测模型中使用VOC的先例。2.方法论Fig.1.Anintegratedchurn-modelingsystemthatusesstructured,database-relatedinformationandfree-formatted,textualinformation.(采用结构化的、数据库相关信息和自由格式的、文本信息的一个完整的流失模型系统)LSI:潜在语义索引CV:交叉验证2.1数据收集结构化的营销信息可以从普通的营销数据库中提取得到,普通营销数据库中所有事务和与市场营销相关的信息都已储存。相比之下,呼叫中心的电子邮件是高度非结构化的。因此,从电子邮件中提取信息,需要细致的前期处理,获得相关细节并列入流失检测/预测决策支持系统。2.2预处理2.2.1数据和文本预处理结构化信息内部可以在一个非常低的成本下,预加工和整合到我们的模型中。但是原始电子邮件本质上是非结构化的。他们通过索尔顿的向量空间被转换成一个结构化表示[31]:电子邮件是被描绘为一个向量加权频率指定的单词。因此电子邮件是n维向量,在字典中有n个不同的项。每个向量部分反映的遵守电子邮件[6]语义的相应项的重要性,并且如果项存在,每个组件有一个重量,否则为零。因此,电子邮件的收集用一个电子邮件项的矩阵表示。Fig.2showsthestepsinthispre-processingphasewherebyrawemailsbecomeaterm-by-emailmatrix.rawtextcleaning:原始文本清洗word-tokenseparation:单词标记分离tokenization:标记化caseconversion:实例转换part-of-speechtagging(POS):词类标注stemming:变形termfiltering:项过滤stopwordsremoval:无用词移除manualcheck:人工检查termvectorweighting:向量项加权documentvectoraggregation:文档向量聚集第一步,原始文本清洗,从文字中删除特殊字符和标点符号,与参考使用的代名词数据集的字典中的单词比较,拼写错误纠正。将输入流标记化转换成记号或文字。它对将被转换为小写(大小写转换)的单词使用空白分隔符。词性标注单词语法类别:有益的(名词,动词,形容词和副词)或者无益的。其次,项被他们的词干所取代,例如connect是connected,connecting,connection,等的词干,显著减少项数量[5]和提高检索性能[19]。一个基于字典的词干被运用。当一个项是不能识别的,标准的决策规则适用于给这个项正确的词干。这个过程的结果是高维电子邮件的矩阵,有许多不同的项。这个矩阵通过申请项过滤而减少:生僻字被淘汰,因为他们在未来的分类中很少有用。词频按照Zipf分布[37]:因此,其中一半只出现一次或两次。消除这些阈值内的单词,往往产生很大的节约[22]。无用词(如“the”或'a')也将被删除。下一步,讲话的无益的部分被排除在外。一个项过滤阶段的最后一步是手动检查临时字典,删除不相关的字词。在项的矢量加权阶段,构造每封电子邮件的加权项向量。到现在为止,在电子邮件项矩阵的值只是原始的项在一封电子邮件中出现的频率。SparkJones[33]表明当使用加权的项矢量时,检索性能显著改善,。项权重往往是通过确定产品的项的频率(TF)和逆电子邮件频率(IDF)[27-29,34]。结果是一个高维加权电子邮件矩阵。附录A详细介绍了项的矢量加权阶段。在最后一步,产生聚合电子邮件的矩阵(即电子邮件向量聚合)。其目的是使属于同一客户的电子邮件向量聚集。这是必要的,因为客户可以在观察期间发送多个电子邮件,当从一个角度预测点出发,预测每个个人客户。作为这样一个聚集来自同一客户的所有电子邮件信息是必要的。所有邮件第i项的聚合权重(Awij),属于下标j每个不同的项使用作为流失建模阶段特征会导致解释变量无力。此外,由于高维特征空间,一个电子邮件大部分权重是零。因此,使用大而稀疏的电子邮件矩阵将在预测建模方面适得其反。2.2.2维度缩减电子邮件矩阵汇总(加权)维度通过使用潜在语义索引(LSI)被减少。组合在一起相关项减少了特征空间的维数[12]。Deerwester等人[12]利用奇数值分解(SVD)的形式从电子邮件语义上概括。它使用的某些项,出现在类似的电子邮件中建立项之间的关系。因此,SVD项目,从高维项空间的电子邮件到一个标准正交,语义,概念组合在一起的类似项的潜在的子空间。因此,每一个概念可以用许多不同的关键字来描述,因为相对于降低的特征空间中其他概念,它具有较高的辨别能力。更详细的LSI使用SVD的信息,请参见附录B。2.2.3最佳维度选择降维过程中的SVD阶段的强度是至关重要的。理想的情况下,数的概念k,必须足够大,以适合在电子邮件中收集的所有基础和相关的概念,又必须足够小,以防止模型出现拟合抽样误差和不重要的细节。此外,获得最优的k必须是从一个角度预测点出发是可行的。在因素分析的文献中,这样的选择仍然是一个悬而未决的问题。Deerwester等人[12]建议使用业务标准,即K值,产生良好的性能。在我们的应用程序,我们对SVD的输出预测性能特别感兴趣。最初的预测模型验证时,不可能知道什么K值将导致一个最佳的解决方案时。因此,如果包含太少的概念,参数k的选择不当是无效的;如果有太多不相关的概念纳入,则计算会很昂贵,。因此,参数选择程序是必要的。我们构建几个rank-K模型和最有利的rank-K模型(基于交叉验证的性能)保留作进一步分析。因此,最佳的K值是在使用了五倍交叉验证的训练集上获得。训练集分为5个大小相等的子集。反复地,每个部分是用于验证,而其他部分用于训练。因此,在每一种情况下训练集预测一次。交叉验证性能更好地反映了看不见的数据的真正性能。最后,它是可以选择最有利的交叉验证模型的基础上最佳的k值。kim[18]指出,对数据分析师来说考虑信息量和预测模型的复杂性之间的关系是非常重要的,因为紧凑的信息模型显示了在预测性能和鲁棒性方面的大大提高。2.3建模2.3.1.建模技术与变量的选择使用逻辑回归。在应用它时,为了变成一个适当的数据[3],一个极大似然函数生成并最大化。利用训练集T={(xi,yi)}和i={1,2,N}和输入数据的xi∈Rn代码和相应二进制目标分类yi∈{0,1},逻辑回归是用来估计概率P(y=1|x)通过以下公式:xi∈Rn是一个n维输入向量,w为参数向量和w0为拦截。Neslin等[23]表示,使用这种技术是因为它的概念很简单[8],后验概率的封闭形式的解决方案是可用的,它提供了在流失预测中的快速和稳定的结果。变量选择是根据他们的预测性能消除一些变量的一个子集选择的过程。Kim等人[18]指出,使用一个变量选择技术的主要有三个原因:节省计算时间,从最少的变量中提取尽可能多的信息,提高模型的可理解性和使决策模型更好地概括。我们的研究采用了前瞻性的选拔程序:该算法在一定时间内增加一个变量。第一个进入模型的变量,具有最高的X2统计。在每一步中,其余的变量被认为是列入最终模型,直到停止规则触发,前瞻性选择添加变量停止。本标准的变量选择技术的选择,使得它很容易实施,而更复杂的算法计算更加昂贵,并且需要额外的参数设置。2.3.2.评估标准为了评估分类模型的性能,使用两种常用的标准是:接收操作曲线(AUC)下的电梯和地区。电梯是最常用的绩效衡量标准评估分类模型。它反映了事件的流失密度在总数据库中的密度相对增加。电梯越高,预测模型越好。在市场营销应用中,它的增加是有趣的,尤其是在排名前10%的情况下最有可能流失。营销决策者通常是在整个营销数据库中只有10%的权益,因为预算往往是有限的,为减少流失通常涉及的行动在整个客户数据库中只有10%。实际上,所有的案件都是按照从最有可能流失到最不容易流失。之后,排名前10%的情况下最有可能流失的密度与整个客户收集的流失的密度相比。这种密度的增加,被称为顶级等分电梯。直观地说,等分电梯的两种手段,在排名前10%的情况下最有可能流失,流失的密度是在整个数据库中的流失的密度的两倍。AUC是考虑与该事件的真正类的事件的预测类,考虑所有可能的临界值。因此,AUC考虑到可能的是阈值范围的个人级的性能。如果真阳性(TP)是正确识别的阳性数,假阳性(FP)是归类为阳性阴性数,假阴性(FN)被确定为阴性的真正阳性案例数,真阴性(TN)是归类为阴性的案例数然后灵敏度(TP/(TP+FN)):预测为阳性的阳性例的比例;特异性(TN/(TN+FP)):预测为阴性的阴性例的比例对于这些多种多样不同的阈值。接收机操作特性曲线(ROC)是一个相对于(1-特异性)灵敏度的二维图。为了比较两个或更多分类模型,接收机操作特性曲线下计算面积的。这项措施是用来评估二进制分类系统的性能[15]。为了测试,如果两个AUCS是不同的,可以申请非参数检验等。[13]

1 / 15
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功