电脑应用技术二零零九总第七十五期7基于Clementine神经网络的电信客户流失模型应用颜昌沁胡建华周海河昆明理工大学信息与自动化学院摘要:本文针对目前电信行业中一个日益严峻的问题:客户离网进行研究,以电信行业为背景,通过收集客户的基本数据、消费数据和缴费行为等数据,建立离网客户的流失预测模型。进行客户流失的因素分析以及流失预测。以某电信分公司决策支撑系统为背景,通过在电信一年半时间的领域调研和开发实践,以此为基础,使用了统计分析和数据挖掘的技术,对PAS客户流失主题进行了较为完善、深入的分析与研究,为电信经营分析系统作了有益的尝试与探索。针对PAS客户流失分析主题,本文选取了3个月的PAS在网用户和流失用户及其流失前的历史消费信息为样本,确定了个体样本影响流失的基本特征向量和目标变量。通过对大量相关技术和统计方法的研究,最终确定了Clementine的神经网络模型来作为电信客户流失的预测模型。实践证明,本论文整体的技术路线是可行的,神经网络模型对电信客户流失预测有较高的准确性,所发现的知识具有一定的合理性和参考价值,对相关领域的研究起到了一定的推动作用。关键词:数据挖掘客户流失统计分析神经网络1引言本文是基于中国电信某分公司经营分析支撑系统项目为背景来展开的。电信分公司经营分析支撑系统是电信运营商为在激烈的市场竞争中生存和持续发展,尽可能全面地满足企业经营管理工作的需要,跟上市场形势的变化,使庞大的数据库系统有效地产生企业知识,以新经营管理支撑手段及时准确地了解市场竞争、业务发展和资源使用情况,以便及时发现问题和解决问题,并根据分析结果及时调整政策而开发的分析系统。根据调查机构的数据显示,“用户保持率”增加5%,就有望为运营商带来85%的利润增长,发展一位新客户的成本是挽留一个老客户的4倍;客户忠诚度下降5%,则企业利润下降25%;向新客户推销产品的成功率是15%,然而,向老客户推销产品的成功率是50%。这些数据表明:如何防范老客户流失必须要引起高度重视。对企业而言,长期的忠诚客户比短期获取的客户更加有利可图。因为长期顾客较容易挽留,服务成本比新顾客低,而且能够为公司宣传、带来新的客户,因此客户离网成为电信运营商们最为关注的问题之一。本文针对电信分公司PAS流失客户,从时间、地域、产品类型、在网时长、用户状态、消费金额、年龄等角度进行分析,通过构建数据仓库模型得到数据挖掘需要的样本集,通过聚类及知识领域的指导来生成关于PAS客户流失的神经网络模型,找出PAS客户流失的特征和规律,来辅助电信公司制定营销政策。2研究现状及神经网络模型特点国内的电信企业出于市场竞争的需求,大多己建立或在建“电信经营分析系统”,客观上为深层次的数据分析提供了良好的数据平台。但是在分析及应用开发上,大多数的“经营分析系统”都基电脑应用技术二零零九总第七十五期8于固定报表、即时查询以及主观探索OLAP基础之上,深层次的数据挖掘大多处于理论探讨和尝试的阶段。在国外,不少知名的电信公司利用数据挖掘技术提升利润空间,通过建立流失客户的预测模型,对高流失概率的客户进行针对性的市场挽留工作,能够明显减小在网客户的离网率。目前采用的流失预测的数据挖掘模型包括决策树、神经网络、逻辑回归、聚类关联性分析等,其中大多数流失模型采用决策树进行建模,比如C4.5及其扩展、CART等模型。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含生其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Clementine是一个数据挖掘工具平台,通过此平台可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。Clementine参照行业标准CRISP-DM模型设计而成,可支持从数据到更优商业成果的整个数据挖掘过程。在Clementine中有各种不同的模型节点,如:K-Means节点将数据集聚类到不同分组(或聚类)。分类和回归树(C&RT)节点生成可用于预测和分类未来观测值的决策树。线性回归是一种通过拟合直线或平面以实现汇总数据和预测的普通统计方法。二元分类器节点用于创建和对比二元结果(是或否,流失或不流失等)的若干不同模型,使用户可以选择给定分析的最佳处理方法。Logistic回归是根据输入字段值对记录进行分类的统计技术。本文选择的是神经网络模型节点来进行电信的客户流失预测。神经网络节点使用的模型是对人类大脑处理信息的方式简化了的模型。此模型通过模拟大量类似于神经元的抽象形式的互连简单处理单元而运行。神经网络是功能强大的一般函数估计器,只需要最少的统计或数学知识就可以对其进行训练或应用。神经网络是神经系统运转方式的简单模型。其基本单元是神经元,通常将其组织到层中,这些处理单元都位于层中。通常在神经网络中有三个部分:一个输入层,其中的单元表示输入字段;一个或多个隐藏层;一个输出层,带有一个或多个表示输出字段的单元。这些单元通过可变的连接强度(或权重)连接。输入数据显示在第一层,其值从每个神经元传播到下一层的每个神经元。最终从输出层中输出结果。该网络可通过以下过程进行学习,即检查单个记录,然后为每个记录生成预测,并且当生成的预测不正确时,对权重进行调整。在满足一个或多个停止标准之前,此过程会不断重复,而网络会持续提高其预测准确度。最初,所有的权重都是随机生成的,并且从网络输出的结果很可能没有意义的。网络可通过训练来学习。向该网络重复应用已知道结果的示例,并将网络给出的结果与已知的结果进行比较。从此比较中得出的信息会传递回网络,并逐渐改变权重。随着训练的进行,该网络对已知结果的复制会变得越来越准确。一旦训练完毕,就可以将网络应用到未知结果的未来案例中。神经网络节点可以处理数字、符号或标志型输入和输出。神经网络节点应使用一个或多个方向为输入的字段,以及一个或多个方向为输出的字段。设置为双向或无的字段将忽略。执行节点时,字段类型必须已完全实例化。3神经网络模型的构建及应用在Clementine中应用神经网络进行电信客户流失预测的过程如下:首先选择数据源:本例中数据源为一个电子表格,打开clementine11在底部的选项板区中选择数据源项,双击其中的excel,右击excel选择编辑,在导入文件中选择要用的数据源。然后在选项板中选择字段选项,选择其中的类型,进行编辑,读取所有值后将标识客户流失项设置为输出,总的挖掘过程如图1所示。在设置好输出后,在建模里选择特征选项,特征选择节点会根据某组条件(例如缺失百分比)筛选可删除的预测变量字段,对于保留的预测变量,随后将对其相对于指定目标的重要性进行排序。电脑应用技术二零零九总第七十五期9这项的目的是用于对所有输入的项进行选择,可以用系统默认的设置,这样能保留哪些对输出(也就是客户的流失标志)有影响的项,以及各项对此的影响效果大小。能去掉哪些对输出没有影响的项。执行以后会生成一个模型,在这个特征模型里选择生成过滤节点,在过滤节点里,我们可以看到哪些对输出没有影响的项已经被过滤了,当然这一步如果对数据非常熟悉的话,也可以直接从数据类型里来做。如图2所示。图1总挖掘过程图2选择生成过滤结点图图3生成的结果接着我们在模型里面选择神经网络,编辑神经网络模型的选项,可以在里面选择要使用的方法,Clementine提供了六种用于构建神经网络模型的训练方法:1.快速:此方法使用数据的简明规则和特征来选择合适的网络形状(拓扑)。2.动态:此方法会创建一个初始拓扑,但可以在训练过程中增加和/或删除隐藏的单元,从而修改该拓扑。3.多重:此方法会创建几个具有不同拓扑的网络(确切数量取决于训练数据)。4.修剪:此方法首先从一个较大的网络开始,然后会在训练过程中删除(修电脑应用技术二零零九总第七十五期10剪)隐藏层和输入层中最差的单元。此方法通常速度较慢,但比其他方法产生的结果要好。5.RBFN,6.穷举型修剪。在模型中设置预防过度训练。此选项会将数据随机分割为两部分-训练集合和检验集合,以便于建模。如果正在使用单独的分区字段(例如分区节点创建的分区字段),预防过度训练设置则仅适用于训练分区,实际效果为“对分区进行分区”。而设置随机数种子的意义在于:如果不设置随机数种子,则每次执行节点时用于初始化网络权重的随机值的序列都会不同。这将导致即使节点设置和数据值都完全相同,节点也会在不同的运行中创建不同的模型。通过选择该选项,可以将随机种子设置为特定值,从而使结果模型具有精确的可再现性。特定的随机种子通常会生成相同的随机值序列,在这种情况下执行节点通常会产生相同的生成模型。图4细节图图5模型在生成前的选项和生成后的统计情况图6模型导入业务支撑系统结果电脑应用技术二零零九总第七十五期11有以下几种停止标准:1.默认:如果使用此设置,网络将在表现为已经达到其最佳训练状态时停止训练。2.精确性(%):如果使用此选项,训练则会一直继续,直到达到指定的精确性。这种情况可能永远不会出现,但您可以随时中断训练,以截止到目前所达到的最佳精确性保存该网络。3.周期:如果使用此选项,训练将持续指定的周期数(传递数据的次数)。4.时间(分钟):如果使用此选项,训练将持续指定的时间长度(以分钟为单位)。5.选择内存使算法在适当的时候以牺牲一定的速度为代价使用磁盘溢出,默认情况下选中此选项。注意:以分布模式运行时,此设置可被在options.cfg中指定的管理员选项覆盖。选项中有几个选项应加以注意:1.继续训练现有模型,默认情况下,每次执行神经网络节点时,都会创建一个全新的网络。选择此选项,则训练会继续,直至节点成功生成最后一个网络。2.使用二进制集合编码,选择此选项,Clementine将对于集合字段使用压缩的二进制编码方案,可以将具有很多个值的集合字段用作输入,从而更加简便地构建神经网络模型。3.显示反馈图形,可看到一个显示网络精确性的图形。4.敏感度分析,敏感度分析会提供哪些输入字段对于预测输出字段最重要的相关信息。图5为模型在生成前的选项和生成后的统计情况。在执行后会在右面的窗口中生成神经网络模型,打开模型,可看到统计的数据,模型的准确度及时间等,还可在模型里导出PMML及导出SQL等。在模型的准确度达到要求以后,将生成的模型导入到业务支撑系统中,在导出模板中,选择数据库,输入服务器地址及数据库名称。如图6所示。4客户流失分析及总结经过模型的建立和生成,对其进行分析整理后,可看出PAS客户流失的特征,在没有预存的用户中,客户的流失率达到20%,比有预存的用户流失率要高8个百分点。表1使用彩铃表2不使用彩铃而在FEE_ALL这一项中,高端客户的流失率较低,PAS流失最严重的客户群在月消费为10至40的客户,流失率在22%以上,这也是占比最多的一部分。如表3所示。电脑应用技术二零零九总第七十五期12在网时长这一项中,在网时长位于28至31这一段的客户流失最为严重,流失率高达30%以上,应重点关注这部分用户。通过论文的研究可以发现,目前电信客户流失较为严重,受到的冲击很大。本论文整体的技术路线是可行的,神经网络模型对电信客户流失预测有较高的准确性,对电信分公司的经营分析支撑系统有很好的参考价值。表3流失率明细表在网时长总用户数流失数流失率285221580.303293721240.333305061600.316313341140.341表4FEE_ALL范围FEE_ALL流失数总用数流失率100X=150506660.07507580X=100707010.09985770X=80655510.11796760X=701429480.1497890X=1042527230.15607820X=3096943870.2208830X=4071130810.23076910X=2095941220.232654参考文献[1]邵峰晶,于忠清.数据挖掘原理与算法.中国水利水电出版社,北京,2003.[2]王妹华,钟云飞.数据挖掘在移动通讯业大客户离网预警中的应用[J].江苏通信科技,2004,20(3).[3]Le