航空公司客户流失影响因素研究航空公司客户流失影响因素研究航空公司客户流失影响因素研究航空公司客户流失影响因素研究摘要摘要摘要摘要::::客户流失管理是航空公司通过对大量的客户特征信息和客户行为信息进行分析并有针对性挽留客户的一个重要方法,其中最关键的就是对客户流失行为做出预测。本文提出一种基于BP神经网络的航空公司客户流失预测模型,定义流失,并从原始数据的属性中提炼出与客户流失度相关性较大的属性,找出有较高流失倾向的价值客户群体,发现客户流失规则,更利于下一步的客户流失控制工作。实验结果表明该方法是可行和有效的,为航空公司客户流失分析提供了一种新的方法。关键词关键词关键词关键词::::客户流失管理客户流失BP神经网络客户流失规则1引言引言引言引言客户流失管理是许多行业关注的一个重要问题,近年来,客户流失分析在互联网、金融、电信等行业已有研究,并有一些成功的应用;而对航空公司的客户流失研究与应用却只有少量的尝试,客户关系管理中流失客户也未被重视。航空公司传统的信息系统产生了大量的客户特征信息和客户行为信息,但是,这些信息仅仅局限于表象的记载,缺少深层次的分析。本文主要介绍如何利用BP神经网络方法对航空公司客户流失进行分析,找出有较高流失倾向的价值客户群体,发现客户流失规则,从而为航空公司的客户流失控制工作提供一种新方法,并辅助于航空公司的管理层决策。2理论基础理论基础理论基础理论基础关于客户流失,现有的研究主要集中互联网、金融、电信等行业,研究的主要方向有客户流失的影响因素、客户流失预测的内容和方法、客户流失模型等[1]。关于客户流失的影响因素的研究,夏国恩[2]从客户的转换成本、服务质量、客户消费行为、客户基本特征等方面分析了影响电信行业客户流失的原因,为指定客户保持决策提供参考。关于客户流失预测的内容和方法,RobMattison提出客户流失预测主要有两个方面的内容,一是预测初始客户流失人数,也就是预测可能在预定时间范围内流失的客户总数。二是预测目标流失人数,也就是那些客户在最近将要流失[3]。这种预测不仅可以使运营商提前在客户流失将要发生的数月之内采取客户流失控制的商业活动,还可以有助于进行市场的细分管理。国内的研究侧重于预测目标流失人数。关于客户流失模型,学术界开发、应用了基于数据挖掘方法与技术的客户流失预测模型,其中,最常用的有回归分析、决策树和神经网络[4]。近两年,SVM,贝叶斯网络,粗糙集等方法也用于客户流失预测中,取得了不错的效果[5-8]。在航空公司领域更多的是从定性上研究航空公司的客户价值和客户关系管理,张坚等对中国民航商业航空公司客户满意度进行研究,探讨航空公司品牌形象、客户期望、感知价值、感知质量、客户抱怨对客户满意度及客户忠诚的影响[9]。刘攀等利用数据挖掘的方法建立了航空公司客户价值模型,针对面向客户关系管理中客户细分问题,设计一个系统的基于数据挖掘的客户细分功能结构模型,并利用K-means方法和主成分分析法对构建客户价值的预测模型[10],具有一定的实际意义。田辉指出航空公司在实施客户关系管理战略的时候,迫切需要重新认识自己的客户,将服务产品有针对性地提供给不同的客户群,以实现客户资产价值最大化。同时,航空公司也需要一套客户关系管理的模式,来指导企业在不同的业务层面贯彻客户关系管理战略,并达到战略管理的目标,提出了航空公司客户关系管理的战略实施框架[11]。也开始有利用数据挖掘的方法建立对客户流失进行分析。吴桐水等利用运用决策树中的ID3算法对航空公司客户流失进行分析,并用具体数据训练集进行了分析实验,实验证明该分析方法的有效性[12]。而该方法在分析客户流失影响因素和内容方面并不全面,有局限性的地方。3航空公航空公航空公航空公司客户流失预测司客户流失预测司客户流失预测司客户流失预测对于多数企业来讲,客户关系的维护,客户流失的预测和防范是其管理活动的重要组成部分之一。电子商务企业关注于客户流失预测问题,为了提高电子商务客户流失预测正确率,建立一种组合的电子商务客户流失预测模型[12]。同样地,在通信、银行、金融证券等行业,都有关于客户流失的研究[13,14]。同理,航空公司作为服务的提供商,在竞争激烈的环境下,势必也面临着客户流失的问题。因此,本章节利用已有的数据集,对航空公司的客户流失进行预测。3.1航空公司航空公司航空公司航空公司客户客户客户客户流失的内涵流失的内涵流失的内涵流失的内涵数据挖掘过程中,大量的分类或预测算法都需要有一定的学习基础,即有足够的机器学习样本集,才能提高机器对记录的分类或预测的准确率[15]。在已获得的数据集来看,虽然包含记录很多,涉及的属性也很多,但是并没有客户是否流失这一属性。也就是意味着,机器无法学习到分类或预测的规则。因此,需要从样本集中选取能够表示客户流失的属性,从而定义哪些用户记录属于流失,哪些用户记录属于非流失。对于航空公司来讲,客户流失的内涵并没有明确的定义。HWANG等学者认为,流失和忠诚是一个问题的两个方面,若一个客户不属于忠诚客户,那他随时都有可能成为流失客户[16]。夏国恩采用因子分析,描述电信行业中,众多的属性对流失的影响,从而选择出能表示流失的属性[2]。有研究指出,中国常旅客一年乘机4-5次的多达60%,7次以上达26%。两者相加,占据超过80%,这证明中国常旅客年平均乘机次数很高,乘机间隔也会较小[17]。因此,本文根据数据集中涉及的属性,选取平均乘机间隔作为客户流失的一个决策点,当客户最后一次乘机时间到观察窗口结束的时间大于2倍平均乘机时间时,可以认为客户属于流失客户。相反,当客户最后一次乘机时间到观察窗口结束的时间小于2倍平均乘机时间,则可以认为客户并没流失。3.2流失预测属性选定流失预测属性选定流失预测属性选定流失预测属性选定在确定将最后一次乘机时间到观察窗口结束的时间大于2倍平均乘机时间作为客户流失的依据后,在进行选择算法开展客户流失预测之前,需要对数据集进行数据预处理和属性值的选定。本文实验环境为IBM公司提供的数据挖掘应用工具Clementine12.0。3.2.1数据预处理数据预处理是数据挖掘应用中的重要工作,一般包括下列内容:(1)数据清理:通过填写空缺值,平滑噪声数据,识别、删除孤立点,并解决“不一致”来“清理”数据;(2)数据集成:将多个数据源合并成一致的数据存储,如将不同数据库中的数据集成入一个数据仓库中存储;(3)数据变换:将数据转换成适合于挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的特定区间。这一点对那些基于距离的挖掘算法尤为重要;(4)数据规约:在不影响挖掘结果的前提下,通过数值聚集、删除冗余特性的办法压缩数据,提高挖掘模式的质量,降低时间复杂度[18]。基于以上数据预处理的理论,本文在实验阶段通过Clementine定义的Select操作、Filter操作进行数据处理。Select操作为数据记录的过滤和分类,本文首先对FFP_TIER(飞行等级)进行分类,按照取值的不同分为低、中、高三类,如图一所示。图一Select分类操作Filter操作是属性层面上的数据预处理,通过Filter操作对数据属性进行筛选。如图二所示,本文首先对63个属性进行筛选,剔除一些没用的信息。图二Filter属性的过滤操作3.2.2属性值的选取由于我们采用最后一次乘机时间到观察窗口结束的时间大于2倍平均乘机时间作为客户流失,因此在选择属性进行预测的时候,属性应该也应该是一个时间方面的属性值。纵观整个数据集,虽然包含多达63个属性值之多,但是实际上主要可以看作以下几类:一、是个人信息类型的数据,如:会员卡号(MEMBER_NO)、入会时间(FFP_DATE)、观测窗口第一次飞行日期(FIRST_FLIGHT_DATE)、性别(sex)、会员卡级别(FFP_TIER)等等,这类属性大部分是离散型的,文本类型的,不适合作为预测的输入值,同时对预测也用处不大。二、有大部分属于日期信息,这类属性是属性类型为日期型,不适合进行预测算法的输入值。三、积分信息是数值型数据,适合做预测算法的输入值,但是积分信息对以时间作为流失基准的预测帮助不大,因此也应该弃用。四、是一些时间段信息,这类信息可以符合输入值的要求,如:观测窗口第一季度到第八季度的飞行次数、观测窗口总飞行公里数、观察窗口内最大乘机间隔等等。3.3流失预测算法选定流失预测算法选定流失预测算法选定流失预测算法选定本文选择神经网络、SVM(支持向量机)和贝叶斯分别做分类预测算法,通过比较三者之间,选择出正确率最高的作为预测算法。1、人工神经网络(ArtificialNeuralNetworks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(ConnectionModel),它是一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。2、支持向量机Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起,然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去,这种分类器被称为支持向量机(SupportVectorMachine,简称SVM)。3、贝叶斯网络是一种概率网络,它是基于概率推理的图形化网络,而贝叶斯公式则是这个概率网络的基础。贝叶斯网络是基于概率推理的数学模型,所谓概率推理就是通过一些变量的信息来获取其他的概率信息的过程,基于概率推理的贝叶斯网络是为了解决不定性和不完整性问题而提出的,它对于解决复杂设备不确定性和关联性引起的故障有很的优势,在多个领域中获得广泛应用。本文首先通过Derive操作,定义客户流失,如下图三所示。图三定义客户的流失在定义完流失属性之后,输入前文确定的属性作为输入值,选择BP神经网络、支持向量机(SVM)、贝叶斯三种分类算法,对数据进行分类处理,通过Clementine12.0画出具体的流程图,如图四所示,图四Clementine12.0里画出的流程图其中,Clementine12.0将会对每个算法生成相应的分析,通过连接,可以在同一个表中显示并进行三者的对比分析。三者的对比结果如图五所示,图五三种算法的比较由图五所示,由于首先对客户的等级分类,这里的数据是等级为6.0的客户,数据量为1513条。其中,SVM的正确率为88.5%,神经网络的正确率为89.56%,贝叶斯的正确率为82.15%。这说明神经网络算法效果是最好的。而三者相同结果的有1213条,相同率仅有80.17%,在这1213条相同的结果当中,预测正确的有1144条,正确率达到94.31%。这说明三者差别很大,导致相同率不高。因此,本文的后续研究使用正确最高的神经网络算法作为客户流失分类预测算法。4航空公司客户流失影响因素航空公司客户流失影响因素航空公司客户流失影响因素航空公司客户流失影响因素4.1确定客户流失的影响因素确定客户流失的影响因素确定客户流失的影响因素确定客户流失的影响因素在确定使用神经网络作为流失预测的算法后,接下来需要分析客户流失的影响因素。通过Clementine12.0的Statistics的操作,分析lost属性的与其他属性的Pearson相关系数,找出lost属性与其他属性是否存在线性相关,若存在线性相关,则说明属性值会影响到lost,是客户流失的影响因素。具体的Pearson相关性分析如下图六。如图所示,lost属性与大量时间属性或次数属性相关,比如FLIGHT_COUNT,而其每个季度也有同类数据。因此,可以直接使用FLIGHT_COUNT作为回归分析的输入值,同理的还有BASE_POINT_SUM、EXCHANGE_COUNT等属性。图六Pearson相关系数随后,使用回归分析的方法,考虑各个因素对客户流失的拟合程度,结果如图七所示。图七回归分析之后各个参数的统计结果其中,FACD_CLASS_COUNT、ELITE_POINTS_SUM_YR_2、SEG_KM_SUM、AVG_F