太普华南杯数据挖掘竞赛论文报告第1页,共19页航空客运信息挖掘航空客运信息挖掘航空客运信息挖掘航空客运信息挖掘摘摘摘摘要要要要::::如何提高航空客运的上座率是所有航空公司都要关注的重要问题。本文通过建立决策树和多类别Logistic回归模型对客户流失进行刻画及预测,再建立基于权重的RFM模型,采用层次分析法和K—均值聚类法,以客户价值为依据对客户进行细分和价值评估,最后针对不同的客户提出不同的营销方案,做到精确营销,达到提高航空客运上座率这一目标。首先通过数据预处理筛选出跟客户流失关系最大的五个客户行为变量,再随机选出部分样本作为训练样本进行决策树分析,得到客户是否流失和客户行为的关系,并将预测结果与测试样本对比,预测效果显著。为了更好地刻画客户流失程度,建立多类别Logistic回归模型,将客户分成三类:忠诚客户、游离客户、流失客户,模型和参数都通过显著性检验,预测的总正确率达到66.4%,其中流失客户的预测正确率高达82.2%,说明模型是显著有效的。然后为了更好地对客户的价值进行细分,建立了基于权重的RFM模型,先用层次分析法确定各指标权重,再用K—均值聚类法分类,根据客户价值高低分为高价值客户、一般价值客户、低价值客户三类,其中最能为企业带来利润的高价值客户仅占所有客户的8.96%。最后根据不同客户类别制定不同营销方案,重点是保持好忠诚客户、稳定游离客户、赢回流失客户中的高价值客户。关键词关键词关键词关键词::::决策树多类别Logistic回归模型基于权重的RFM模型客户流失太普华南杯数据挖掘竞赛论文报告第2页,共19页InformationMiningofAirPassengerAbstract:Howtoimprovetheairlineattendanceisoneofthemostimportantquestionwhichalltheairlinecompaniesfocuson.ThistextpredictsanddepictscustomerchurnbybuilddecisiontreeandmulticlassLogisticregressionmodel.AndthentogetherwithRFMmodelwhichisbaseonweight,usingAHP(analytichierarchyprocess)andK-meansclusterintocategoryandvaluedthecustomersbasesontheircontribution.Final,wepresentdiversemarketingprogramsforeachkindsofcustomersinordertoaccuratelymarketing.Ourgoalistoimprovetheairlineattendance.First,wepretreatmentthedatatochoosefiveofthemostrelatedfactorswhicharerelatedtocustomerchurn.Andbuildthedecisiontree,trytofitthesample.Whenwegettherelationshipbetweenthecustomerchurnandthecustomerbehavior,wecancomparethepredictingoutcomestothetestsampleandfindthatthepredicteffectisremarkable.Fordepictthecustomerchurnbetter,webuildmulticlassLogisticregressionmodelandclassifyourcustomersintothreetypes:loyalcustomer,dissociativecustomer,lapsedcustomer.Ourmodelandparameterarebothpassinthetestofsignificance,theaccuracyis66.4%,amongthesethepredictofcustomerchurn’saccuracyis82.2%,allthesecantellthemodelisremarkable.Next,inordertoclassifydifferentkindsofcustomers’value,webuildRFMmodelwhichisbasedonweight.AtthesametimeweusetheK-meansclusteringtodividedcustomersintothreekinds:high-valuedcustomer,normalcustomer,low-valuedcustomer.Inaddition,thehigh-valuedcustomerwhichcanbringmostbenefitsonlybe8.96%ofallthecustomers.Intheend,wepresentdiversemarketingprogramsfordifferentkindsofcustomers,ourtargetistokeepthoseloyalcustomers,stabilizethedissociativecustomersandwinbackourhigh-valuedbutlapsedcustomers.Keywords:decisiontree;multiclassLogisticregressionmodel;RFMmodel;customerchurn太普华南杯数据挖掘竞赛论文报告第3页,共19页目录1.研究目标研究目标研究目标研究目标...............................................................................................32.分析方法与过程分析方法与过程分析方法与过程分析方法与过程....................................................................................42.1.总体流程.....................................................................................................................42.2.决策树模型具体步骤.................................................................................................72.3.决策树模型结果分析.................................................................................................82.4.多类别逻辑回归模型具体步骤...............................................................................112.5.多类别逻辑回归模型结果分析...............................................................................122.6.基于权重的RFM模型具体步骤..............................................................................162.7.基于权重的RFM模型结果分析..............................................................................182.8.精确营销方案...........................................................................................................193.结论结论结论结论.....................................................................................................214.参考文献参考文献参考文献参考文献..............................................................................................21太普华南杯数据挖掘竞赛论文报告第4页,共19页1.挖掘目标挖掘目标挖掘目标挖掘目标本次建模目标是利用航空公司的会员数据,采用数据挖掘的各种技术,同时结合SAS等统计软件[1],分析不同会员数据间的互相关系、发现数据的潜在规律,进行流失预测、客户细分以及客户价值评估,制定更为有效的运营策略[2],希望可以使航空公司更好地提高客户黏度,不再是传统地、无具体目标地给所有的顾客相接近的服务。最后在经费使用合理的前提下,实现提高航空客运公司的综合上座率的目标。2.分析方法与过程分析方法与过程分析方法与过程分析方法与过程2.1.总体流程总体流程总体流程总体流程主要包括如下步骤:步骤一:数据抽取与预处理将数据分为实验样本和测试样本,并对数据进行变量筛选、缺省值剔除、标准化等处理;步骤二:建立决策树模型和多类别Logistic回归模型对客户流失进行刻画及预测;步骤三:求解模型,并对建立的模型及其预测结果进行检验;步骤四:建立基于权重的RFM模型对客户进行细分和价值评估;太普华南杯数据挖掘竞赛论文报告第5页,共19页步骤五:用层次分析法确定权重和K-均值聚类法分类,得到不同价值的客户类别;步骤六:针对不同的客户提出不同的营销方案,做到精确营销以提高上座率;2.2.决策树模型具体步骤决策树模型具体步骤决策树模型具体步骤决策树模型具体步骤对决策树模型具体步骤的详细说明如下:步骤1:样本数据预处理主要包括四个方面:1)凭经验剔除与目标变量无关的变量,通过计算相关系数找出与目标变量相关性强的变量;2)如果变量间存在多重共线性,则通过逐步回归法消除多重共线性;3)剔除有变量值缺失的观测值;4)对数据进行标准化处理。步骤2:变量筛选通过对变量进行筛选,反复检验,找出了与客户流失状态密切相关的五个客户行为变量,主要有以下几个变量:COUNT(飞行次数即消费频率)、KM(观测窗口总飞行公里数)、EXPENSE(第二年总票价)、M_F_I(观察窗口内最大乘机间隔)、Ration(第2年的乘机次数比率)。步骤3:定义客户流失状态及选择决策树模型本文将客户最后一次乘机时间到观测窗口结束的时间间隔超过半年定义为流失客户,否则为非流失客户。建立相应的变量States,流失用户定义为0,非流失客户定义为1决策树是作为与样本属性结点,用属性的取值作为分支的树型结构。决策树的根节点是最大的属性信息的内容,在所有样本。树的中间节点是在子集的根树包含的信息内容最大的属性点。决策树的叶点是样品类别的价值。决策树使用新的样本分类时,从树的根节点开始,根据样本属性值逐渐向下沿决策树,直到树的叶子点,这一点表现的类是新的样本类别。使用决策树模型,能够有效地分析与客户流失有关的属性取值,从而了解到当客户出现哪些行为时,容易流失,为挽留客户做好准备。步骤4:采用典型的Id3算法详细算法如下:Generate_decision_tree(samples,attribute_list){创建结点N;ifsamples都在同一个类CthenreturnN作为叶结点,以类C标记;ifattribu