河北工业大学硕士学位论文面向客户流失预测的关联规则挖掘算法应用研究姓名:罗巧玲申请学位级别:硕士专业:管理科学与工程指导教师:李杰20071001河北工业大学硕士学位论文i面向客户流失预测的关联规则挖掘算法应用研究摘要随着我国电信企业运营机制的全面调整,电信业竞争更激烈。电信企业之间的争夺加剧了客户离网行为,客户离网成为影响电信公司经营状况的一个重要因素。利用数据挖掘技术科学地分析那些已经流失的客户的特征,从而预测在网客户的流失倾向,已成为电信业的一个重要研究内容。而关联规则挖掘算法基于自身的诸多优势,成为目前电信客户流失预测应用中昀具有前景的数据挖掘技术之一,也得到了越来越多研究者的关注。本文通过对电信业客户流失预测和关联规则挖掘算法的文献综述,分析了现有研究中仍然存在的问题,并重点对现有关联规则挖掘算法无法高效率地对数量少、但客户价值大的电信客户进行流失预测进行了剖析,提出了一种基于数据属性约减和概率的加权多维关联规则挖掘改进算法,并进行了实验仿真,验证了算法的有效性。本文的具体贡献有如下几个方面:第一,通过对电信业客户流失预测及关联规则挖掘算法的研究综述,分析了现有关联规则挖掘算法的分类和关联规则价值的衡量,并主要针对现有多维关联规则挖掘算法进行客户流失预测时的优缺点进行了比较分析,指出了目前电信业数据复杂、挖掘效率低下;而且算法尚未对电信业中数量少、但价值大的流失客户给予足够重视,影响了客户流失预测的效果。第二,针对传统算法挖掘效率低下、且忽视了数量少但价值大的客户流失问题,提出了一种基于属性约减和概率的加权多维关联规则改进算法。其基本思路是:首先对价值大的客户利用基于粗集的属性约减方法进行属性约减,组成数据表。然后引入了基于概率的加权关联规则的概念、定义和公式,来挖掘那些数量很少但价值很大的流失客户的关联规则,并用提升度来衡量关联规则,以得到客户流失的强关联规则。第三,使用Powerbuilder6.5编程,对提出的改进算法进行了实验仿真与测试,并与传统的多维关联规则挖掘算法(Apriori算法)进行比较,提高了客户流失预测的效率,同时实验显示,改进算法能够挖掘出传统算法所不能挖掘的数量少但价值大的客户的关联规则,使电信运营商更有针对性的挽留大价值客户,显示出了更好的预测效果。关键词:客户流失,关联规则,属性约减,加权关联规则,多维关联规则面向客户流失预测的关联规则挖掘算法应用研究iiRESEARCHONASSOCIATIONRULEMININGALGORITHMAPPLICATIONINCUSTOMERCHURNPREDICTIONABSTRACTWiththecomprehensiveadjustmentofthetelecommunicationenterprisesinChina,thecompetitioninTelecommunicationindustryismoresevere.Thecompetitionleadstothecustomerchurning,whichbecomesoneoftheimportantelementstoreducetheprofitofthetelecommunicationenterprise.ThenusingdataminingtoscientificallyanalyzethecharacteristicsofthechurnedcustomerwherebytopredictthechurntendencyoftheexistingcustomerhasbecomeanimportantresearchinTelecommunicationindustry.Andassociationruleminingtechnologybasedonitssomanyadvantages,turnsintooneofthemostprospectivedataminingtechnologyincustomerchurnprediction,andreceivesmoreandmoreattentionfromtheresearcher.Thisdissertationanalyzestheproblemsinexistingresearchviatheliteraturereviewofthecustomerchurnpredictionintelecommunicationindustryandassociationrulealgorithm,andemphasizesthattheexistingassociationrulealgorithmscannotminingtherulesofthefewchurnedcustomerswithbigvalue,andtheefficiencyislow.Accordingly,thisdissertationbringsforwardanimprovedmultidimensionalassociationrulealgorithmbasedonattributereductionandprobabilityweighteditem,thentheapproachisexperimentallyevaluated,whichsuggestthatapproachisfairlyeffective.Thecontributionsofthisdissertationareasfollows:Firstly,byreviewingsomeofresearchliteraturerelatedtocustomerchurnpredictionandassociationrulemining,analyzestheclassificationandvalueevaluationofexistingalgorithm;comparestheadvantagesanddisadvantagesoftheexistingmultidimensionalassociationruleapproachincustomerchurnprediction;pointsoutthatthetelecommunicationindustrydataisredundancyandthosealgorithmsareinefficient;moreover,didnotattachimportancetofewchurnedcustomerswithbigvalue,whichleadtotheinefficiencyincustomerchurnprediction.Secondly,accordingtothepreviousanalysis,anovelmultidimensionalassociationrulealgorithmbasedonattributereductionandprobabilityweighteditemisputforward.Themain河北工业大学硕士学位论文iiiideaisasfollows:Firstly,doattributereductionwiththedataofbigvaluecustomerstoformatable,subsequently,introducetheconception,definitionandformulaoftheimprovedalgorithmtominetherulesofthefewchurnedcustomerswithbigvalue,anduse“lift”toevaluatetherulesinordertofindstrongassociationrulesofthecustomerchurning.Thirdly,theexperimentconductedbyPowerbuilder6.5programmingindicatedthatnewalgorithmismoreefficientincustomerchurnpredictionandcanminerulesoffewchurnedcustomerwithbigvaluewhichtraditionalalgorithmcannotmine.Thenewalgorithmshowsbetterpredictiveresultsandcanmakethetelecommunicationenterprisesretainbigvaluecustomersmorepertinently.KEYWORDS:CustomerChurn,AssociationRule,AttributeReduction,WeightedAssociationRule,MultidimensionalAssociationRule河北工业大学硕士学位论文1第一章绪论§1-1研究背景和意义随着中国加入WTO这个战略政策的实施进程,中国电信市场也将进一步向世界开放。而且,目前我国电信企业运营机制已全面调整,在国内的独家垄断局面己经打破,竞争更激烈,因此电信公司将面临更严峻的双重竞争压力。尤其在业务迅速增长、竞争日益激烈的移动市场,运营商正在树立起大客户管理理念、加强大客户营销和服务、提高大客户的忠诚度和满意度,这已成为运营商的战略性任务之一[1]。移动市场竞争日趋激烈,又加剧了市场争夺的残酷性,电信企业之间的争夺加剧了客户离网行为(即客户流失),如何挽留住客户成为一个重要问题。客户离网是移动经营面临的一个基本问题,也是影响经营状况的一个重要因素。一方面它会造成收入下降,市场占有率下降,营销成本增加等问题;另一方面,恶意离网会造成客户恶意欠费,给公司带来不必要的经济损失。离网分析的目的就是要通过特定算法,分析出哪些客户具有较大的流失概率,从而对这些客户进行有效的挽留工作,尽量减少客户流失带来的损失。通过预测流失用户的模型,可以提高对客户挽留的成功率,做到有的放矢,降低客户离网率,降低挽留服务的成本,减少由于客户离网带来的经济损失。这就导致电信业的运营商需要寻找一种昀有效的方法,通过正确而及时的决策,维护与客户的关系,创造客户价值来保留和竞争优质客户,提高企业盈利能力。目前一种有效的方法就是建立基于数据挖掘技术的客户关系管理系统[2],通过决策树、聚类、统计、神经网络等各种数据挖掘算法科学地分析影响客户满意度的因素,提高客户满意度;同时分析那些已经流失的客户的特征,从而预测在网客户的流失倾向,对流失倾向大的客户进行挽留,减少由于客户离网带来的经济损失。在众多的数据挖掘技术中,关联规则(associationrule)挖掘技术[3]是昀重要的数据挖掘技术之一。由于关联规则挖掘算法本身的诸多优势,目前利用关联规则挖掘技术来降低客户流失己经成为全球电信业决策者们共同关注的课题[4,5,6]。本文的工作正是基于这样一个背景展开的。以电信业为应用背景,通过分析客户的基本数据、交易数据和行为模式,利用关联规则挖掘技术,建立客户流失预测模型,并在此基础上进行初步的流失原因分析和流失趋势预测,给出有效控制客户流失的建议。本文研究的目的是把理论运用于实践,数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。而关联规则数据挖掘技术在电信行业有更广阔的应用领域。如何结合目前电信企业的现状,将目前多维关联规则理论及其研究热点应用并指导电信企业,建立准确的数据模型,将运用模型进行预测,在短期内迅速地产生效果,是本论文研究的意义。面向客户流失预测的关联规则挖掘算法应用研究2§1-2研究内容和创新点电信业数据库系统庞大,客户流失预测使用的变量很多,传统的单维关联规则挖掘算法不适应此领域,只能采用多维关联规则挖掘算法建立流失预测模型,因此本文重点是分析现有多维关联规则挖掘算法的优缺点,并应用改进算法进行电信