基于数据挖掘的客户流失预测实证研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

管理学硕士学位论文基于数据挖掘的客户流失预测实证研究司学峰北京工业大学2009年5月分类号C93单位代码:10005学号:S200611087密级:公开北京工业大学硕士学位论文题目基于数据挖掘的客户流失预测实证研究题目DemonstrationStudyofCustomerChurnPredictionbasedonDataMining研究生姓名:司学峰专业:管理科学与工程研究方向:信息管理与信息系统导师姓名:蒋国瑞职称:教授论文报告提交日期学位授予日期授予单位名称和地址独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:导师签名:日期:摘要-I-摘要现实世界中,数据的分布往往是不平衡的,数据非平衡性问题已影响到多个应用领域如:客户流失、欺诈侦测、风险管理等。当前,随着数据挖掘研究的深入,非平衡数据挖掘正成为一个新的热点研究领域。本文研究的客户流失数据集具有典型的非平衡数据问题,客户流失对象为网络招聘行业的企业客户。全球网络招聘方兴未艾,据统计全球每天约有2000万条就业信息发布,3000多万人在互联网上发出求职简历,2006年全球招聘市场规模为172亿美元。在中国,2007年网络招聘市场规模为9.7亿元,2008年12.5亿,预计2009年将达到16.1亿元。网络招聘巨大的市场规模,良好的利润前景催生了新的专业化、行业性、地方性的招聘网站的诞生,同时也加剧了网络招聘行业的激烈竞争。针对客户流失问题,目前在电信行业、银行业、保险行业基于数据挖掘技术进行客户流失预测建模,并取得了丰硕的研究成果。而针对网络招聘行业面向企业客户流失问题的研究尚属起步阶段,本文分析了前人研究成果,对非平衡数据进行了介绍;对客户流失预测理论、研究方法和发展脉络进行了回顾与综述;支持向量机(SupportVectorMachine,SVM)以其坚实的理论基础与良好的推广性能成为近几年来应用研究的热点,是一种流行的数据挖掘技术,本文对支持向量机进行了介绍;论述了我国网络招聘行业特征、市场规模及发展前景。最后通过国内某知名招聘网站企业客户特征数据以及客户在线行为日志数据,利用数据挖掘技术进行了客户流失预测建模及挽留策略的实证研究。本文的研究成果主要有:1)针对客户流失数据集的非平衡性与错分代价差异性问题,在传统SVM基础上,引入代价敏感学习理论,提出了代价敏感SVM的客户流失预测建模方法,通过实验验证了方法的有效性,对解决此类问题有一定的借鉴意义。2)针对客户流失预测数据集的高维特征约减问题,提出了主成分分析与神经网络的预测建模方法。通过实证研究,结果表明此组合方法降低了高维属性,简化了神经网络拓扑结构,提高了模型的预测性能。3)针对网络招聘企业客户挽留问题,分析了客户流失影响因素,基于K-means聚类技术对客户在线行为进行客户细分,并结合每类客户特征探讨了客户关系管理策略。关键词:数据挖掘;客户流失预测;非平衡数据;代价敏感学习;支持向量机北京工业大学管理学硕士学位论文-II-AbstractIntherealworld,datadistributionisoftenclass-imbalanced.Theun-balanceddataproblemhasalreadyaffectedmanyapplicationsforexample:customerchurn,frauddetection,riskmanagementandsoon.Now,within-depthstudyofdatamining,non-equilibriumdataminingisbecomingahotnewfieldofresearch.Inthethesis,thecustomerchurndatasetsaretypicalofnon-equilibriumdata.Andinthethesisthecustomerisenterprisecustomerofwebrecruitsits.Theindustryofglobalwebrecruitmentisdevelopingsorapidly.Itwasreportedthatabouttheworld's20milliondailyemploymentinformationreleasedandMorethan3000millionpeopleontheInternetissuedtheirResumesandin2006theglobalrecruitmentmarketreached17.2billiondollar.InChina,thewebrecruitmentmarketsizereached0.97billionRMBin2007,1.25billionRBMin2008andexpectedin2009willreach1.61billionRBM.Forwebrecruitmenthugemarketsize,goodprospectsofhighlyprofit,lotsofnewspecialization,industry,localrecruitmentwebsiteswasbornandmeanwhileincreasedthewebrecruitmentofindustrycompetition.Fortheproblemsofcustomerchurn,inthetelecommunicationsindustry,banking,insurance,buildingcustomerchurnpredictionbasedondataminingtechnologyisgoodchooseandachievedfruitfulresearchresults.However,thestudyofchurnproblemsforenterpriseistheinitialstageinwebrecruitmentindustry.Inthethesis,wehaveadepthstudyandresearchonthenon-equilibriumdataminingproblems.Thecustomerchurntheory,researchmethodsandthedevelopmentofcontextwerereviewedandsummarized.AndtoChina’swebrecruitmentindustrycharacteristics,marketsizeandgrowthprospectswerealsoanalyzedanddiscussed.SupportVectorMachineasapopulardataminingtechniquesandbecomesaresearchhotspotinrecentyearsforitssolidtheoreticalfoundationandthepromotionofgoodperformancewereintroducedandsystematicexposition.onthebasisoftotheproblemofcustomerchurnandretentionstrategy,wehaveademonstrationstudybasedondataminingthroughcollectingawellknowndomesticwebrecruitmentsiteenterprisecustomers’characteristicsdataandtheironlinebehaviorlogdata.Inthethesis,theresultsofresearchare:Customerchurndatasetshavetypicalnon-equilibriumcharacteristicanddifferencesinthecostofmisclassification.IntraditionalSVMbasedontheCostSensitiveLearningputforwardaCostSensitiveSVMcustomerchurnpredictionmodeling,experimentalverificationofthevalidityofthemodelingtosolvesuchAbstract-III-problemsonacertainreference.Toagainsttheproblemofcustomerchurndatasets’High-Dimensionalcharacteristics,putforwardaprincipalcomponentanalysisandneuralnetworkpredictionmodelingandthroughempiricalresearchresultsshowthatthecombinationofwaystoreducehigh-dimensionalattributes,simplifyingtheneuralnetworktopologyandimprovingtheperformanceofthemodelpredictions.Fortheissueofretentionenterprisecustomer,thethesisdiscussestheretentionstrategy.Inaddition,customeronlinebehaviorisanalyzedbyK-meansclusteringtechnology.Keywords:datamining;customerchurnprediction;un-balanceddata;costsensitivelearning;supportvectormachine目录-1-目录摘要.............................................................................................................................................IAbstract..........................................................................................................................................II第1章绪论.................................................................................................................................11.1研究背景及意义.........................................................................................................11.1.1研究背景...........................................................................

1 / 78
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功