——影响移动客户流失因素预测客户未来行为第五组:张士成,汪海峰,黄一唯背景介绍1目录contents指标分析描述性分析模型分析总结反思23456深入探索背景介绍01背景介绍(一)以上数据来源易观智库,《移动通信行业客户流失分析》。移动互联网用户规模发展趋势1.移动互联网客户规模逐年递增。2.移动通行行业中,一般情况下客户月流失率在3%左右。那么什么是客户流失背景介绍(二)2客户流失客户属性职业年龄通话情况平均通话时长数据业务服务质量客户满意度网络运行质量数据网络质量资费政策与技术进步优惠政策技术革新影响客户流失的因素背景介绍(三)指标分析02指标选取客户等级通话时长客户流失主叫次数被叫次数费用变量释义指标定义解释客户等级区分VIP客户等级,分为1至4等消费越稳定,等级越高主叫次数7日内日均主叫次数/90日内日均主叫次数主叫次数越大,越不易流失被叫次数7日内日均被叫次数/90日内日均被叫次数被叫次数越大,越不易流失通话时长7日内日均通话时长/90日内日均通话时长通话时长越大,越不易流失费用7日内日均通话费用/90日内日均通话费用费用越大,越不易流失描述性分析03流失状况VS客户等级对于该组数据而言,随着等级的升高,流失的可能性在减小。0%20%40%60%80%100%等级1等级2等级3等级4流失比例VS等级未流失流失未流失流失等级1298254等级2275134等级3248等级434总计552409327分类NMUSDMINMEDMAX未流失6001.050.437801.03093.635流失4000.5750.731700.33925.328流失状况VS主叫次数就中位数而言,未流失客户的主叫次数大于流失客户的主叫次数。分类NMUSDMINMEDMAX未流失6001.05640.385801.03532.863流失4000.46720.617100.27284.269流失状况VS被叫次数就中位数而言,未流失客户的被叫次数大于流失客户的被叫次数。分类NMUSDMINMEDMAX未流失6001.07660.42850.0320221.04283.271流失4000.54050.73540.0011130.25055.815流失状况VS通话时长就中位数而言,未流失客户的通话时长大于流失客户的通话时长。分类NMUSDMINMEDMAX未流失6001.04080.697400.975313.34流失4000.64921.123400.26210.01流失状况VS费用就中位数而言,未流失客户的费用大于流失客户的费用。模型分析04划分训练集我们将数据分为训练集和测试集。训练集用于建立模型,测试集用于评估模型。数据集总量流失数未流失数训练集700280420测试集300120180将整个数据集分为训练集和测试集,其中训练集容量与测试集容量为7:3。逻辑回归模型自变量系数p值(Intercept)2.89580.00客户等级-0.5440.00主叫次数-1.10710.00被叫次数-1.89980.00通话时长-0.89880.03费用0.50660.03自变量全部通过显著性检验但是费用前的系数为负,与常识相悖,所以改进模型。自主法(bootstrap)求解置信区间自变量2.50%97.50%费用-0.28141.1039费用系数柱状图频率费用系数从上表和右图中可以看出,费用系数置信区间包含0,并且费用系数估计值靠近0的非常多。最终模型自变量系数p值(Intercept)2.0283.397客户等级-0.8325-0.1233主叫次数-1.7358-0.0648被叫次数-3.299-1.333通话时长-2.5100.132通过置信区间得出费用系数为0之后,重新求解,得出最终模型。在测试集中,我们预测准确率达到83%,在预测的流失客户中,实际流失的占有83%,在预测的未流失客户中,实际未流失的占有83%。类别预测未流失流失总计实际未流失16317180流失3486120总计197103300预测准确程度较高,模型合理。0%10%20%30%40%50%60%70%80%90%总计流失未流失预测准确率VS类别正确错误模型预测模型解释流失的概率=𝑒2.8958−0.544∗客户等级−1.1071∗主叫次数−1.8998∗被叫次数−0.8988∗通话时长1+𝑒2.8958−0.544∗客户等级−1.1071∗主叫次数−1.8998∗被叫次数−0.8988∗通话时长客户等级每增加一个单位,几率比减少54.4%;主叫次数每增加一个单位,几率比减少110.71%;客户等级每增加一个单位,几率比减少189.98%;客户等级每增加一个单位,几率比减少89.88%。在控制其他因素不变的情况下,任意一个因素的增加都会导致几率比减少。深入探索05交叉验证预测准确率达到80.6%。交叉验证类别预测未流失流失总计实际未流失488112600流失82318400总计57043010000.7940.7960.7980.80.8020.8040.8060.8085101520预测正确率vsK值预测准确程度较高,模型合理。总结反思06流失为0-1变量,其他可作为数值型变量,所以选用逻辑回归。得出初步模型后,费用的系数与常识相悖,在合理的分析之后删除该自变量。得出最终模型,并进行模型评估,模型预测效果良好。模型选取模型总结模型分析模型预测数据建议数据背景数据分布我们希望客户等级为4的样本数量更多,以保证数据的均匀。我们希望更加详细的了解数据的背景来源。谢谢第五组:张士成,汪海峰,黄一唯