电信行业数据挖掘介绍数据挖掘系统框架示意图SPSS以客户为中心分析方法客户细分和分析:根据客户的自然属性、消费特征、行为习惯进行客户的分群,分析各客户群体发展(转化)趋势和消费习惯及消费产品、趋势。客户对位客户需求:对位客户的需求,为客户设计和推荐适合客户需求的产品(套餐和资费组合)发现客户需求:发现各业务群体的业务需求。分析的主体:客户新的客户特征:客户对业务的消费行为,形成新的客户特征。客户行为的跟踪:跟踪客户使用业务的情况,投诉情况,流失预测与预警。电信数据挖掘分析所需数据第一类数据:人口统计学数据1、地址2、家庭(公司)规模3、……第二类数据:通话行为数据1、通话次数2、通话时长度3、通话去向构成(市内、国内、国际、漫游……)4、通话时段构成(忙时、闲时、周末……)5、通话费用及构成6、……第三类数据:使用数据业务和服务数据1、是否使用某类服务(标记变量表示)2、各类型服务花费3、……第四类数据:其他数据1、用户在网时间2、用户付费方式3、……数据准备过程——对数据进行整理和变换数据的几个来源:1.CDR(CallDetailedRecord)2.客户资料数据(CustomerInformation)3.客户帐务数据4.销售策略与措施数据5.其他来源数据的整理与变换1.数据的简单描述和汇总、缺失值的填补2.数据挖掘变量的筛选和相关性分析3.数据的专业变换4.不同数据源数据的整合5.其他数据挖掘建模和检验选择何种工具和算法模型结果是否能在业务中被应用?模型检验方案如何设计和实施?数据挖掘流程第六步:结果发布——如何把结果发布到业务人员(决策者)手中结果发布的几种可能方式1.提交书面或者电子报告2.把相关数据挖掘结果写回数据库,供查询展示3.开发用户界面,实现主要数据挖掘解决方案的定制化(例如:建立打分系统)模型的更新和维护针对不同的模型制定实施不同的模型更新计划(例如细分模型是其他模型的基础,更新频度慢,客户吸引模型更新频度快)数据挖掘软件的使用1.作为工具软件供企业数据挖掘分析人员使用2.作为后台运行,进行日常数据挖掘模型的处理客户流失分析案例商业背景虽然某移动在该地域移动电信市场地位处于龙头地位,但是由于联通、网通、电信的强势营销以及系列优惠活动,该移动的月流失客户率逐月上升。根据统计,该移动中高价值客户年流失率达到了27%以上。该移动希望通过SPSS分析团队的帮助,能够准确定位即将流失的客户,从而采取一定的业务措施把中高价值客户的流失率下降20%左右,实现客户维系活动投资回报最大化。咨询项目实施准备SPSS电信行业数据分析专家,并与该移动公司协商所需的业务和IT资源。SPSS技术人员与移动IT及业务人员讨论流失客户的目标定义、流失客户分析所考虑的因素、经分系统数据现状等情况。SPSS技术人员和移动相关人员制定咨询项目日程、投资回报评估标准、分析结果精准度目标等相关事宜。客户流失分析范围分析目标分析中高价值客户在未来2月内流失的可能性,及高流失概率客户前4个月的行为特征和人口统计学特征等,从而帮助业务人员提前采取业务措施实施客户维系。流失客户分析的目标客户群——中高价值客户前6个月中有3个月ARPU150的非神州行客户流失客户定义用户不再继续使用移动提供的服务而终止合同用户消费2月内最高资费较前6月平均资费下滑80%以上流失分析目标分群考虑到预付费和后付费用户行为特征有相当大的差异,因此对预付费客户和后付费客户分别分析,从而提高模型的可信度。咨询分析项目成功目标定义成功目标商业定义客户年流失率下降到20%收益率提高50%以上成功目标技术定义准确性:=70%命中率:=40%覆盖率:=40%提升度(流失概率最高的10%用户):=3客户流失分析相关因素欠费标志、欠费总额、新欠费额、通话次数、主叫通话次数占比、平均每次通话时长、漫游时长、漫游占比、IP长途时长、节假日通话时长、节假日通话时长占比、节假日主叫通话时长占比、闲时通话时长、闲时通话时长占比、优惠通话时长、优惠通话时长主叫占比、与联通GSM通话时长、与联通GSM通话时长占比、与联通CDMA通话时长、与联通CDMA通话时长占比、与电信通话时长、与电信通话时长占比、国际长途通话时长、国际长途通话占比、国际长途主叫通话占比、国内长途通话时长、应缴费、代收费、月租费、其他费用、其他费用占比、通话费、主叫通话费占比、优惠费、优惠费占比、主叫优惠费、长途费、长途费占比、国内长途费占比、本地费、本地费占比、优惠时段通话费、优惠时段通话费占比、基本通话费、基本通话费占比、呼转次数、呼转次数占比、平均每次呼转通话时长、无条件呼转次数、无条件呼转次数占比、呼转移动次数、呼转联通GSM次数、呼转电信次数、呼转联通CDMA次数、呼转其他设备次数、呼转秘书台次数、呼转网通次数、交往圈、主叫交往圈占比、联通交往圈占比、网通交往圈占比、最频繁联系号码通话次数、最频繁联系号码主叫通话次数、平均最频繁联系号码每次通话时长、短信次数、GPRS时长、品牌大类、客户类型、付费方式、用户在网时长、用户状态、免催标志、换品牌标志、资费品牌、新品牌、与联通客服联系次数、与电信客服联系次数、VPMN标志、年龄、职业、客服联系次数、离网标志、停机标志、停机时长、可用资金额、未缴账单数、预存次数、预存金额、有效期项目实施过程简述项目实施周期:40个工作日移动技术人员负责从经分系统数据仓库中收集符合分析范围的数据(包含上述相关因素),并整合成以客户号为唯一键值的宽表。历史信息时间为2006年7月——2007年2月。训练、测试数据为用2006年7月——10月的客户数据分析2006年11-12月内客户流失的关系。验证数据为用2006年9月——12月的客户数据验证2007年1-2月内客户流失的命中率。对收集的历史信息进行转换,衍生出4月内资费波动,4月内均值等指标。使用Pearson和Cramer’sV指标评估预测因子和客户流失之间关系的强弱,进行维度裁减,简化模型并提高模型健壮度。后付费部分分析结果准确性评估准确率:82.56%覆盖率(预测准确的流失客户数占实际客户流失数的比率——预测准确的流失客户数/(预测错误的实际流失客户数+预测准确地流失客户数)):71.5%预付费部分分析结果准确性评估准确率:81.65%覆盖率(预测准确的流失客户数占实际客户流失数的比率——预测准确的流失客户数/(预测错误的实际流失客户数+预测准确地流失客户数)):92.47%模型分析结果与实际目标客户占比上图为提升图。根据提升图的结果,市场分析人员可以很容易了解客户维系的目标群体定位。根据统计,通常情况下电信公司对提升度大于3的目标群体进行客户维系,收益大于产出。模型分析结果的收益情况上图为累积图。根据累积图的结果,市场分析人员可以直观的了解目标客户群中包含了百分之多少的实际目标客户。咨询项目收益评估后付费客户预付费客户中高端客户数142,926480,089实际流失客户总数11,87133,310提升度大于3的客户群占比(预付费部分因为前10%客户已经包括了将近100%的流失客户,所以认为需要客户挽留的只占总客户的10%)25%20%实际流失客户占比75%90%预测准确的流失客户(实际流失客户总数*实际流失客户占比)890429,979推广业务的客户(中高端客户数*提升度大于3的客户群占比)35,73196018对流失倾向客户的挽留成功率(业界普遍为10%-25%)15%15%2007年2月流失客户在2006年12月前四月的平均月话费379187可能挽回的收入(预测准确的流失客户*对流失倾向客户的挽留成功率*2007年2月流失客户在2006年12月前四月的平均月话费)506,192840,911可能挽回的收入合计(月)1,347,103案例分析应用结果应用SPSS客户流失分析结果并结合恰当的业务手段,在项目实施后第二个月,该移动中高端客户流失率即从原来的9.6%下降到了7%,取得了非常显著的效果。产品关联性分析介绍(交叉销售)产品关联性分析范围分析目标通过分析现有客户的持有产品情况,找出产品之间的关联性。从而根据客户已持有的产品推荐新的产品给客户,从而提高现存客户价值。产品关联性分析范围产品范围为所有增值业务产品。目标客户为所有现有持有增值业务的客户产品归类定义所有产品不能按照产品维表进行简单的归纳,而是根据其实际内容进行归纳或细化(例如:短信业务既不能完全按照SP商归类,也不能简单的归为一类,而是根据内容进行拆分)。客户持有产品定义客户持有该产品且未解约流失分析目标分群考虑到C网和G网用户行为特征有相当大的差异,因此对C网和G网客户分别分析,从而提高模型的可信度。咨询分析项目成功目标定义成功目标商业定义客户短信营销响应度提高20%以上成功目标技术定义找到有强关联性,且有实施价值的产品关联关系。关联支持度(规则适用的客户百分比):20%关联置信度(营销的成功概率):40%产品关联分析思路交叉销售分析开始审视产品定义根据业务内容细化产品产品定义过于笼统根据业务内容对产品归类产品定义过于具体进行市场细分,筛选出最具营销价值的客户群选取对客户进行分群的依据检查客户细分后的客户群在本次业务分析目标上是否有明显区别无明显区别对具体产品根据一定的业务规则进行汇总或者细分根据客户的消费行为和其他属性进行市场细分分析每个客户群的产品持有特征分析每个客户群的产品关联关系基于每个客户已有的产品,根据产品关联规则给每个客户推荐特定的产品交叉销售分析结束分析特定客户群的产品使用情况产品关联分析中的主要问题产品关联分析的数据源相对简单,训练数据源格式为:客户号、客户持有产品1(T/F)、客户持有产品2(T/F)……。利用关联算法,分析人员可以很容易地了解每个产品的关联性。因此产品关联分析的主要难点在于如何归纳产品,如果产品分组过细则会导致规则不具有普遍意义,不具有可操作的价值;如果产品分组过粗则会导致规则变成了一些常识性问题,反而屏蔽了一部份有价值的规则。需要有针对性地对不同的客户群进行产品关联分析,不同的客户群对应的产品关联关系是不同的。如果简单地对所有客户进行关联分析,得到的结果要么置信度过低,无法操作;要么产生一些业务常识(通常这类规则,规则支持度和置信度都很高——例如:有86%的客户都购买产品b,如果规则告诉你持有产品a有80%以上的概率持有产品b,则这类规则是没有意义的)。项目实施过程简述先根据客户消费行为进行分类,找出那些增值业务消费能力较强的客户群体。对产品维重新定义。对那些增值业务消费能力较强的客户分别进行产品关联性分析。由业务人员分析生成的产品关联规则,筛选出那些有业务含义的规则。把有价规则部署到应用系统中,根据客户已持有的产品推荐新产品。市场细分相关因素客户最近三个月的月均消费:应收金额、传统业务功能月租应收金额、传统短信业务应收金额、增值业务应收金额、本地通话应收金额、长途通话应收金额、通话应收金额客户最近三个月的各项月均消费占比:本地通话占比、传统业务功能月租占比、传统短信业务占比、增值业务占比、长途通话占比、通话占比客户最近三个月月均其他消费指标:传统短信业务通话时长、增值业务通话时长、本地通话时长、长途通话时长、传统短信业务通话次数、增值业务通话次数、本地通话次数、长途通话次数市场细分结果从客户数据中发现一些异常数据(例如:发现一客户话务资费只有1000不到,增值业务资费竟然高达3百多万)。通过聚类算法,我们把客户分为9类:中低消费增值业务低占比客户高消费纯通话用户高消费增值业务低占比客户增值业务高消费客户中等消费增值业务高占比客户中等消费增值业务中等占比客户中等消费增值业务低占比客户低消费客户中上消费增值业务低占比客户根据业务人员经验,从中挑出高消费增值业务高占比客户、中等消费增值业务高占比客户、中等消费增值业务中等占比客户进行产品关联分析。产品关联分析结果通过