采用“分类分析”的方法进行电信市场客户分群(一)摘要:本文研究了分类分析的数据挖掘技术在电信客户分群和目标市场营销中的应用。比较了基于聚类分析和分类分析技术的客户分群实现模式的优缺点和适用范围。基于实践经验为电信目标市场营销的客户分群提出了一种较易实现的解决方案,并以实际案例验证了其可行性。关健词:数据挖掘、聚类分析、分类分析、客户分群、目标市场营销1引言面对不断变化的市场环境,电信运营商已经认识到以往撒网式营销的局限性,开始寻求细分市场和针对性营销之路。比如根据用户的年龄、心理特征和行为习惯进行客户分群,在细分市场的基础上,根据用户需求实现业务、产品、价格和渠道的优化和组合。所谓市场细分是指营销者根据顾客之间需求的差异性,把一个整体市场划分为若干个消费者群的市场分类过程。由于顾客对电信产品需求的多样性、变动性以及电信企业资源的有限性,电信企业在进行市场营销过程中,必须进行市场分析,选择目标市场,做出市场定位,并结合目标市场的特点和结构制定有针对性的市场营销策略。客户分群是了解客户进行市场细分和目标市场营销的前提。数据挖掘的分类和聚类的方法都可应用于客户分群。分类(classifying)指按一定规则把一组个体区分成几个群体;聚类(clustering)指把一组个体按照相似性归成若干类别。聚类和分类有着很大的区别:分类时,我们总是事先知道哪些属性是重要的,我们总是将重要的、有影响力的属性作为分类的依据;而聚类时,我们事先根本不知道哪些属性起作用,我们的任务之一就是要找到那些起关键作用的属性。对电信市场的客户分群一般采用聚类分析的数据挖掘方法,然而聚类分析方法较为复杂,项目实施周期较长,对技术人员有较高要求,难以得到理想的结果。在本文中我们介绍一种采用分类分析方法进行客户分群的实现模式,为电信目标市场营销的客户分群提供一种较易实现的解决方案,并以实际案例验证其可行性;同时也对采用聚类和分类两种方法进行客户分群的优缺点和适应范围进行比较探讨。2基于分类分析的客户分群分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。可以直接从业务知识和经验提取分类规则,也可以利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测,我们既可以用分类模型分析已有的数据,也可以用它来预测未来的数据。最为典型的分类方法是基于决策树的分类方法,它是从实例集中构造决策树,是一种有指导的学习方法。该方法先根据训练子集形成决策树,最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的属性,该分枝对应其属性的某一可能值。这棵树构成了分类规则集,每个个体经由这个规则集进行判断,以一定的概率归属于某个类别。数据分类还有统计、粗糙集等方法,线性回归和线性辨别分析是典型的统计模型,神经网络方法也可以用于分类和规则提取。以上方法是在分类规则不明确的情况下,我们需要以决策树等算法先构造出分类的规则模型,然后用于分类。事实上在实际应用中,尤其在一些商业应用中,我们基于已有的业务知识和实践经验可以总结出一些规则直接用于分类,比如我们可以根据性别、年龄、家庭地址、职业等直接对客户进行分类。客户的价值和消费行为是进行电信市场客户分群的主要依据,由于电信客户数据有其特有的特性,根据我们的商业理解和业务认识我们可以从中总结出一些直接可用于客户分类的规则,从而可以比较容易地实现客户分群。数据挖掘项目的标准化流程如图1所示。图1.数据挖掘标准化流程依据流程首先要进行客户分群的“商业理解”,这一初始阶段集中在从商业角度理解项目的目标和要求,然后把理解转化为数据挖掘问题的定义和一个旨在实现目标的初步计划。采用分类分析的方法对电信市场进行客户分群的商业目标可以理解为:从价值和行为维度,考察客户业务拥有与使用、消费行为变化、他网业务渗透等方面属性,选择能区分客户的最重要的属性,并选定恰当的临界值,对关注的目标客户群进行合理的区隔,从而形成特征各异,适应不同的针对性营销方案的客户子类,为发展新业务、流失客户保有、他网用户争夺等营销策略的制订提供分析依据,并实现企业保存量、激增量的战略目标。无论是用聚类还是分类的方法进行客户分群,在“数据理解”和“数据准备”阶段都是一样的。通过选择数据、清洗数据、构建数据、整合数据、格式数据等环节,最终需要形成以客户或用户标识为主键,包含了客户信息、价值和消费行为等各方面属性变量的宽表。这方面工作在《采用聚类分析的数据挖掘技术进行电信市场客户分群》[9]一文中已有详细描述,这里不再赘述。宽表是我们进行分类分析的数据基础,宽表中客户属性信息数据越完善,越有利于我们对客户进行细致透彻灵活的分析。依据我们的商业目标和业务意义,我们可以选择确定分类的最重要的属性变量,这些变量也常常是我们在制定营销策略时,最需要关注的指标变量,比如:产品类别、ARPU值、ARPU值变化趋势、国内长途时长、国际长途时长、传统长途时长占比、他网IP时长占比、区间/区内费用占比等等。我们进行客户分群的商业目标不同,选择的分类依据属性也应有所差异,如果我们需要找出增值业务的客户群,增值业务收入及其占比就应该成为我们分类时应该关注的指标。在确定分类的依据属性后,还需要对属性指标的优先级进行排序,最高优先级的指标也是业务上最需要关注的指标,是我们进行第一层类别划分的依据。然后,我们可以模拟决策树的方式设定每个指标的临界值,并进行类别划分。比如我们首先根据客户是否拥有宽带产品划分出一个“宽带群”,然后选定ARPU值的两个临界值将非宽带群客户划分成低值、中值、高值三个临时客户群,并作为进一步划分的起点,如图2所示。图2.分类示例1如何设定指标的区隔界限成为我们按以上方法分类时要解决的关健问题。商业管理上著名的“2/8法则”可以作为我们指标界限值设定的依据,“2/8法则”认为大多数情况下,一个企业80%的收入来自于20%的客户贡献。采用“2/8法则”,可以按客户数分别占20%和80%两个临界点将客户分为三类。“黄金分割率”也可用于类别划分,即按接近四六开将客户分成两类。也可直接用均分的原则,将客户分为两类。另外还可以结合商业目标和业务意义来设定界限值。应用“2/8法则”时一种方法是先计算贡献度,然后选取贡献度接近0.5和2的值作为临界点。比如计算ARPU值的两个临界值,可以将客户按ARPU值由高到低排序,计算各ARPU值段客户的收入的占比,则:收入贡献度=[累计收入占比n-累计收入占比(n-1)]/[累计客户占比n-累计客户占比(n-1)]如下图,ARPU值在前20%到前10%的客户,即ARPU值在48到66元之间的客户,其收入占总收入的(43-30)%,对应的收入贡献度为(43%-30%)/(20%-10%)=1.3。以贡献度接近0.5和2的值作为临界点是因为我们从实际数据中总结出,如果客户收入分布比较符合正态分布的特点,则按ARPU值由高到低排序,客户数占比在20%和80%处的客户的贡献度都分别比较接近2和0.5。图3.贡献度法确定界限值采用“分类分析”的方法进行电信市场客户分群(二)(2009-10-0415:34:25)我们也可以用更简便的办法来确定此界限值,可以对ARPU值变量进行等频分箱,即将ARPU值划成几个区间,使每一区间内的客户数目相等,然后以客户数分别占20%和80%的ARPU分界值作为临界点,如图4所示,客户数占20%处ARPU值约为23,客户数占80%处,ARPU值约为47与贡献度法确定的界限值非常接近。图4.等频分箱法确定界限值根据业务常识,低值电话用户主要收入来源于区内和区间通话,对于通过以上步骤分出来的低值用户群,我们关注哪些用户区间通话需求更为显著,因此我们采用“区间/区内费用占比”变量对其进行进一步的划分,我们可以将此变量的平均值作为划分的界限值,如图5所示。图5.分类示例2根据商业目的,在此次分析中国际长途业务是我们关注的一个重点,因此我们以“国际长途时长”变量为划分依据从中值和高值用户中筛选出一个“国际长途群”。分界值我们依据“黄金分割率”求取,对“国际长途时长”不为0的客户的国际通话时长进行分析,时长大于3分钟的客户数约占40%,因此可按图6所示进行分类。图6.分类示例3剩下的中值用户依据“国内长途时长”按“黄金分割率”划分为国内长途用户和本地用户。本地用户再依据“区间/区内费用占比”划分为“中值区内”和“中值区间”两个客户群。国内长途用户中依据“他网IP时长占比”变量将“他网IP时长占比≥60%”的用户划为“异商IP群”,这个群是我们进行IP业务争夺的目标市场客户群,商业意义非常重要,因此我们又将高值用户中“他网IP时长占比”变量符合此条件的用户也归入此群中。在非他网长途用户中我们依据比值“传统长途时长占比”,将小于0.5的用户划分为“传统国内长途群”,大于0.5的用户划分为“电信IP国内长途群”。图7.分类示例4剩下的高值用户,我们依据“ARPU值变化趋势”,将大于0的用户划为“高值上升群”,小于0的用户划分“高值高危群”,高值高危群显然是我们流失客户保有的目标市场客户群。图8.分类示例5采用“分类分析”的方法进行电信市场客户分群(三)通过五个层次的决策划分,最终我们形成了如下图所示的11个子类,完成了我们需要的客户分群。我们可以在宽表上增加一个“群号”字段,根据以上类别划分条件,将每个客户打上对应的群号标识。图9.分类示例6以上类别划分的过程实质也是一个“模型建立”的过程。接下来的“模型评估”和“模型发布”环节与采用聚类方法进行客户分群类似,在《采用聚类分析的数据挖掘技术进行电信市场客户分群》[9]一文中已有详细阐述。首先我们需要进行特征刻画,通过观察各变量在各分群的均值特性的透视图,对各客户群的特征进行深入细致的描述,如图10所示。除了用于分类的关健变量,宽表中包含的其它变量都可以用于辅助特征刻画。别外还需要对各客户群进行进一步的比较分析。我们可以在特征刻画的基础上,通过客户与收入分析、ARPU构成分析、长途构成分析、产品渗透率分析、费用趋势分析、优先级分析、入网时长分析、离网率分析、指标统计费用构成分析、费用分布分析等多个方面对各客户群进行属性分析为营销策划提供依据。为辅助营销策划需要对各客户分群的人口、人口占比、收入、收入占比、MOU,各项业务的ARPU、收入占比和变化趋势、渗透率等各项指标进行统计;并结合流失倾向、收入下降趋势、收入潜力(平均ARPU)、人数占比和商业目标,确定进行营销的客户群的优先级及营销的目标客户群。图10.特征刻画与客户群分析2分类与聚类方法进行客户分群的比较研究聚类根据对象的相似度把一组个体按照相似性归成若干类别,使得属于同一类别的个体之间的相似度尽可能大,而不同类别的个体之间的相似度尽可能小。相似度是根据描述对象的属性来测算的,距离是经常采用的度量方式。比如最常用的K均值聚类分析方法通过随机点划分K个类,每条记录被归到类中心距它距离最近的类中。聚类分析的优势是可以同时从几十上百个维度去考虑对象的属性,而且我们事先根本不需要知道哪些属性起作用。聚类分析可以帮助我们发现对类别划分起关键作用的属性,这种发现一方面可以验证我们已有的经验规则,另一方面也可以协助我们发现新的业务规则。聚类算法对参与分析的变量一视同仁,可以消除人为经验的偏见,完全依据数据自身的分布特性去作评判,常常可以帮助我们发现一些潜在的有价值的业务规则。而分类方法恰恰相反,分类时,我们总是事先知道哪些属性是重要的,我们总是将重要的、有影响力的属性作为分类的依据。不论是根据决策树算法还是根据业务经验来确定分类规则,在进行分类前就已经明确了类别划分依据的关键变量。确定的分类依据不同,会作出完全迥异的类别划分,因此分类受人为经验影响较大,在进行分类前需要先明确分类分析的业务目标。聚类与分类分析在数据准备阶段及后期的类别特征刻画和属性分析方面都是一样的,主要的区别在类别划分的方法上。聚类分析常要采用一些复杂的数据挖掘算法,并要进行反复的调优,需要较长的项目周期;而分类分析在