聚类分析算法和关联规则在客户细分中的一种研究与实现谢燕北京邮电大学电信工程学院,北京(100876)E-mail:xieyan19835@163.com摘要:本论文具体介绍了一种聚类分析的算法,并把他它运用于商场客户分析中。具体包括选取样本数据,进行数据的变量结构调整,计算相异度,根据聚类分析算法规则进行聚类分析。关键字:聚类分析客户细分数据挖掘中图分类号:TP301.61引言客户细分成为各行各业的迫切需要。随着企业经营环境越来越复杂,市场的竞争越来越激烈,客户关系管理已经成为企业制胜的法宝。目前各行各业都在不同程度上实现客户细分。但是目前客户细分的变化:方法众多,但优劣不齐。对于多因素、多指标的分类,大多靠经验和专业知识作出定性的分类,往往带有主观性和随意性,产品销售不尽人意。本文采用的是全面收集客户信息、运用关联规则挖掘客户内在的关键指标(有商业价值的、反映客户与客户之间区别性或相似性的特征),再用聚类分析算法对客户进行分类。运用数据挖掘的方法(聚类分析方法)按客户内在特性(有商业价值的、反映客户与客户之间区别性或相似性的特征)对客户进行分类,去研究客户的相互间关系,而不是按着既定规则去进行客户细分,从而帮助市场分析人员从客户基本库中发现不同的客户群(类),并且用购买模式来刻画不同客户群的特征,找出每一类中大部分客户购买过的商品,向该类中的其他客户推销该商品。2聚类分析算法在客户细分中具体运用2.1收集原始数据,选择相关指标体系由于反映客户购买商品的变量(影响因素)较多,并且各变量之间往往存在一定的相关性,使得各变量所反映的信息在一定程度上有所重叠,这就要对多变量结构进行简化。表1为某一商场客户数据库中随机抽取的简化后的10名客户的相关记录。其中描述客户属性只取了八个变量,即年龄(由客户生日得到)、婚姻状态、年收入、性别、在家子女数、教育-1-程度、成员卡类型、是否房主。表1客户数据样本客户id年龄婚否月收入性别子女数教育程度卡的种类是否有房141S10-30M0中学NormalN237M30-50F1高中BronzeY334M50-70F2本科BronzeY456S50-70M0本科NormalN557S130-150M0硕士BronzeY628M30-50M3本科GoldenN782S30-50M0高中BronzeN848M70-90M0本科BronzeY943M110-130F0高中BronzeY1039M30-50M2本科BronzeN2.2数据处理,简化变量结构分析数据中,数据有多种变量类型,为了计算分析的方便,根据如下几种变量类型,简化变量结构。定义1区间标度变量区间标度变量[1]是一个粗略线性标度的连续度量。如重量、高度、大气温度的关系等。为了实现度量值的标准化,较好的方法是将原来的度量值转换成为无单位的值。如给定一个变量f的度量值,就可以用如下的方法进行变换:(1)平均的绝对偏差sf:sf=n1(|x1f-mf|+|x2f-mf|+…+|xnf-mf|)(1)(注:x1f,x2f,…,xnf是f的n个度量值,mf是f的平均值,mf=n1(x1f+x2f+…+xnf))(2)标准化度量值:定义2二元变量一个二元变量只有两个状态:0或1,0表示该变量为空,1表示该变量存在。定义3序数型变量一个离散的序数型变量类似于标称变量,除了序数型变量的M个状态是以有意义的序列排序的。一个序数型变量可以映射为秩。假设一个变量f有Mf个状态,这些有序的状态定义了一个排列1,…,Mf。在计算对象的相异度时,假设第i个对象的f值为xif,用对应的秩rif代替xif,rif∈{1,…,Mf}。既然每个序数型变量可以有不同数目的状态,就必须将-2-每个变量的值域映射到[0.0,1.0]上,以便每个变量都有相同的权重。这一点可以通过用zif代替rif来实现:zif=(rif-1)/(Mf-1)(2)分析数据,年龄,收入和小孩个数视为区间标度变量,性别视为对称二元变量,婚否和是否房主视为不对称二元变量,教育和卡的种类视为序数型变量。对区间标度变量和序数型变量进行标准化处理,对对称二元变量性别,将状态M编码为1,状态F编码为0,对不对称二元变量婚否,将状态M编码为1,状态S编码为0,对是否房主将状态Y编码为1,状态N编码为0。客户数据变换后如表2所示:表2变换后的客户数据客户id年龄婚否月收入性别小孩个数教育卡的种类是否有房1-0.640-1.50100002-0,941-0.7700.250.250.3313-1.161-0.0400.50.750.33140.450-0.04100.750050.5302.881010.3316-1.601-0.7710.7501072.360-0.77100.250.3308-0.1310.69100.750.3319-0.5012.15000.250.33110-0.791-0.7710.50.750.3302.3计算相异度定义4计算混合类型变量相异度的计算计算混合类型变量描述的对象之间的相异度[2]的一种技术是将不同类型的变量组合在单个相异度矩阵中,把所有有意义的变量转换到共同的值域区间[0.0,1.0]上。假设数据集包含p个不同类型的变量,对象i和j之间的相异度d(i,j)定义为d(i,j)=(∑=pf1δ(f)ijd(f)ij)/(∑=pf1δ(f)ij)(3)算出各对象之间的相异度dij,以反映各对象之间的亲疏程度。昀后计算结果如表3-3所示:表3各对象之间的相异度客户12345678910-3-聚类分析在上述计算出各对象之间的距离(相异度表示)dij后就可进行聚类,即从这些数据中选出距离昀短(数据昀小)的两个对象,并将这两个对象合并为一类,接着选出距离次短的,并将挑选结果按下列规则处理:(1)若这两个对象在已有的类中没有出现过,则将其合并为一个新类;(2)若这两个对象分别属于已有的两类,则把这两类合并为一类;(3)若这两个对象中的某一对象在已分好的类中出现过,则将另一个对象也并入该类中;(4)若这两个对象都在已分好的同一类中,则在原类不动。依照上述规则反复挑选、合并,直至将所有的对象归并为一类为止。昀后可得到聚类谱系图,如图4所示。图4聚类谱系图-4-横坐标表示对象之间的相异度,纵坐标表示客户。由此图可以看出,它将10个客户分成三类,第一类包含2,3,9,6,8,5;第二类包含7,1,4;第三类包含10;在这个分类中,第一类代表已婚且已购置房子的客户,第二类代表未婚且未购置房子的客户,第三类代表已婚但未购置房子的客户。可见,在赋予各变量相同权重以达成自然分类的情况下,婚姻状况、是否房主是影响客户群分类的主要因素,而年龄、性别、年收入、教育程度等的影响不大。3用聚类分析结果实施产品的销售用聚类分析将客户群划分成类后[3],就可以在此基础上用统计的方法找出每个类中大部分客户购买过的商品——特征商品,然后向该类中未曾购买这些特征商品的其他客户推销特征商品,推销商品的成功率非常高。例如,在上面的分类中,若第一类中的客户2,3,9,6,8购买了商品A,则可以向该类中的未曾购买的其他客户5推销该商品,往往会取得很好的效果。在具体的实施中,可以预先确定一个百分比,当一类中购买某商品的客户数量占该类客户总量超过该比率时,该商品即是特征商品。采用聚类分析实施产品销售,其销售的成功率随聚类的粗糙、精细程度不同而不同,即当划分的类较多时成功率较高[4],划分的类少时成功率就相应降低。因此,在对客户群进行聚类时,应尽量使同类中的客户特征一致,即划分出的类要足够多。当然若类数太多,每类中的客户太少,对其进行统计所反映的准确率也会降低,造成分类失去实际意义。聚类分析只利用了客户特征与购买模式内在联系的一种预测方法对产品进行销售,具有一定的准确率,如果再能根据以往的经验和简单的统计方法对客户划分类别,然后利用分类方法分析上述数据集合,得到每个类别的特征描述,接着,把这些描述作为新的分类规则再利用聚类分析方法重新对原数据集合进行划分,循环使用,就会得到非常满意预测结果[5]。4总结本文通过对聚类分析算法解决了客户关系管理中的客户细分问题。在考虑客户属性的过程中把关键性属性和潜在性属性都作为客户分类的指标,而对于指标重要性权值问题,通过变量结构的变化来实现。昀后把客户分为三类,并提出对三类客户采取不同的营销策略,妥善分配企业资源。当然这篇论文中还有很多不足,关于客户分类指标的确定还有很多值得多多深入研究。参考文献[1]DavidHand等.数据挖掘原理[M].北京:机械工业出版社,2003.[2]王扶东,朱云龙.基于数据挖掘的客户关系分析评价系统[J].东南大学学报(哲学社会科学版),-5-(01):133-140 [3]Daemon,J.Dataminingofaviationdata:thesearchforparallel-offsetpairs[J].DigitalAvionicsSystems,33:139-150,Jan.2003[4]XiningYang,DaoHuang.AnewclusteringalgorithmIntelligentControlandAutomation[J].15:239-246,Aug.2004[5]JewieHan.MichelinCamberDataMiningConceptsandTechniques[M].北京:机械工业出版社,2001 ApplicationofClusteringAnalysisMethodandAssociationRuleinClientsSubdivisionXieYanSchoolofTelecommunicationEngineering,BeijingUniversityofPostsandTelecommunications,Beijing(100876)AbstractInThispaper,Iintroduceakindofclusteringanalysismethod,anduseitinclientsubdivision.Itcontainsselectingsampledata,changingvariablestructural,calculatingdifferencelevel,datamining.Keywords:clusteringanalysisclientsubdivisiondatamining