1银行客户数据分析2007-09-012背景数据客户群服务盈利•商业银行拥有大量的个人客户交易数据、个人客户服务数据和个人客户基本资料数据。在这些海量数据中,隐藏着大量的有价值的客户信息。运用数据挖掘中的聚类分析技术可以从这些数据集中提取客户的分类知识。聚类分析技术可以将性质、特征近似的数据对象归属在相同的群集中。商业银行可以利用此技术分辨出能有效为之服务的最有价值的客户,为他们提供更为个性化的服务,从而影响相关的客户行为并最终达到提高盈利的目的。3数据集•客户数据集包含10,000条客户数据•包含有31个特征(属性),分别为:•BankNo(银行代码,其值有:004,024,077等)•Accountnum(账户代码)•ShortName(客户名字)•FirstContactDate(第一次接触日期)•accountopendate(账户开户日期)•accountbalance(账户当前余额)•accountlowbalance(账户曾经最低余额)•accounthighbalance(账户曾经最高余额)•balancecategory(余额类型)•StatementLowBalance(最低交易账目,有正有负)4数据集(属性)•StatementHighBalance(最高交易账目)•StatementAggregateDebitBalance(聚集透支账目)•StatementAggregateDebitDay(透支账目的天数)•StatementAggregateCreditBalance(聚集存款账目)•StatementAggregateCreditDay(存款账目的开数)•ReturnCheckCount(退回支票的次数)•Status(客户状态)•AuditGranding(授权级别,越高则风险越低)•SalaryBeforeLastMonth(上一个月之前自动付款的账目)•SalarylastMonth(上一个月自动付款的账目)•SalarythisMonth(这一个月自动付款的账目)•CountofCreditthisMonth(这个月存款的次数)5数据集(属性)•CountofDebitthisMonth(这个月取款的次数)•CountofOD(透支的次数)•AmountofDepositthisMonth(本月存款的账目)•AmountofWithdrawthisMonth(本月取款的账目)•LastTransactionDate(上一次交易的日期)•CountryCode(客户所属的国家)•Birthday(生日)•Sex(性别)•••6数据预处理•我们选用Weka数据挖掘工具来对客户的账户数据进行分析,因此所有的原始数据都必须转换成能被Weka处理的数据集格式。•原始数据集的特征主要有四种类型的,分别是:数值型(numeric)、标称型(nominal)、日期型(date)和字符串型(string)。•对于缺失的属性值,因为Weka中的算法能自动处理属性值缺失的情况,所以按Weka数据集的格式要求用“?”表示。7数据预处理(规格化)•数值型特征:采用如下公式规格化到[0,1]区间•标称型特征、日期型特征和字符串型特征保持不变minmaxmin'xxxxx8聚类分析•目标•我们的目的是对客户进行分群,从而使银行可以对不同群体的客户提供不同的服务。因此聚类分析是对客户进行自动分群的有效方法。•方法•k-means算法•选取的特征•从31个原始属性值中选取23个属性用作聚类(都是数值型或标称型的)•聚类参数•在经过规格化处理后的数据集中,用k-means算法在选定的23个属性上进行聚类,设定聚类数为10.9各聚类大小•各聚类所包含的客户数量如下表聚类客户数量聚类1145聚类269聚类3133聚类46183聚类51985聚类6213聚类746聚类8446聚类9413聚类10368表110对聚类大小的分析由表1可知,各聚类有大有小,且大小悬殊,但也合乎客户关系处理的目的。客户关系管理的往往是找出一小部分的特殊客户(占20%左右)来进行特别地对待。在上表所示的10个聚类中,除去最大的聚类4后其余9个聚类的客户数达3818人,占总客户量的38.18%;除去最大的两个聚类(聚类4和聚类5)后其余8个聚类的客户数达1833人,占总客户量的18.33%.大聚类可以再继续细分(作为一个数据集再继续进行聚类操作,或直接提高聚类个数)11对各聚类结果的处理•聚类后的各聚类结果的数据是规格化处理后的数据的结果,我们要直观地分析各聚类的特点,必须把规格化的数据还原为原始数据。例如,最小值为-10,000,最大值为1,000,000的当前账户余额规格化为[0,1]后就难以理解各账户间存在的巨大差距,只有把它还原为原始的[-10000,1000000]才能使人直观地理解其存在的差距。•把各聚类的数据集还原为原始数据后,再计算各特征的均值和标准差(数值型的特征);或者各标称量的数量(标称型的特征)。12聚类结果分析(账户当前余额)•下表所示为10个聚类中各聚类的账户当前余额的正负及账户当前余额的均值和标准差聚类当前余额正负当前余额值+–均值标准差聚类1145024445.5073408.73聚类269029164.4178077.97聚类31330152882.48604633.58聚类4618215571.1723957.76聚类51985022102.6164825.42聚类6119948432.8218680.66聚类74602093.915798.48聚类8380667729.6733233.11聚类90413-24728.6861844.23聚类10368036264.2493389.1413聚类结果分析(账户当前余额)•最明显的特殊客户群有两个:•一个是聚类3的客户群,该聚类的当前余额均值达十五万左右,比其他聚类的当前余额均值高出一个数量级。所以可以初步判断该聚类的客户是存款额高或者说是高收入的客户群。另外,该聚类当前余额的标准差也很大,这说明在富有的客户群中各客户的收入差距也是很大的,有的达百万、千万、甚至上亿.•另一个明显的特殊客户群是聚类9所示的客户群。该客户群中的413个客户当前账户余额都为负值,且其均值达负两万多元。因此可以认定该客户群是高透支的客户群。后面还会分析的透支额、透支次数、透支时间等属性的分析同样可以印证我们这个结论.14聚类结果分析(账户当前余额)•分析其他的八个聚类•聚类4是占61.81%的最大的普通客户群,该客户群中几乎所有的客户的当前余额都为正值,其均值为五千多,标准差为两万多不会太小,说明该庞大的客户群还是可以再继续细分的。•聚类5是占19.85%的第二大的客户群,该客户群比最大的客户群聚类4来说它的当前余额均值高很多,达两万多元。因此可以说聚类5是大量普通客户中的中等存款额度的账户(不包括低存款额度的账户)。•聚类7是账户当前余额为正值但存款额度较低的客户群。•聚类1,2,6,8,10这五个聚类在当前账户余额这一属性上不能发现其明显的特征,我们将在后续的其他属性上的分析发现其聚类特征。15聚类结果分析(最低及最高交易账目)•下表所示为各聚类的最低交易账目和最高交易账目的均值与标准差聚类最低交易账目最高交易账目均值标准差均值标准差聚类121710.5767398.2930649.7787211.66聚类225422.8071501.1843955.38100110.53聚类3137112.35560335.78180985.33617496.38聚类44664.6621531.078869.5331149.29聚类515040.5349724.5943980.40109262.32聚类6-9205.01915566.6615999.4228870.03聚类71703.675667.1385432.0912143.86聚类8-9331.1732766.5026126.10143537.61聚类9-27823.9464684.33-12265.0633615.10聚类1016948.3454751.5374335.21148054.7316聚类结果分析(最低及最高交易账目)•明显聚类特征:•聚类3的最低交易账目和最高交易账目的均值都最高,这说明该类账户一般是有大数额的资金流入。•聚类9的最低交易账目和最高交易账目的均值都最小,属于透支最多的一类,这说明该类账户是属于透支型的账户,透支额维持在一个比较高的水平,且其最高交易额平均也达负一万两千多,说明这类型账户平均很少正向资金存入。17聚类结果分析(最低及最高交易账目)•聚类4这个最大的客户群的最低和最高交易账目的平均值保持在一个中等的水平,最低四千多,最高八千多;•第二大客户群聚类5的最低和最高交易账目的均值都较聚类4高很多,这也同样能够说明聚类5是大量的中等偏高的存储客户。•聚类7的最低和最高交易账目都较低(正值),属于小额储蓄客户。•聚类6和聚类8的最低交易账目平均为负值(属于透支),最高交易账目平均为正值(属于储蓄),因此该类型客户属于有储蓄有透支的信用消费型客户。•聚类1,2,10在这一属性上还不能分析出很明显的聚类特征18聚类结果分析(透支账目/存款账目)•下表所示为聚集透支账目及透支账目天数、聚集存款账目及存款账目天数的均值和标准差。聚类聚集透支账目透支账目天数聚集存款账目存款账目天数均值标准差均值标准差均值标准差均值标准差聚类10000621553.941893055.17260聚类20000862332.672188134.51260聚类300003987771.6315631280.74260聚类4000.000.03145729.02582818.6026.000.03聚类50000599440.681531141.41260聚类699402.83202963.8015.644.3966568.08130475.9210.364.39聚类7000075543.65239671.98260聚类817345.0451581.643.632.61170027.62856644.6322.372.61聚类9596935.001384363.1225.391.312744.6715650.270.611.31聚类100000907077.212107278.8026019聚类结果分析(透支账目/存款账目)•聚类3的聚集存款账目很高,均值达三百多万,该类型客户几乎不透支,但该类型客户的聚集存款账目的标准差也奇高,达一千五百多万,这也印证了前面所说的高收入群体中的各个体收入差距还是很大的。•聚类9是高额度透支账户,聚集透支账目均值接近六十万,但聚集存款账目均值仅有两千多,并且其透支时间长,平均达二十五天多。所以,该类型账户应该是长期处于透支状态。20聚类结果分析(透支账目/存款账目)•前面提到,聚类6和聚类8是有透支有储蓄的信用型消费客户,在此也可以说明问题。这两个聚类的聚集透支账目和聚集存款账目都有不小的数额,但其不同点是:•聚类6的聚集透支账目比聚集存款账目要高,且其透支时间长,说明该账户是以透支消费为目的,以存款维持信用消费。•聚类8的聚集存款账目要远高于聚集透支账目,说明该客户群以储蓄为主,透支消费为次。•聚类7是聚集存账目不高的客户群,且其不进行透支消费。•聚类1,2,5,10在这一属性上不能分析出明显的聚类特征。21聚类结果分析(本月存取款账目)•下表所示为本月存款次数、本月存款账目、本月取款次数、本月取款账目的均值与标准差聚类这个月存款次数本月存款账目这个月取款次数本月取款账目均值标准差均值标准差均值标准差均值标准差聚类10.160.443102.7922512.430.682.146525.8838214.38聚类21.521.9514204.9651897.495.646.6720524.6758284.22聚类30.941.1836389.15121866.583.795.0444100.