,宋梓田21东北大学工商管理学院,辽宁沈阳(110004)2东北大学信息科学与工程学院,辽宁沈阳(110004)E-mail:panyue88@163.com摘要:随着信用卡业务的快速拓展,数据挖掘技术应用于信用卡业务领域将成为一种必然的趋势。本文在阐述中国银行某分行在信用卡业务方面存在的问题基础上,设计了基于数据挖掘的中国银行湖南省分行信用卡管理系统解决方案。详细分析了客户信用风险分析模型——logistic回归分析,决策树挖掘模型——挖掘优秀客户,CHAID——顾客消费特性分析的具体实现,并对该系统进行了客观的评价。关键词:数据挖掘;信用卡;logistic回归分析;决策树中图分类号:TP3991.引言随着市场的不断发展,银行之间的竞争也越来越激烈。银行需要更多地了解用户以能在最短的时间里响应他们的需求。银行的主要业务之一信用卡业务正逐步完善,银行的信用卡业务逐渐体现出发行数量大、客户众多、交易频繁、交易信息全面准确等特点,客观上具备了进行多维数据分析和数据挖掘的条件。同时,信用卡业务数据分析和挖掘能够为业务管理人员和决策者动态地制作各类报表,利用智能数据挖掘工具发现信用卡行为模式,分析信用卡市场并进行市场预测,这也正好与银行提高服务质量、拓展市场、降低经营风险、提高经营效率的目标相符合。基于数据挖掘的信用卡客户关系研究正是为了适应银行目前的这种需求而进行的。[1]2.数据挖掘技术在银行信用卡应用中的主要模型分析数据挖掘技术在信用卡行业中主要应用在市场开拓和客户维护、风险控制以及获利分析方面等。在这些领域中可以应用的数据挖掘模型主要包括以下10种:表1数据挖掘在银行信用卡用中的主要模型模型名称模型类型主要采用方法应用的方面客户细分模型描述性聚类分析定向营销模型预测性分类、回归分析定向服务模型描述性关联分析客户激活模型预测性时间序列分析、神经元网络、决策树客户流失模型预测性时间序列分析、神经元网络、决策树市场开拓和客户维护方面信用评分模型描述性、预测性关联分析、神经元网络、决策树信用额度动态调整模型描述性、预测性时间序列分析、神经元网络、决策树欺诈监测模型描述性基于概率分布的检测方法、例外分析法风险控制方面客户透支分析模型预测性神经元网络、决策树利润分析模型预测性神经元网络、决策树获利分析方面3.基于数据挖掘的中国银行某省分行信用卡管理系统解决方案设计3.1信用卡管理系统的必要性中国银行某省分行隶属中国银行总行,至今已有87年的历史。改革开放以来,特别是进入九十年代后,该银行机构和业务步入快速发展时期,目前已经发展成为业务种类齐全、服务手段先进、资金实力雄厚、拥有一大批稳定的客户群体和一支高素质国际金融人才队伍的国有商业银行,辖内设置直属支行8家,二级分行12家,共有机构网点1000多个,遍布于某省内各大中城市。为支持某的经济建设、推动某的改革开放做出了重大贡献。该行信用卡业务在全省处于领先地位,自发行了中国第一张信用卡——“长城卡”后,业务蒸蒸日上,至2003年末累计发行长城系列卡932万张,累计消费额超过56亿元。2004年,该行银行卡业务发展以效益为中心,加强了信用卡业务的拓展,全年累计新增信用卡21668张,净增额较去年同期增长了6倍。虽然形势喜人,但该行的信用卡管理仍存在一些问题。目前,该行信用卡业务系统缺乏真正面向市场、面向客户的决策系统,对客户的评判仍停留在静止的、片面的、主观的水平,不能对客户做出动态的、全面的、客观的评价和准确、高效的选择。在信用卡业务中,如何取得竞争优势,留住老客户,开发新客户,并且把信用风险降到最低,是中国银行某省分行非常关心的问题。建立以客户为中心的信用卡管理系统,通过对大量信息的分析,找出客户消费的行为和规律,筛选出优秀的客户群体,预测客户的风险性,预测客户的个性化需求,及时响应每一位客户现在和未来的需要,设计出更加符合客户需要的产品和服务,才能真正进行以客户为中心的营销和服务。为了更好地细分客户,了解客户的消费特性,提高业务管理水平和信用卡获利能力,推行立足于数据挖掘的信用卡管理系统,是中国银行某省分行提高综合竞争力的必然选择。3.2系统总体设计3.2.1系统架构图1基于DM的信用卡管理信息系统结构图如图1所示,基于DM的信用卡管理信息系统结构分为:金融渠道、业务系统及其它数ATMPOS电话银行网上银行其他自助方式ABIS综合业务系统中间业务系统外部数据客户、商户DW信用卡产品DW客户价值分析客户风险分析商户价值分析产品分析金融渠道数据集成数据源分析目标据源系统、决策支持信息平台(数据仓库)、分析系统四个层次。金融渠道为业务系统提供了数据源,业务系统及其它数据源系统为决策支持信息平台提供了数据源,而决策支持信息平台则为该系统提供了数据源。[2][3]3.2.2系统总体设计信用卡管理系统建立在计算机技术和网络技术基础之上,通过收集市场和客户的大量信息,进行科学地分类、加工、存储、分析,为信用卡业务的战略决策、市场拓展、有效营销、客户服务、风险控制、增加赢利、提升信用卡社会形象等提供有力的信息支持。信用卡管理信息系统可按卡客户管理、商户管理、风险管理、市场营销、利润管理等五大功能模块设计,如图2所示。各功能模块又分别设有相应的子功能模块,实现对信息的分类存储、统计分析以及内部的多级互访和资源共享。系统除了可以随时监测基层行的计划执行情况,对交易信息和客户资信状况进行动态监控、自动预警外,还可以对持卡人进行特征分析和价值评定,并自动锁定重点客户,分析处理服务记录和客户反馈信息以评估服务满意度,对业务盈亏状况以及产品和市场的获利能力进行分析评估。图2系统功能模块图图图3信用卡管理系统网络结构图系统机构按省分行、市分行、县支行、分理处、储蓄所五级设置。系统信息的传输和浏览,全部通过中国银行内部网。通过身份校验,省分行可浏览市、县行的数据信息;市分行可浏览辖内县支行、分理处的数据信息;县支行可浏览辖内分理处、储蓄所的数据信息;分理处可浏览辖内储蓄所的数据信息;储蓄所可浏览本所的数据信息。省级行负责基础数据的采集、监测、统计、分析,自动产生经营统计分析结果,各市、县行负责有关资料的维护。系统构架为省级建立统一的信用卡管理系统,管理主机在省分行,各市分行通过浏览器与省分行WEB服务器联接,如图3所示。[4][5]3.3典型模型设计本系统采用了SAS/EM软件包,通过建立Logistic模型、决策树模型及CHAID,实现了中国银行某省分行对客户信用风险分析,客户细分和客户消费特性分析。采用数据挖掘研究的步骤如下:1.确定要研究的问题:本文此部分要研究的问题是通过数据挖掘对客户信用风险分析,客户细分和客户消费特性分析。2.数据的准备:包括数据格式的调整、缺失值的处理、数据的加载等。本文采用的实例数据集是取自该行2004年7月1日-7月31日的交易金额大于零的信用卡交易记录数据(有一些客户在ATM机上查询账户等不发生交易的情况在数据库中的数银行信用卡管理系统客户管理风险管理市场营销利润管理商户管理信用卡信息分析管理系统主机AS/400业务主机WEB服务器地区1地区2地区N......据被过滤掉了)。总共取100位持卡人的610条交易有效记录。3.数据挖掘分析模型方法的选择:Logistic模型、决策树模型及CHAID。4.SAS/EnterpriseMiner4.1进行数据挖掘分析。5.数据挖掘结果分析。3.3.1客户信用风险分析模型——logistic回归分析1.已知条件及基本思路根据该行信用卡客户历史资料数据库的数据,来构建信用风险分析模型,这些数据覆盖了该行的信用卡客户资料,包括客户基本信息、贷款/欠款收回信息、历史交易记录等。选取字段如下:(1)自然人本身所有属性字段:出生日期、最高学历、职业、职称、婚姻状况等。(2)个人客户财产状况的属性字段:居住稳定性、房产状况、年度收入估算等。(3)客户使用银行业务过程中的信用情况的一些属性字段。2.分析过程A.单因素条件logistic回归分析通过SAS/EM对以上各个因数对客户信用状况的影响的分析,可以得到下面的初步结果:(1)负担状况:绝大多数客户的负担较轻;负担状况未知或者赡养人数在2人以上的客户表现为坏客户的可能性较大;赡养1人的客户表现为好客户的可能性较大。(2)最高学历:说明当客户的学历水平为“小学毕业”和“其它”时,客户表现为坏客户的可能性很大;说明当客户的学历水平为“中专”、“大专”、“本科”和“硕士”时,客户表现为好客户的可能性很大。(3)年收入估算:年收入未知的客户一定是坏客户;年收入低于5000元时,客户表现为坏客户的可能性很大;年收入高于10000元时,客户表现为好客户的可能性很大。(4)居住稳定性:客户的居住稳定性未知的客户一定是坏客户;客户的居住稳定性为2年以上10年以下时,客户表现为好客户的可能性很大。(5)健康状况:当客户健康状况为“一般”或“不良”时,客户表现为坏客户的可能性很大。(6)房产状况:客户房产状况为未知时,该客户一定是坏客户;客户房产状况为租赁时,客户是好客户的可能性很大。(7)性别:当客户为女性时,客户表现为好客户的可能性很大。(8)婚姻状况:客户婚姻状况为未知时,该客户是坏客户的可能性很大;客户婚姻状况为“未婚”、“离异”时,该客户表现为好客户的可能性很大。(9)职业:职业为学生、教师、科研、文体、医务、军人、公务员、职员、商人的客户中,好客户占绝大多数;职业为农民、服务、自由、无业的客户中,坏客户占绝大多数;(10)职称:职称为其他的客户中,坏客户占绝大多数。B.多因素条件logistic回归分析在单因素分析的基础上,选择P0.1的变量,应用主成分因子分析进行变量及共线性检测,确定进入多因素条件logistic回归模型研究的变量。结果发现:对评价结果影响最大的因素有7项:个人收入、年龄、受教育程度、职业类别、居住习惯、健康状况、职称,并对这七个因素进行交互性综合分析。客户信用风险分析模型的设计,在分析中应用了Logistic回归方法,比较有效地利用了原始数据,对诸多因素进行了定量分析,从而使模型对客户信用做出较客观地评价,可为中国银行某省分行的信用卡部门提供参考。3.3.2决策树挖掘模型——挖掘优秀持卡人和优秀商户决策树是数据挖掘中常用到的技术。它主要用来找出能描述、区分数据类的模型,以便对类标记为之的对象类进行预测。决策树是一个类似于流程图的树结构,一般自上而下的生成,像一棵倒着生长的树。[6]本文应用该模型在客户中挖掘优秀持卡人,在商户中挖掘优秀商户。对优秀持卡人和优秀商户的挖掘可以采用决策树的方法对所有的持卡人进行分类。就挖掘优秀持卡人举例,分类是按照持卡人的平均月收入,月平均消费次数,月平均存款三个指标进行分类的,系统首先按季度对持卡人的所有交易情况进行汇总。按决策树的方法,决策树的生成可分为成长期(growthphase)和修剪期(prunephase)两步。在生长期,用训练集中的属性反复划分训练,直至每个划分中的成员都属于同一类或者划分足够小,这样就构造了一棵初步决策树;在修剪期用测试数据对决策树进行测试和修改,消除导致错误的分枝。1.分析过程和模型结果图4挖掘优秀持卡人决策树对该决策树分裂的评价准则,采用的是Gini指数(GiniIndex)方法。其定义为:∑==−=ni1iip1ginis(S)式中ip为各个类在S中出现的相对频率,n为S中所含类的个数,如果S分裂为S1和S2的元组数分别为N1、N2,则此分裂的Gini指数为:gini(S2)NNgini(S1)NN(S)gini1221split×+×=取(S)ginisplit最小者作为优选分裂。最后得出结果:按照