Salford数据挖掘技术在金融行业的应用概述数据挖掘在金融行业的应用主要有两大方向风险管理信用风险管理反欺诈市场营销以及客户关系管理定向营销金融产品的设计和定价客户挽留风险管理信用风险管理的核心任务之一就是对各种金融产品的客户在不同阶段的信用风险进行有效的评估信用卡房屋抵押贷款汽车抵押贷款贷款发放/批准阶段的风险评估对现有借款者行为进行跟踪评估欺诈是金融行业所需要面对的另外一种风险信用卡盗用保险行业的骗保风险管理中的核心问题科学的风险管理需要我们更好的了解客户哪些客户是高风险的客户,他们的特征是什么哪些客户是低风险的客户,他们的特征是什么对于风险级别不同的客户,用什么方法来量化这种风险的差异欺诈的模式有哪些,如何在实时的环境下识别欺诈,阻止欺诈的发生在风险管理中运用CART和TreeNet技术利用CART和TreeNet建模技术对大量的高纬度数据进行建模分析,自动从大量的预测变量中筛选出具有与风险相关的变量,寻找高风险人群的特征模式,并提供风险打分卡,实现风险量化评估CART是一种决策树建模工具,可以建立易于理解的,基于规则的模型。CART模型能清晰的给出各个风险级别的人群细分TreeNet是一种新一代超高精度建模工具,模型的每个基本单元是一棵小的CART树,通过不断修正预测值,来提升模型的精度。TreeNet能够提供每一个重要的预测变量与违约或者欺诈概率的相关性图示信用违约风险模型案例1—个人信用风险模型数据来源于某家德国银行样本数为1000个银行个人客户,其中违约样本为300个(目标变量取值为2),正常样本为700个(目标变量取值为1)数据集中总共有20个预测变量,其中7个数值型的变量,13个为类别型的变量希望建立一个决策树模型寻找到具有较高信用违约风险的人群细分,同时建立有效的风险评分卡CART模型缩略图CART模型得到的高风险人群细分模型中每个节点给出的变量都是CART自动筛选出来的与风险具有显著相关性的变量红色的节点代表高风险人群细分支出账户状态为A11或者A12,同时贷款时长为大于22.5个月信用历史为A30或者A31,同时支出账户状态为A11或者A12,并且贷款时长小于等于22.5个月信用历史为A32或者A33或者A34,同时支出账户状态为A11或者A12,并且贷款时长大于11.5小于等于22.5个月,同时信用额度小于1387.5贷款用途为A40或者A46或者A49,同时其它分期付款计划为A141或者A142,同时支出账户状态为A13或者A14TreeNet模型的输出结果—预测变量重要性排名TreeNet模型对所有的20个预测变量进行分析和筛选,最终模型包含影响违约概率最重要的8个预测变量,其余的变量被排除到模型之外变量打分支出账户状态$100.00||||||||||||||||||||||||||||||||||||||||||贷款时长83.87|||||||||||||||||||||||||||||||||||用途$78.89|||||||||||||||||||||||||||||||||信用额度71.00||||||||||||||||||||||||||||||信用历史$69.44|||||||||||||||||||||||||||||就业时长$57.55||||||||||||||||||||||||储蓄账户_债券$49.86||||||||||||||||||||年龄43.28||||||||||||||||||TreeNet模型的输出结果—单变量依存性图示1TreeNet模型的输出结果—单变量依存性图示2TreeNet模型的输出结果—双变量依存性图示双预测变量依存度目标=2双预测变量依存度目标=2双预测变量依存度目标=2双预测变量依存度目标=2TreeNet模型提供高精度的评分卡以上的图表能帮助我们更好的了解TreeNet模型寻找到的数据模式在风险管理中,TreeNet最核心的功能是提供高精度的评分卡每一份客户申请,或者每一笔交易都进入TreeNet模型进行评分,所得分数代表了量化的风险大小根据风险评分的高低,金融机构给予不同的风险级别的客户不同的应对策略(拒绝、接受、以及费率差异等),实现个性化、智能化的风险管理评分卡分数分布图ScoreDistribution0.0%5.0%10.0%15.0%20.0%25.0%12345678910ScoreBandsProbabilitiespg(I)pb(I)以上是一个打分卡的分数分布情况需要让中间部分(第5和第6组)的人数尽可能的少建立评分卡的一般过程第一轮模型开发通过使用CART和逻辑回归,我们可以迅速建立具有和标准信用评分卡开发者的模型性能相似的模型和客户讨论预测变量排名和模型性能报告和客户讨论评分卡的使用或预测精度问题,并确保不存在无法预见的数据问题第二轮模型开发通过使用TreeNet和进阶CART技术,我们努力提供高性能的评分卡,能够更加有效地区分好和坏对于40亿美元的投资组合,每百分之5的精度提升将使得在现有的利润基础上获得每年200-500万美元的增收我们最好的模型通常比专家使用常规技术建立的模型性能高5%到15%。只要有可能,高性能的模型显然更加有吸引力信用违约风险模型案例2—小企业信用风险模型小企业信贷成为银行业最后有待开发的领域之一中国的小企业信贷市场刚刚启动在美国和澳大利亚,总体上该市场也未被开发欧洲的许多国家(甚至意大利)一直都没有针对该市场的任何放贷即便有小企业的信贷业务,大多受限于抵押贷款的模式小企业信贷所面临的处境与当初信用卡还未普及时的个人贷款情形相似借方不能确定如何量化风险借给谁?借款额度如何控制?如何定价?有诸多不确定性存在小企业信贷市场介于个人信贷市场和大公司信贷市场之间。个人信贷方面的信用风险评分已经得到了广泛应用。大公司的信用风险评分模型也已被应用,这种复杂的模型主要基于公司的股价以及价格走势小企业信用风险模型的主要挑战需要建立合适的数据库,用以建立信用风险评分模型能够用来建模的有记录的数据很少(小样本)需要找到处理缺陷数据的方法寻找到合适的建模方法马来西亚联合银行案例美国SalfordSystems公司为马来西亚联合银行(AllianceBank)开发了小企业信用风险模型,并建立了评分卡SalfordSystems为联合银行解决以下的一系列问题,包括:数据获取、数据质量、建模技术整个流程管理,从项目计划到最后的IT部署小企业信用风险评分建模的一些发现有效的小企业信用风险评分模型的性能可与现有的业界评分卡相媲美不需要庞大的建模数据集合联合银行项目中,使用了1500家企业的数据,其中包括250家拖欠企业变量的度量对预测拖欠的效果有影响仅依赖财务比率作为预测变量将无法得到好的模型小企业风险评分相关联的财务比率与大型公司相关的财务比率并不相同需要将贷款拖欠和缓慢偿还的两种行为综合纳入模型研究范畴信用风险评分模型可获得非常有用的结果小企业信用风险评分卡的目标主要任务:申请模型,用来帮助决定是否放贷第二任务:行为模型,在贷款批准之后,用来定期对企业再次评分模型必须与巴塞尔II要求相符模型能够代表放贷者自身客户(特定借款群体)的风险特征,要比其它通用的,或者“借用”的模型更加可靠应用于测试数据以及未来数据时表现稳定模型易于部署,能够和现有的IT系统整合巴塞尔:基于内部评分(IRB)的风险分类资本要求市场风险操作风险信用风险信用风险IRB资产类别公司政府银行个人证券项目融资物产融资货物融资创收型地产高波动性地产Salford重要原则:评分和风险估计系统及过程必须体现有意义的风险差异性,并提供具有合理精度和一致性的风险量化估计(巴塞尔II咨询文件2004年6月)项目流程第一阶段:数据准备管理战略目标/政策确定风信用险模型目标确定信用风险模型适用范围建立模型框架并采集数据数据清理和管理准备建模所需数据找到有预测力的变量/风险因子建立模型验证/测试模型第二阶段:建模和测试安装模型并和现有系统整合调整/对信用风险流程重新调整用户培训试用期实施信用评分模型的实际部署其它的输出管理资本分配/定价过程/其它管理决定第三阶段:模型部署和整合初期工作:样本选择建立选择样本空间的准测大小:信用额度≥最小额度不将个人贷款放入分析范畴,即便个人贷款用于商业用途大型公司贷款业被排除于分析范畴之外时间段:在T1-T2时间段内产生的贷款如果可能,最好能够将企业的整个商业周期都包括到该时间段数据的成熟度选择:最小三年不成熟的贷款在未来一定时期内看上去是好的贷款,仅仅因为该贷款没有充足的时间变“坏”更长的周期会是更好的选择,但是也使得我们必须处理早期的数据决策者必须面对一个平衡的问题:近期的数据还不成熟,而成熟的数据来源于较久以前的年代结果定义和学习期欠款定义:基于欠款的最大月数好的贷款:(0-1月)缓慢偿还的贷款:(2-5月)拖欠的贷款:(≥6个月的欠款)这些分界线是业界的标准,不过也可以进行调整数据准备确定样本企业账户和数据源用以研究的账户必须满足之前设置的条件采集数据采集来自于T1-T2时间段的企业财务信息通过电子化途径采集数据最为理想如果有必要,手动数据采集工作也是该阶段工作的一部分对于不同的信用组别(好/慢/拖欠)建立目标变量数据准备清理,处理,验证数据数据源以及数据输入检查将数据变形为各种比率和其它衍生变量将来自各数据源的数据合并为总数据库总数据库包括用于建模的贷款信息,财务信息等公司信息:行业、公司“年龄”、地点等财务信息:核心的原始变量(通常有15-30个变量)财务比率:信用风险文献中有60多种(一些熟悉,一些仅在学术方面使用)另外一些衍生财务变量:(变化、增长幅度、延后时间等,还有一些我们自己建立的变量、比率)企业负责人个人信息:个人财务信息、人口统计变量数据采集可参考《商业银行小企业授信工作尽职指引(试行)》的附录部分总数据库可能包含几百个变量,对这些变量进行筛选,选出预测能力强的变量最终的评分模型可能仅包含10-40个变量发生欠款前“等待时间”的分布模式模型开发过程建模的挑战不少金融机构缺乏公司欠款的案例最少仅有几十个或者几百个需要特殊技术的处理数据不完整,信息缺失受“污染”的数据-数据不一致,数据错误小企业财务信息通常不完备小企业财务体系相对简单一些利润可能在账面上缺失现金流指标可能没有被计算对于一些小企业,财务报表上的指标可信度值得怀疑一些企业在贷款申请前业绩增长不错,但是在随后一年公司就关门大吉建模策略面对数量不多的样本,大量的缺失和受“污染”的数据,以及问题本身的复杂性,我们建议使用现代的数据挖掘技术常规统计方法数据挖掘技术•需要规整的,质量好的数据•需要许多限定性很强的假设•必须正确地提前确定模型的形式•不允许有数据缺失•可处理带有噪音的,有缺陷的数据•不需要假设•不需要事先确定模型的形式•可以处理缺失数据评分卡模型如何工作风险建模和评分卡开发的基础是对历史数据的分析样本历史数据中包含“好的”和“坏的”企业数据“好的”代表从来没有拖欠贷款“坏的”代表拖欠贷款超过6个月我们对比“好的”和“坏的”企业的历史数据,搜寻能够区分两组企业的方法几乎所有的风险模型都是通过对历史数据的比对实现的模型工作机理的简单例子(各组别的平均值)销售额/现有债务比率该比率值越低,出现欠款的风险越大评分卡模型如何工作不同建模方法的区别要使用多少历史数据需要做哪些统计假设如何处理缺失数据需要怎样的特定建模工具结果的区别预测精度的不同:我的预报有多准?(拖欠还是没有拖欠)可靠的风险等级排名:如果同时有两份贷款申请,我是否能可靠地选出一个更好的申请排名是评分卡非常重要的输出结果。如果那些风险最大的申请都获得较低的分数,那么通过精心选择划分点,就可避免大部分