金融大数据实践研究连接降维新一代金融服务:需要?一把手工程数据科学家风险管理贷款服务商业票据系统投资理财系统中间业务三方存托管账户管理卡业务各类生活应用(出行购物医疗服务)积分管理流量管理打造互联网金融银行证券保险银之杰生态圈公司介绍大数据与互联网金融风险定价精准营销互联网资产交易平台互联网财富管理互联网保险征信超级支付大数据互联网金融业务板块互联网金融基础设施金融行业大数据建设方法论大数据平台的建设。首先应该规整、规范、统一和梳理行内已有数据。对已有的客户综合视图,产品视图和账户视图进行完整和统一的梳理;能够完全兼容并提高现有查询等。这是基础。获取、丰富数据;整合外部数据;打通外部数据;完成多层次、多维度的360度客户视图的完善和补充,其中技术实现如模型和算法的提升、自动化和具备前瞻性。针对具体的、明确的新业务和新产品进行快速落地和创新实现。用互联网模式进行快速迭代,孵化出全新的业务应用。大数据就在你我身边……衣食住行优衣库线上线下打通促进服务提升店面选址APP应用舆情分析智能探头,肯特基跟踪用户互动、店内客流和预定情况,大数据分析人员对于菜单变化和餐厅设计等的优化和预测是物流等整个闭环优化。星巴克的选址和部分店面空间设计采用大数据分析大数据于我们就如水电一样在我们身边俱乐部式高档酒店大数据分析客户历史数据和酒店就餐和运动及活动数据优质客户旅游线热线路0元出行,10%本金出行。从搜索到交易达成、包括金融服务大数据在国际银行业的主要应用1客户画像2运营优化3风险管控4精准营销5业务创新大数据在国内银行业的主要应用个人画像;企业画像批量获客跨界融合整合资源与产业升级反欺诈应用(申请欺诈;交易欺诈)小微企业贷款评估P2P平台快速(极速)放贷产品组合优化舆情分析服务升级(个性化、多样化服务)精准预测个性化推荐联合营销•从上一周的声量表现来看,南京银行声量略高于江苏银行。•从声量平台分布来看,南京银行在新闻、论坛和博客上产生的声量远高于江苏银行。舆情声量概览一周总声量备注:数据周期为2015年7月20日-7月26日,南京银行总声量为2,733,江苏银行总声量为1,608。声量平台分布南京银行热词云图热词云图•在新闻平台上,南京银行经常与平安银行、宁波银行和交通银行等共同提及,江苏银行提及量较为靠后。•股票和理财产品是最为热门的两个讨论话题。在新闻平台上,南京银行经常与平安银行、宁波银行、交通银行、兴业银行、华泰证券,江苏银行、中信银行和浦发银行共同提及。股票是时下的热议话题,在银行板块的股票中,南京银行的正面评价居多。理财产品也收到消费者热议,其收益率表现是普遍关注点。备注:数据周期为2015年7月20日-7月26日,南京银行总声量为2,733,江苏银行总声量为1,608。热词云图•江苏银行与招商银行、平安银行、民生银行等共同提及率较高。•其房贷首付六折政策在新闻平台上传播较广。•消费者对信用卡和理财产品最为关注。江苏银行热词云图备注:数据周期为2015年7月20日-7月26日,南京银行总声量为2,733,江苏银行总声量为1,608。江苏银行与招商银行、平安银行、民生银行、南京银行、汇丰银行、光大银行、交通银行、兴业银行和宁波银行等共同提及率较高。江苏银行实行房贷首付六折政策,相关新闻报道较多。信用卡和理财产品是消费者较为关注的话题。情感表现•由于声量来源以新闻为主,因此带有情感倾向的消费者讨论声量非常小。其中,南京银行的口碑优于负面口碑。•南京银行由于股票未跌停以及没有手续费收到好评,然后消费者也对其报表持不信任态度。•江苏银行的正面声量主要来源于对其银行的崇拜和公益活动的称赞,负面声量较为含糊,未明确为指出原因。备注:数据周期为2015年7月20日-7月26日,南京银行总声量为2,733,江苏银行总声量为1,608。情感表现南京银行江苏银行正面94中立2,7231,598负面16声量情感表现负面声量举例不良率和业绩增速指标整体都不容乐观。此外南京银行的报表会美到我不敢相信。正面声量举例而我买的南京银行是银行里唯一涨得还是很欣慰的。...银行板块也普遍下跌,仅南京银行一只股票在涨。...只有少数银行没有手续费,目前好像有南京银行...例举负面声量举例江苏银行是不是倒闭了啊,没有听到动静跑了好几站路,发现一家江苏银行,结果不能办现在坐车去浦发银行看看……..正面声量举例今天很幸运见到了江苏银行的夏董事长,估计这辈子也就只能这一次了,其他的行长都没什么特别的,他一出场就有一股浩然正气的感觉为让这些马路天使能在这么酷热的天气中有个喝口水、歇歇脚的地方,锦帆路社区联系江苏银行沧浪支行在行里为环卫工人们设立了一处“清凉驿站”,给他们一个夏日小憩、清凉饮水之处。...传统客户视图-数据+模型=用户画像-立体多维度深层次细颗粒度对应的不同的业务和多样的应用场景-快速识别白名单和黑名单;提高自动核准率,从而提升效率-精准营销;征信评级;反欺诈;动态调整级别和监控(增收和降低坏账率)、快速放贷运营提升和服务提升。-这里需要刻画用户,不同特征,不同地区…往往涉及到基本自然属性、兴趣爱好、购物行为和爱好。用户画像vs打标签(标签的组合,标签派生特征,标签关联关系…)大数据客户画像银行的数据+外部数据1.银行在使用的数据“银行内部可用信息的使用率仅仅是1/3,仍然有大片数据荒地,价值有待挖掘”-信用卡交易记录-用户交易往来记录-用户贷款还款数据--客户基本信息--基本评分数据2.尚未有效使用的数据-银行网站互动信息和使用行为信息-社交媒体公众号信息-呼叫中心录音数据-移动银行用户定位和行为数据-监控视频3.多样多维丰富的外部数据--如运营商数据、主流电商网站数据;上网痕迹数据;--旅行航空数据等;--企业用户行业数据;--企业用户经营相关数据;--企业用户纳税和工商数据;--房租水电数据--用户的三表数据明略大数据画像样例标签维度子维度关键词匹配语义分析机器学习标签文本标签取值姓名姓y姓置信度名y名置信度人口属性性别yyy0表示女,100表示男年龄y年龄置信度教育程度y{0,1,2,3}置信度收入水平y{0,1,2,3}置信度职业yy职业置信度地域yy地域置信度家庭成员有配偶y0表示无,100表示有有老人y0表示无,100表示有有子女yy0表示无,100表示有有宠物yy0表示无,100表示有消费兴趣行业大类yy频次子类目yy频次个性标签yy频次推荐标签y置信度大数据客户画像实战模型-大数据客户画像实战模型-自定义航空出行yy频次租车yy频次旅游yy频次信用卡yy频次P2Pyy频次外部数据源y置信度逾期y频次退货y频次统计指标短信数量短信数量高频词高频词(多个)频次(多个)优质客户特征分析-模型流程个人信贷数据数据清洗特征处理特征降维基于经验规则标注K-近邻算法补充信贷经理标注优质/不良客户识别模型新客户识别结果存量客户精耕细作–优质分析#1、基于经验规则标注种子#2、K-近邻算法补充#3、信贷经理标注验证#4、最终结果存量客户分析的一些基本算法优质客户&不良客户特征分析共发现客户92万多个特征其中有效区分优质不良客户的特征9000多个存量客户分析的算法和模型优化优质客户&不良客户统计存量客户分析结果样例优质客户&不良客户特征分析存量客户分析结果样例优质客户&不良客户特征分析存量客户分析结果样例存量客户分析结果样例数据+平台+应用“三位一体”方法论26第一阶段:存量客户统一视图实施路线业务指标摸底数据现状调研和分析数据治理和规范标准大数据平台-可控的-好用的-数据一致的-反应及时的-弹性可扩展的客户统一视图-业务部门-信科部-数据源头摸底系统化调查、记录、整理-总行数据库平台-省行数据下载平台-业务分析和业务发展需求(和数据平台支撑相关)调研并确定最优先业务-目前数据质量分析-数据治理重点领域规划-数据标准和规范机制规划和执行计划客户基本信息客户联系信息客户关系信息客户服务和互动信息客户VIP分析…循环调研分析和输出物讨论,螺旋式不断完善……存量客户梳理统一视图结果图银行已有数据资产:客户关系CRM系统,ECIF系统中的数据….外部数据==不同特征、不同维度的数据使用场景(应景弹性变化的数据);客户准入:直接验证(手机#姓名证件#)规则:过去的信贷历史(增值服务平台如短信)风险级别:不同程度的审核审查;客户风险的综合评价、各种模型进行定价;精准获客(广告的精准投放)贷款人预筛选、预审批(如白名单);逾期管理:催收的策略和催收的手段(催缴公司黑名单);第二阶段:引入外部数据…数据分析体系现有系统-业务体系银行集中的数据中心各业务条线系统财务系统会计系统支撑系统【如客管系统】柜台业务ATM/电子银行POS/商易通报表统计风险控制综合营销通知预警平台业务提醒决策分析管理、统计报表绩效考核自定义查询平台报表生成平台大数据平台目前银行数据源梳理整合到某统一数据交换平台数据处理与完善外部数据源第三阶段:建设大数据平台路线演进图•数据量巨大,低成本实现了传统关系型数据库无法处理的复杂数据分析•基于数据挖掘(DataInsight)和可视化产品,持卡人的自动化画像和消费预测等业务应用•业务上完成商圈聚合分析,20种持卡人的自动化画像,持卡人的100+多维分析和关联挖掘分析,竞争交叉分析;持卡人消费预测的精准度使得银联和主要商户一起进行精准营销和个性化推荐银联商务——海量交易流水的客户行为分析和预测商圈竞争形势分析刷卡笔数刷卡金额椭圆状:商店与商圈内同行业其它商店的比对。椭圆形状越宽,表示商店的笔数越高,椭圆形状越长,表示商店的金额越高。2014年X月分店选择▼银联商务——商圈聚合和竞品分析所在省直辖市分店产品组合关联度产品组合利润率(假定1:1)星级标志…………产品C和产品X33%12%★…………产品X和产品Z28%11%★…………产品D和产品F25%5%…………产品G和产品O22%4%…………产品A和产品C15%9%★…………产品X和产品Y12%3%…………产品H和产品L12%14%…………产品F和产品P10%7%………………………………产品品类组合自动分析1、关联度:用户同时购买2种产品的关联指数。关联度越高,同时购买的可能性越大。2、产品组合利润率指用户同时购买组合产品时商户所获得的利润率。以两种产品等重为前提。3、标星的产品组合是银联商务向商户推荐的产品促销组合。银联商务——用户购物篮分析•每促销一单位的产品Z▼(默认金额最高的产品,此处可对其它品类进行选择)对其它产品的影响对刷卡笔数笔数的影响对刷卡金额金额的影响对刷卡收入的影响对刷卡收益的影响2014年X月分店选择▼银联商务——品类促销分析•ZestFinance(原名ZestCash)新兴的互联网金融公司使用机器学习的方式评估个人贷款的信贷风险指数。研发主要团队有数据科学家、数学家和计算机科学家组成。ZestFinance利用机器学习和大数据分析,提供全新的客户信贷征信服务。前谷歌首席信息官DouglasMerrill和CapitalOne公司前高管ShawnBudde创建。分析上万个(达70000个)潜在信用变量—从财务信息到可以使用的一切数据—以更好地获取诸如潜在欺诈、长期客户关系等元素。大数据分析模式高于现在行业最佳水平40%。更精确的信贷决策,使得借款人有更高的信用额度,而贷款机构有更高的还款率。前期业务提供放贷,后来越来越多信用评估业务。大数据分析使得贷款机构得以批量增加客户群,从竞争对手中得到更多的生意,同时更好地服务现有客户,而充分控制好违约率。从本质上讲,这是一家数据科学家企业,它精通数据计算、关联分析和深度机器学习。到2015年5月梅里尔麾下的百人团队中,大部分是数据科学家,他们全新开发了10+个基于学习机器的分析模型,对每位信贷申请人的超过几万条原始信息数据进行分析,并得出万个可对其行为做出测量的指标:这一切5秒钟完成。结果,ZestFinance称这种方式比传统的衡量模型提升了60%的效率,更重要的是,还款率也比传统的方法高出了90%。该公司