大数据应用主要内容大数据在银行业的应用场景未来银行业的发展趋势在大数据背景下面临的挑战你使用过信用卡吗?卡应该发给谁?哪些持卡人会拖欠?哪些拖欠的客户会还款?影响资产组合(Portfolio)1、根据历史,预测将来2、目标是一个分类变量3、预测结果是一个统计意义下的概率1、哪些人可以发卡,额度是多少?2、持卡人拖欠的概率是多少?3、该对谁催收?技术和数据平台:可以加深对消费者的了解、增强针对性以及提高利润。数据科学——深度学习、大批量处理以及实时分析。数据库———独有的分布式相关数据库。安全————为交易安全提供有力保护。搜索————能生成个性化结果的搜索引擎。定向营销——给消费者加标签,提高针对性。移动————提供多台设备之间流畅无缝的数据和服务体验。大数据时代银行业的应对策略银行业开始尝试接入和整合外部数据资源国际同行业大数据运用的经验教训以大数据技术促进智慧银行建设推动大数据应用的策略建立完善的大数据工作管理体系增强数据挖掘与分析运用能力建立基于大数据分析的定价体系依托大数据技术提升风险管理水平大数据在银行业的应用场景客户管理营销管理风险管理银行需要借助由大数据构建的企业经营全景视图来进行活动,进而寻找最优的模式支持商业决策。银行可以通过大数据分析平台,接入客户通过社交网络、电子商务、终端设备等媒介产生的非结构化数据客户进行分类根据用户行为对用户进行聚类分析,进而可以有效的甄别出优质客户、潜力客户以及流失客户社交网络电子商务其他终端设备等媒介收集、分析、甄别大数据在银行业的应用场景客户管理大数据在银行业的应用场景案例1:花旗银行工作人员可以利用大数据分析获取银行客户信息并且分析客户的下一步需求,进而向客户营销相关金融产品。比如,某人为自己的孩子开办了一款信用卡,当孩子上大学后,就会分析这位顾客所需要的金融产品。如果之后家长有装修厨房的计划,那么花旗银行的工作人员会向这位家长推荐适合装修的贷款,满足客户各方面的潜在需求。客户管理案例2:客户流失分析。借助大数据平台搜集到客户行为记录,通过对已流失客户的行为进行分析,找到客户流失发生时的关键路径,进而能够利用流失客户的行为模式有效定位有流失倾向的客户,以便银行工作人员能够在客户流失前进行挽回工作。大数据在银行业的应用场景客户管理大数据在银行业的应用场景电商——“大数据”让客户多一个网上的渠道,形成和客户在支付结算、传统银行业务上的对接、捕获更多的信息。提供销售货物的渠道,同时提供多种企业融资产品。利用大数据的集成挖掘分析客户的消费、投资习惯,为客户量身定做金融产品与服务。(支付、融资)电商——“大数据”为企业及其下游商家提供覆盖整个销售链的融资服务,解决买卖双方的资金需求,帮助企业度过难关,扩大经营。建行“善融商务”、交行“交博汇”等银行电商平台。“专业市场”的产品运用大数据在银行业的应用场景金融商品购买路径等用户消费数据浏览记录银行大数据平台获取用户消费习惯、风险收益偏好等特征信息挖掘、追踪、分析,将不同客户群体进行聚类营销管理大数据在银行业的应用场景提升客户对银行服务的认可程度以及客户经理在营销过程中的专业程度。提升银行产品的精准营销水平。以主动营销和个性化营销打破传统无差异的、被动的产品服务营销方式。营销管理根据不同客户特性打造个性化的产品营销服务方案,将最适合的产品服务推介给最需要的客户。大数据在银行业的应用场景例如,银行针对不同的客户分类推荐相应的理财产品,根据客户的购买习惯和风险偏好进行产品组合营销;根据客户的产品清单和浏览记录进行路径分析,主动推送关联产品营销等,真正做到个性化的主动营销服务。营销管理大数据在银行业的应用场景大数据分析自然属性、行为属性客户行为、客户信用度、客户风险以及客户的资产负债状况建立完善的风险防范体系。风险管理Wonga是英国一家小额贷款公司,他们利用海量数据挖掘算法来做一些贷款业务。Wonga对过去客户的各种碎片化信息进行数据获取和整理,用大量的数据串成了客户特征的全貌,同时根据不良贷款等风险信号不断完善调整模型,有效控制风险。如今它已获得了5亿美金的年利润,其风险管理能力也获得业界的认可。风险管理大数据在银行业的应用场景未来银行业的发展趋势客户是驱动零售企业生存发展的核心资源•银行依赖存贷款利差创造利润的盈利方式须调整。•零售及中间业务在未来银行经营中会占有越来越大的比重。•大部分客户数据通常是用户在社交网络、移动终端设备等媒介留下的海量碎片化数据,收集数据并对客户的行为属性进行有效的分析,是支撑以客户为中心发展模式的重要手段。•构建以客户为中心的精确的银行运营全景视图就显得尤为重要。未来银行业更加倾向于零售营销大数据在银行业的应用场景创新是银行实现差异化发展的驱动力目前银行产品、银行的经营管理系统都面临着同质化严重的问题,因此需要通过技术创新来不断增强银行业的核心竞争力——帮助银行改进金融系统,改善与顾客之间的交互,改进并简化客户的银行业务体验。大数据时代为银行业务发展和技术创新带来了新机遇。未来银行更加倾向于科技创新大数据在银行业的应用场景很多互联网公司愿意将自己定位为数据企业•数据成为经营决策的强有力依据,给企业带来发展和引领行业的机遇。•数据意味着巨大的商机,可强化客户体验,提高客户忠诚度•“数据的收集能力+数据的分析能力=企业智商”未来银行更加倾向于数据分析挖掘在大数据背景下面临的挑战构建银行业大数据分析平台挑战培养银行业的大数据分析人才数据挖掘是什么?1模型+算法2数据挖掘实践分享3心得与总结从运筹帷幄到决胜千里…舌战群儒草船借箭巧借东风火烧赤壁赤壁怀古苏轼……羽扇纶巾谈笑间樯橹灰飞烟灭......观日月之行,察天地之变风雷电雨云云多会下雨刮风会下雨下雨会闪电闪电会打雷……换成它呢???数据爆炸的时代DataMining,circa1963IBM7090600cases“Machinestoragelimitationsrestrictedthetotalnumberofvariableswhichcouldbeconsideredatonetimeto25.”数据挖掘是……DataInformationKnowledgeWisdomTofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、Data+contextInformation+rulesKnowledge+experience数据挖掘是什么?1模型+算法2数据挖掘实践分享3心得与总结4几个基本概念模型(Model)vs模式(Pattern)数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出描述型挖掘(Descriptive)vs预测型挖掘(Predictive)描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征预测型挖掘:根据观察到的对象特征值来预测它的其他特征值描述型挖掘可以是目的,也可以是手段数据挖掘是一个过程-“fromdataminingtoknowledgediscoveryindatabase”.U.fayyad,G.P.ShapiroandP.Smyth(1996)工欲善其事必先利其器数据清洗填充缺失值,修均噪声数据,识别或删除孤立点,并解决数据不一致问题主要分析方法:分箱(Binning)、聚类、回归数据集成多个数据库、数据方或文件的集成数据变换规范化与汇总数据简化减少数据量的同时,还可以得到相同或相近的分析结果主要分析方法:抽样、主成分分析数据离散化数据简化的一部分,但非常重要(尤其对于数值型数据来说)先来玩玩数据(EDA)探索性数据分析(ExploratoryDataAnalysis,EDA)探索性地查看数据,概括数据集的结构和关系对数据集没有各种严格假定主要任务数据可视化(apictureisworthathousandwords)残差分析(数据=拟合+残差)数据的重新表达(什么样的尺度-对数抑或平方根-会简化分析)方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值)常见方法统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等统计图,如饼图、直方图、散点图、箱尾图等模型,如聚类数据挖掘=模型+算法分类预测关联规则孤立点探测聚类LogisticRegression决策树神经网络K-MeansK-ModeSOM(自组织图)AprioriFP-Growth基于统计基于距离基于偏差物以类聚,人以群分人为地选取细分维度–客户价值–地域–活跃程度–……维度灾难的发生–维度增长–细分数目指数增长–人脑仅能处理有限的维度市场发现商品间的关联规则buy(x,”diapers”)buy(x,”beers”)看看QQ的流失数据流失率2007年3月2007年4月2007年5月2007年6月当月活跃总帐户数253,668,411255,749,736264,006,894269,060,000当月流失老帐户数6,572,0876,006,5825,466,8078,217,569当月老帐户流失率2.59%2.35%2.07%3.05%每个月500~1000万的老用户流失,一年老用户流失接近1亿,实际自然人流失状况虽然没有这么严重,但是仍然是一个惊人的数据。客户流失是每个行业每天都在面对的问题1、建立流失预测模型,回答客户是否要流失,何时流失的问题2、通过预测模型建立客户流失管理机制,更为有效地管理流失,而不是去防止流失一切从目标出发目标变量:即需要根据业务需求确定模型需要预测的对象,在QQ客户流失模型中即是在业务上对“流失”的定义。沉默客户数在4月后区域稳定模型选择连续沉默2个月作为流失的定义目标变量的定义:Good:在表现窗口连续两个月有登陆的客户Bad:在表现窗口连续两个月都没有登陆的客户Intermediate:在表现窗口其中一个月有登陆的客户打开观测用户的窗口训练样本\测试样本观察窗口:2007年1月—2007年3月表现窗口:2007年5月—2007年6月TimeLag:2007年4月交叉校验样本观察窗口:2007年2月—2007年4月表现窗口:2007年6月—2007年7月TimeLag:2007年5月观察窗口表现窗口TimeLagMM-1M-2M-3M-4M-5M+1M+2M+31观察窗口:形成自变量的时间段。表现窗口:形成因变量的时间段。23TimeLag:预留给业务部门进行相应操作的时间段。123勾勒出用户行为的特征变化幅度特征变量描述用户使用量上的变化幅度基本属性变量描述用户的基本属性产品使用行为特征描述用户使用产品的情况消息业务使用行为特征描述用户使用消息业务的情况音频业务使用行为特征描述用户使用音频业务的情况视频业务使用行为特征描述用户使用视频业务的情况客户在线的行为特征从在线时长,登陆次数,登陆频率等角度研究用户的使用行为归属地变化的行为特征描述用户在某一时间周期内登陆所在地的变化情况中间变量比例特征变量描述用户业务使用占比基础变量变量描述行为趋势特征变量描述用户的使用行为变化趋势变量描述黄沙吹尽始到金基础变量和中间变量数目约为224个经过变量变换后的变量数目约为1700个变量筛选使用Logistic回归的Stepwise