中国银行2013-10-16大数据时代与大数据时代的银行大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征提纲大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征提纲大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合中国网络虚拟世界全景图数据信息爆炸式增长大数据时代大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合数据信息爆炸式增长大数据时代Structured•Database•Spreadsheet•FileinrecordformatSemi-structured•XMLDocs•Logs•Click-stream•Equipment/Device,RFIDtagUnstructured•WebPages•E-mail•Multimedia•InstantMessages•Documents移动互联网MobileInternet物联网InternetofThings新量级、新处理模式、新企业智能大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合大数据时代数据资产价值不断增长数据成为了有价值的公司资产、重要的经济投入和新型商业模式的基石。虽然数据还没有被列入企业的资产负债表,但这只是个时间问题。——摘自[英]ViktorMayer-SchonbergerKennethCukier所著的《大数据时代》Facebook2012/05/18日上市,其公布的账面资产为66亿元。FacebookIPO定价38美元/股,总价值1040亿美元。Gartner研究表明:Facebook收集了2.1万亿条“获利信息”,每条信息约4美分价值,即每个Facebook用户的价值为100美元。——通过“账面资产”来确定企业的价值的方法,已经不能充分反映公司的真正价值;——投资者也开始注意到数据的潜在价值;——拥有数据或者能轻松收集数据的公司,其股价会上涨;——如果不出意外,给数据的潜在价值贴上价格标签会给金融部门带来无限的商机;大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合数据处理思维转变传统数据分析思维大数据时代数据处理思维转变少量的样本数据数据关系力求明确清晰探求难以捉摸的因果关系要求数据精确无误大数据分析思维全量数据乐于接受数据的纷繁复杂转而关注事物的关联关系数据的精确不是那么重要了案例一案例二•谷歌翻译系统为了训练其系统,收集其能找到的所有翻译;•谷歌收集了上万亿页的语料库,包括质量参差不齐的文档;•上万亿的语料库,相当于950亿句英语;•相对而言,谷歌的翻译质量还是最好的;•谷歌翻译之所以更好,不是因为它拥有一个更好的算法机制,而是增加了各种各样的数据,包括有错误的数据;•在谷歌的翻译团队中,大多数工程师并不懂其翻译出来的语言;•借助语言学家的研究成果,开发语法检查的算法和规则;•同样的算法,当数据从500万提高到10亿,其准确率从75%提高到95%以上;•“我们得重新衡量更多的人力是应该消耗在算法发展上还是语料库的丰富上”•微软机器翻译部门茶余饭后的谈资:每当有一个语言学家离开,翻译质量就会变好一点;大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合数据处理思维转变大数据时代数据处理思维转变案例一其它案例•聘请了20多名书评家和编辑组成的团队,在网页上创立“亚马逊的声音”向客户推荐新书,写书评;•通过客户的购买历史,寻找客户的相似性,对客户分群进行产品推荐,推荐的总是与以往购买的相似或略有区别;•通过大量的数据分析,找出书籍之间的关联关系,即“item-to-item”,时亚马逊发生了天翻地覆的变化。•AMAZON销售额的三分之一来自于“item-to-item”的推荐系统。•AMAZON最终放弃了在线书评,书评团队被解散。•沃尔玛:请把蛋挞和飓风用品摆在一起,请把啤酒和尿片摆在一起;•中英人寿保险(Aviva),通过生活方式数据,如爱好、常浏览的网站、常看的节目和收入,来分析更有可能患高血压、糖尿病和抑郁症的人;•某信用评分公司,利用Facebook的社交圈来预测个人偿还债务的可能性;•对冲基金通过分析Twitter微博的数据文本,作为股市投资的信号;关联关系,预测的关键。很多时候,知道“是什么”就够了,没必要知道“为什么”。一旦我们完成了“关联关系”分析,我们就可以继续向更深层次研究因果关系,找出背后的“为什么”大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合大数据时代数据的无穷价值移动电话公司的通话记录以及用户的位置信息,可以被不断的发掘出价值来:人们周五晚上聚集地点,汽车在哪个地段的行驶缓慢,这些信息可以用来确定房地产价值或广告牌的价格;通过分析各路段上移动用户的数量,定位拥堵路段以及拥堵的程度;丹麦癌症协会分析1990-2007年手机用户的通话记录,分析使用手机与癌症的关系;数据非常之多而且具有战略重要性,但是真正缺少的是从数据中提取价值的能力。——谷歌首席经济学家HalVarian决策依赖数据的公司,其运营情况比不重视数据的公司出色很多,这些公司的生产率比不使用数据进行决策的公司高6%。——MIT商学院教授ErikBrynjolfsson案例1、数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的。2、数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。3、数据就像一个神奇的钻石矿,是“取之不尽,用之不竭”的。大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合大数据时代半结构化、非结构化数据来源SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合大数据时代大数据涵盖的数据范围更广的信息范围新的数据与分析类型实时信息来自新技术的数据非传统形式的媒体大数据量社交媒体数据最新流行词定义大数据范围*2012年IBM对95个国家中26个行业的1144名专业人员调查结果•结构化数据:存在于关系数据库中,多年来一直主导着IT应用;•半结构化数据:包括电子邮件、文字处理文件以及大量发布在网络上的新闻等,以内容为基础,这也是谷歌和百度存在的理由;•非结构化数据:广泛存在于社交网络、物联网、电子商务之中。伴随着社交网络、移动计算和传感器等新技术不断产生,有报告称,超过80%的数据属于非结构化数据。大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合大数据时代大数据的四个维度VolumeVelocityVeracityVariety容量需要处理的数据量能够达到TB级、ZB级速度数据生成的速度快,处理的速度也要快多样性数据结构化、非结构化、文本、多媒体确定性数据的一致性、完整性、正确性、延迟、歧义均会影响数据的可信程度GBTBPBEBZBYB1024MB10^3GB10^6GB10^9GB10^12GB10^15GB可能包括的数据类型有:•文本•微博•传感器数据•音频•视频•点击流•日志文件•邮件•PDF•Office文档•手机呼叫•地图GPS•…每一天都会产生超过15PB的新信息。数据量预计每2年就会翻一番。产生速度快数据变化与处理的频度由天加速到秒/毫秒;订单、支付、欺诈、微博、监控视频、传感器、信令每时每刻都在不停的产生数据数据在运动中数据创建、处理和分析的速度持续在加快。加速的原因是数据创建的实时性天性,以及需要将流数据结合到业务流程和决策过程中的要求。有些数据具有固有的不确定性,例如:人的感情和诚实性;天气形势;经济因素;以及未来。在处理这些类型的数据时,数据清理无法修正这种不确定性。然而,尽管存在不确定性,数据仍然包含宝贵的信息。确认并接受这种不确定性的需求是大数据的特点。大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征提纲大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合不只是HadoopHIVEBigDataApplicationsPig!ZooKeeperSQLRAW大数据技术大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征HDFS:适合运行在通用硬件上的分布式文件系统;Hive:为Hadoop提供类SQL接口的结构化数据库Hbase:基于HDFS的分布式列式数据库Pig:数据分析处理的过程语言Mahout:支持Map/Reduce并行计算的机器学习算法库ZooKeeper:针对大型分布式系统的可靠协调系统以开源ApacheHadoop为基础,诸多厂商进行不同程度改造及商业化;传统数据库厂商与其既有数据库产品集成,形成了多种大数据平台。大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合传统方式与Hadoop方式的比较传统并行计算架构并行计算+分布式存储运算储存传统储存架构•计算与存储一体,计算向数据靠拢,高效专用存储模式•为程序员屏蔽通性、并发、同步与一致性等问题•任务之间无依赖(share-nothing),具有高系统延展性(scale-out)大数据技术大数据时代•数据爆炸式增长•数据资产价值增长•数据思维的转变•大数据时代特征大数据与银行•对银行的价值•应用场景•实施建议大数据技术•大数据相关技术•核心技术Hadoop•传统数据与大数据•两种方式的结合传统方式结构化,可分析,逻辑性强集中化的处理新方式分布式计算处理大数据StructuredRepeatableLinearMonthlysalesreportsProfitabilityanalysisCustomersurveys应用数据数据仓库传统数据源结构化重复分析线性交易数据ERP数据主机数据OLTP数据UnstructuredExploratoryIterativeBrandsentimentProductstrategyMaximumassetutilizationHadoo