江西财经大学信息管理学院徐升华1of33江西财经大学信息管理学院目录大数据的挑战大数据的管理大数据的应用大数据的到来2of33WEB时代PC时代20131959发明IC54年前1969@发明Internet44年前1979发明蜂窝电话34年前1989发明?移动互联网时代2012后PC时代2012后WEB时代2012云计算时代2015?物联网时代2020?LTE数字化/平板化电视时代2010DOSGUIWebCloud以计算机为中心以软件为中心以服务为中心网络时代PC时代云计算时代以认知为中心DataMining网络共享内容共享资源共享IOT物联网时代以应用为中心大数据时代数据共享大数据时代2020?信息通信技术发展进入新时代大数据的到来江西财经大学信息管理学院3of33一天一周一月一年1Eb可刻满1.68亿张DVD全球新产生的数据年增40%,全球信息总量每两年就可以翻番!而对新增数据的处理能力以及其利用率的增长则不足5%ZB()EB()PB()TB()GB()MB()2110181015101210910610互联网流量变化大数据的到来江西财经大学信息管理学院4of3305000100001500020000250003000090'91'92'93'94'95'96'97'98'99'00'01'02'03'04'05'06'07'08'09'10'11'美国Telegeography的国际互联网流量数据监测显示:2010年比2009年全球增长了62%,按此推算10年超过1000倍!美国互联网流量(TB/月):90’96’99’11’110001000015000000大约10年1000倍全球骨干网IP流量骨干网IP流量变化大数据的到来江西财经大学信息管理学院5of33单日数据产生量超过50TB,存储量40PB。淘宝新浪微博高峰期每秒100万次响应请求。百度每天约处理60亿次搜索请求,几十PB数据。腾讯每天1千亿次服务调用、5万亿次计算、300G存储量。国家电网到2012年10月信息系统累计产生大数据2PB。联通用户上网记录83万条/秒,对应数据量3.6PB/年。中山大学第一医院所存数据2008年130TB,预计2015年1PB。农夫山泉每天从销售其矿泉水的超市回传10张照片,每月3TB。京东商城每秒产生2千元的交易额,累计各种数据达到PB。每天产生数据超过10TB,现已存20PB,预计该基因库最终将达1EB。北京公交公交一卡通每天刷卡4000万次,地铁1000万次。华大基因每日约处理600G数据。存量数据超过70TB。交通银行大数据应用举例大数据的到来江西财经大学信息管理学院6of33•“大数据是指无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一数据集的大小在几十TB和数PB之间”--维基百科定义Upto10,000TimeslargerUpto10,000timesfasterTraditionalDataWarehouseandBusinessIntelligenceDataScaleDataScaleyrmowkdayhrminsec…mssExaPetaTeraGigaMegaKiloyrmowkdayhrminsec…mssyrmowkdayhrminsec…mssyrmowkdayhrminsec…mssExaPetaTeraGigaMegaKiloExaPetaTeraGigaMegaKiloDecisionFrequencyOccasionalFrequentReal-timeOccasionalFrequentReal-timeDatainMotionDataatRest数据规模微软的研究发现,Facebook90%的Hadoop任务数据集在100GB以下,Yahoo平均为12.5GB事实上,小数据也值得重视,对未到TB级规模的数据的挖掘也有价值!决策时间大数据的定义大数据的到来江西财经大学信息管理学院7of33超量VOLUME高速VELOCITY种类VARIETY价值VALUESOCIALBLOGSMARTMETER101100101001001001101010101011100101010100100101数据体量巨大TB=1012,PB=1015,EB=1018,ZB=1021结构化,非结构化数据种类繁多更快的满足实时性需求大数据包括ABC三个要素:大分析(Analytic)、高带宽(Bandwidth)、大内容(Content)结构化--能以表格或关系数据库的表、视图来表示的数据大数据的特征大数据的到来江西财经大学信息管理学院8of33大数据的挑战大数据的管理大数据的应用大数据的到来江西财经大学信息管理学院9of33•丰田公司利用数据分析在试制样车之前避免了80%的缺陷。•日本小松公司的挖掘机安装了GPS定位系统,在实时监控车辆运行情况的同时,还统计挖掘机每月每年的工作情况,挖掘机开工越饱满,说明市场需求越旺盛•GE正在筛选生产的2万台喷气引擎中的不易察觉的告警信号,对于某些型号的引擎,开发的算法能够提前一个月预测其维护需求,预测准确率达到70%。•陕鼓动力集团在其出厂的机组中加装运行监测传感器并连网,提供在线监测及故障诊断服务,服务收入占公司收入1/3。•华尔街对冲基金依据购物网站顾客评论分析企业销售状况。•华尔街银行根据求职网站岗位数量推断就业率。大数据在制造业的应用大数据的应用江西财经大学信息管理学院10of33硅谷有个气候公司,从美国气象局等数据库中获得几十年的天气数据,将各地的降雨、气温和土壤状况及历年农作物产量做成精密图表,从而预测任一农场的明年产量,向农户出售个性化保险,如果出现未能预测的恶劣天气损坏庄稼,气候公司将及时赔付。美国农业部建立一个网站,链接348个农业数据集,通过数据挖掘找到最佳土壤、湿度、日照时间,准确判断农作物是否需要施肥、浇水或者打药,农民还可从数据库分析市场价格,避免因供需失衡给农民带来经济损失。英国政府2013年8月12日发布《英国农业技术战略》,将有6000万英镑的投资致力于将英国打造成农业信息学世界级强国,包括成立一家“农业技术创新中心”,这家中心将研究焦点投向大数据。大数据在农业中应用大数据的应用江西财经大学信息管理学院11of33沃尔玛基于每月4500万网络购物数据并结合在社交网络上挖掘出的对产品的大众评分,开发机器学习语义搜索引擎“北极星”,方便浏览,在线购物者增加10%~15%,增加销售十多亿美元。沃尔玛还通过对消费者的购物行为等非结构化数据进行分析,了解顾客购物习惯,从销售数据分析适合搭配卖的商品。美国No.2超市Target选出孕妇常购的典型商品,建立怀孕预测指数,针对性派送孕妇用品的优惠广告。还将分析用到各种细分客户群。人人公司建立了人人游戏平台分析玩家从哪个地区以何种设备登录,玩家付费时间和充值记录,获取玩家的联系方式,通过回访和主动推广以增加玩家黏性,优化游戏的设计,过去一年人人游戏业务取得100%增长。大数据在商业中应用大数据的应用江西财经大学信息管理学院12of33•华尔街“德温特资本市场”公司分析全球3.4亿微博账户留言,判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,依此决定公司股票的买入或卖出,该公司今年第一季度获得7%的收益率。•阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信的企业,无需担保便可从网上申请到贷款,平均利率6.7%。目前已放贷上千亿元,单笔微贷成本仅2.3元,为银行的0.1%。坏帐率仅0.3%,为商业银行的1/3。余额宝日获利400万元,用户的年化收益率4%~5%。•京东商城收购网银在线,利用其掌握消费数据,联手中国银行可同时为商家和消费者提供贷款,包括订单融资、应收账款融资和协同投资等,还推出信用卡分期付款服务,打造仓储、物流、贷款到支付的闭环。•苏宁旗下的易付宝获得第三方支付牌照,还设立小贷公司为供应商解决贷款难问题,庞大的会员信息库为精准营销创造了条件。大数据在金融业应用大数据的应用江西财经大学信息管理学院13of33利用收集的街景地图海量数据支持无人驾驶美国AirSage公司每天通过处理来自公路汽车的上百万手机用户的150亿条位置信息,为超过100个城市提供实时交通信息。腾讯投资嘀嘀打车,阿里投资快的打车。大数据在交通中应用•美国纽约的交通部门从违规和事故统计中发现规律,改进道路设计。•北京公交一卡通每天产生4千万条刷卡记录,地铁每天乘客1千万,分析这一数据可优化设计城市公交路线。大数据的应用江西财经大学信息管理学院14of33•在长假之前,很多人会在网络上搜索旅游地点介绍、住宿旅店、火车与飞机航班信息或自驾车游的路线等,根据同一IP地址的不同搜索,可以预先知道哪些旅游点和哪些交通线路拥塞。•利用短信、微信和微博等数据可分析人流集中的热点,监控突发事件。大数据在旅游业应用大数据的应用江西财经大学信息管理学院15of33Google每天收集并长期保存全球超过30亿条搜索指令,把5000万条美国人最频繁检索的词条和美国疾控中心在2003~2008年间流感传播期的数据进行了比较,从4.5亿个数学模型中发现了一个特定的数学模型,结合45条检索词条,得到与疾控中心数据相关性高达97%。2009年出现甲型H1N1流感,在爆发的几周前,Google就给出了预测,而且还能判断流感是从哪里来的。大数据在医疗保健中应用大数据的应用江西财经大学信息管理学院16of33利用短信、微博、微信和搜索引擎可以收集热点事件与舆情挖掘。通过对微博用户建立档案,从帖子中分析用户的性格,提前关注可能引起社会不稳定的因素。如果一个人在网上在搜索如何制造炸弹或有关器材的同时还搜索某一地点,能帮助提前锁定作案的嫌疑人。通过对QQ群和微信用户群的数据收集,按照物以类聚人以群分惯例,可大致判断犯罪人员的关联。2013年8月美《大西洋月刊》报道,纽约的一对夫妇因在Google上曾经搜索“高压锅”和“背包”被一个由6人组成的联合反恐部队以“查水表”名义上门盘问是否拿高压锅来做炸弹。2012年美国加州大学分析洛杉矶市过去1300多万起案件,找到了各小区发案与日期、天气、交通状况及其它相关事件的关系,建立犯罪活动预测平台,当地的警员每天按该系统发出的巡逻指令前往指定的小区。该系统已使该地区的财产犯罪率和盗窃案件分别下降了12%和26%。大数据在治安管理中的作用大数据的应用江西财经大学信息管理学院17of33大数据在科学研究中应用几千年前几百年前几十年前今天实验科学描述自然现象理论科学牛顿定律、麦克斯韦方程等计算科学模拟复杂现象数据密集型科学理论和实验及模拟的统一大数据研究模式特点——不在意数据的杂乱,但看重数据的量;不要求数据精准,但强调效率;不刻意追求因果关系,但重视规律总结天文学的研究气候变化分析与预测材料基因组的设计超材料特性仿真合成生物学中DNA的编程设计新药的设计与合成中药的药理分析病理图书馆大电网的性能仿真石油勘探数据处理流程工业复杂生产过程的仿真大数据的应用江西财经大学信息管理学院18of33CloudTacticalOperationsCenterC2andAnalysisBIGDATABACK-UP&RECOVERYANALYSISBIGDATALaunch&RecoveryGroundControlStationIntelligenceCloudBIGDATANOREAL-TIME,PREDICTIVE,INTERACTIVEANALYSISCONUS美国国防部---目标是将分析人员从任意语言文字资料中提取信息的能力提高100倍;美国中情局---利用大数据将分析搜集数据的时间由63天缩短为27