目录大数据的背景大数据的定义大数据的分类大数据的应用大数据给我们带来了什么大数据面临的挑战和趋势大数据时代的统计一、大数据时代的背景交友网站社交网络QQ淘宝电子商务微信APP…移动互联微博21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。“大数据”的诞生:半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸式的增长,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…新的时代,人们从信息的被动接受者变成了主动创造者大数据时代到来TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临..大数据时代到来二、大数据的定义在2012年的IT业界中,“大数据”(BigData)成了关注度不断提高的关键词之一。“大数据”是一个起源于欧美的词汇。不过,关于这个词的起源时间并不是十分清楚。至今为止,最具影响力的说法是2010年2月出版的«经济学家»(TheEconomist)杂志中的一篇题为“Thedatadeluge”的文章。其中,“deluge”的解释是数据洪流或海量数据。那么,究竟何为大数据?一般来说,可以从狭义和广义两个层面来进行理解。狭义的大数据狭义的大数据就是指用现在的一般技术难以管理的大量数据的集合。大数据不仅仅是容量大而已,可以用3v来描述大数据的特征:Volume(容量)、Variety(多样性)、Velocity(速度)。1.容量也就是指数据量,基本上是指从几十TB到几PB这样的数量级;甚至可能发展到EB数量级。(1TB=1024GB,1PB=1024TB,1EB=1024PB)2.多样性网站日志数据、Facebook等媒体中的文本数据,智能手机中内置的GPS所产生的位置信息,监控摄像机的视频数据等。3.速度也就是数据产生和更新的频率。广义的大数据广义的大数据是一个综合性的概念,它包括因具备3v特征而难以进行管理的数据对这些数据进行存储、处理、分析的技术能够通过分析这些数据获得实用意义和观点的人才和组织这些人才和组织指的是目前在欧美十分紧俏的“数据科学家”这类人才,以及能够对大数据进行有效运用的组织。由此广义的概念可知,除了自身的特征外,人才的作用在大数据时代中日益突出。三、大数据的分类•按生产主体划分•按数据来源划分•按存储形式划分少量企业应用产生的数据•关系型数据库中的数据•数据仓库中的数据•微博、微信•电子商务在线交易日志数据•评论、留言或者电话投诉等•企业应用的相关评论数据•应用服务器日志•传感器数据(天气、水、智能电网等)•图像和视频(摄像头监控数据等)•RFID、二维码或条形码扫描数据大量人产生的数据巨量机器产生的数据大数据的分类—按生产主体划分1、BAT为代表的互联网公司。2、电信、金融、保险、电力、石化系统。3、公共安全、医疗、交通领域。4、气象、教育、地理、政务等。5、其他,商业销售、制造业、农业、物流和流通等领域。大数据分类—按数据来源划分阿里巴巴•目前保存的数据量为近百PB•拥有90%以上的电商数据•交易数据、用户浏览和点击网页数据、购物数据•2013数据总量接近一千个PB•中文网页、百度推广、百度日志、UGC•以70%以上的搜索市场份额坐拥庞大的搜索数据腾讯•总存储数据量经压缩处理以后在100PB左右•数据量月增10%•大量社交、游戏等领域积累的文本、音频、视频和关系类数据百度大数据分类——按数据来源划分BAT为代表的互联网公司电信行业•用户上网记录、通话、信息、地理位置•运营商拥有的数据数量都在10PB以上•年度用户数据增长约数十PB•开户信息数据,银行网点和在线交易数据、自身运营的数据•金融系统每年产生数据达数十PB•保险系统数据量也接近PB级别电力与石化•仅国家电网采集获得的数据总量就上10个PB级别•石油化工、智能水表等领域每年产生和保存下来的数据量也达到数十PB级别。金融与保险大数据分类——按数据来源划分电信、金融与保险、电力、石化系统公共安全•北京:50万个监控摄像头,每天采集视频数据量约3PB•整个视频监控每年保存下来的数据在数百PB以上•仅广州中山大学医院2013年数据量为1000个TB•整个医疗卫生行业一年能够保存下来的数据就可达到数百PB交通•航班往返一次能产生数据就达到TB级别•列车、水陆路运输产生的各种视频、文本类数据,每年保存下来的也达到数十PB。医疗卫生大数据分类——按数据来源划分公共安全、医疗卫生、交通领域气象与地理•中国气象局保存的数据约4~5PB,每年约增数百个TB•各种地图和地理位置信息每年约数十PB•北京市政务数据资源网涵盖旅游、教育、交通、医疗等门类,一年上线公布了400余个数据包•政务数据多为结构化数据政务与教育大数据分类——按数据来源划分气象、地里、教育、政务等领域大数据分类——按数据来源划分其他传统行业•线下商业销售、农林牧渔业、线下餐饮、食品、科研、物流运输等行业数据量剧增•行业数据量还处于积累期,整个体量都不算大,多则达到PB级别,少则百TB甚至数十TB级别。制造业•制造业的存储数据类型:①产品设计数据:以文件为主,非结构化,共享要求较高,保存时间较长。②企业生产环节的业务数据:数据库结构化数据③生产监控数据:数据量非常大商业销售、制造业、农业、物流和流通等领域大数据分类—按存储形式划分大数据不仅仅体现数据量大,也体现在数据类型多。如此海量的数据中,仅有20%左右属于结构化数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化或半结构化数据。大数据分类——按存储形式划分•即行数据,可用二维表结构来逻辑表达实现•主要存储在关系型数据库中•先有结构再有数据,结构一般不变•处理起来较方便结构化数据大数据分类——按存储形式划分•相对于结构化数据而言,不方便用数据库二维逻辑表来表现•非纯文本类数据,没有标准格式•包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息•存储在非结构数据库中•非结构化WEB数据库:突破了关系数据库结构定义不易改变和数据定长的限制非结构化数据大数据分类——按存储形式划分•介于完全结构化数据和完全无结构的数据之间•格式较为规范,一般都是纯文本数据•包括日志数据、XML、JSON等格式的数据•一般是自描述的,数据的结构和内容混在一起,没有明显的区分•数据模型主要为树和图的形式。半结构化数据四、大数据的应用•大数据在宏观经济管理领域的应用•大数据在农业领域的应用•大数据在商业领域的应用•大数据在金融业的应用•大数据在医疗卫生领域的应用•大数据在社会管理中的应用大数据在宏观经济管理领域的应用IBM日本公司建立了一个经济指标预测系统,它从互联网新闻中搜索出影响制造业的480项经济数据,再计算出PMI预测值,准确度相当高。印第安纳大学学者利用Google提供的心情分析工具,根据用户近千万条短信、微博留言中预测道琼斯工业指数。准确率高达87%。淘宝网建立了“淘宝CPI”,它通过采集、编制淘宝网上390个类目的热门商品价格来统计CPI,它比国家统计局公布的CPI还提前半个月预测经济的走势。大数据在农业领域的应用Google前雇员创办Climate公司,从美国气象局等数据库中获得几十年的天气数据,将各地的降雨、气温和土壤状况及历年农作物产量做成精密图表,从而能够预测美国任一农场下一年的产量。任何一个农场主去他那里问明年种什么能卖出去、能赚钱,他能告诉你,说错了他保证赔偿,赔偿比保险公司还要高,到现在为止他还没有赔过。通过手机上农产品“移动支付”数据、“采购投入”数据和“补贴“数据分析,可准确预测农产品生产趋势,政府可依此决定出台激励措施和确定合适的作物存储量,还可为农民提供服务。大数据在商业领域的应用沃尔玛基于每个月4500万的网络购物数据,并结合社交网络上有关产品的大众评分,开发机器学习语义搜索引擎“北极星“,方便浏览,在线购物者因此增加10%-15%,增加销售十多亿美元。当顾客在超市买东西时,通过手机定位,可以分析他们在货柜前停留时间的长短,从而判断顾客对什么感兴趣。不仅仅是通过手机定位,实际上美国有的超市在购物推车上也安装了位置传感器,根据顾客在不同货物前停留时间的长短来分析顾客可能的购物行为。在淘宝网上买东西时,消费者会在阿里的广告交易平台上留下记录,阿里不仅从交易平台把消费记录拿来自己使用,还会把消费记录卖给其他商家。大数据在金融业的应用华尔街某公司通过分析全球3.4亿微博账户留言来判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,它通过判断全世界高兴的人多还是焦虑的人多,依此决定公司股票的买入或卖出。阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信经营的企业,给他们提供贷款,并且不需要这些中小企业的担保。目前阿里公司已放贷上千亿元,坏帐率仅0.3%。2012年年底,四大商业银行的坏账率为1%左右,尽管四大银行要求有担保,但坏账率仍然比阿里高出3倍。大数据在医疗卫生领域的应用Google通过用户搜索与流感相关词汇的频率,判断某个地方可能会发生流感。2009年在甲型H1N1流感爆发的几周前,Google就做出预测,而且还判断出了流感是从哪里来的。大数据在医疗卫生领域的应用根据麦肯锡的报告,医疗大数据的分析将为美国产生3000亿美元的价值,减少8%的国家医疗保健支出。大数据在社会管理中的应用广东东莞通过统计当地食盐销售量与上年同期比较,判断农民工数量的变化。这与电信运营商根据活跃移动用户数的变化所推出的数据几乎相当。根据手机用户从这个路口到那个路口所花费的时间,可以判断马路上是不是流量比较多,是否拥堵。根据有多少个手机在同时移动,大致可以了解发生突发事件时的人流聚集情况,还可以通过手机的注册地进一步分析机主究竟是从哪里来的。腾讯为每个微博用户建立了档案,可以从微博帖子分析用户的性格,提前关注可能引起社会不稳定的因素。五、大数据带来了什么?大数据既催生出无数新的服务和商业模式,也让一些传统行业找到了新的机会,同时产生了对“数据科学家”这种新兴复合型人才的迫切需求。但是,数据运用和隐私保护之间到底应该如何权衡,也成了一个令各方势力争论不休的话题。所以,对于大数据带来的影响,必须从积极影响和消极影响两个层面来分析。积极影响首先,大数据有利于推动中国新四化转型。新四化是指新型工业化、信息化、城镇化和农业现代化。大数据将会改变人类生活生产方式,可以为新四化提供转变发展方式的新动力。1.大数据可以强力启动内需;2.大数据可以推动城镇化以智慧城市的新方式发展;3.大数据有利于改进政府管理方式;4.大数据产业将会形成新的增长点。其次,大数据将对微观经济产生重大影响。IBM的CEO罗睿兰说:“数据将是下一个