1二十一世纪新宠—大数据股权投资论坛(ID:PE821010):国内专业化的股权投资项目及知识交流平台,在本微信平台内回复“PE”即可查看更多精彩文章。新时代的宠儿——大数据最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。大数据已成为作为云计算、物联网之后IT行业又一大颠覆性的技术革命。大数据的发展与特点全球青少年识字率的提升以及网民数量的增加大大地增加了信息与数据的产生与交流,为大数据的产生铺垫了基础。2001年,麦塔集团指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、快(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部份大数据产业中的公司,都继续使用3V来描述大数据。这里主要介绍下大数据的这几个特点。大数据带来的六大领域变化我们所认识的数据科学与商业智能正在发生深刻变化,不仅仅是技术和能力上,而且消费这些技术的用户的预期也在变化。这些变化如此剧烈和深刻,以至于我们不得不承认,人类科学研究本身都因此进入一个全新的时代。本节主要从大数据的可视化、信息安全领域、智能终端、智慧城市、智能家居&安防和医疗卫生等六个领域进行深入探讨。一、新时代的宠儿—大数据2最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。大数据作为云计算、物联网之后IT行业又一大颠覆性的技术革命。(1)大数据含义2012年以来,“大数据”逐渐成为人们热衷讨论的热门话题之一。在这里,有必要厘清一下大数据的基本含义。维基百科是这样定义的:大数据(Bigdata),或称巨量数据、海量数据、大资料,指的是所涉及的数据规模巨大到无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。著名的信息技术研究和咨询公司Gartner也对大数据有比较概况性的定义,它认为大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与优化处理。业界巨擘IDC公司用一张图形象的界定了大数据,同时也确定了大数据的几个特点。它将大数据门槛提至100TB的量级,同时数据的产生速度以及传输速度相当快,另外数据本身也是不断更新的,更新速率每年高于60%的数据才能称为大数据。(2)大数据带来的是场革命欢迎来到大数据时代。“大数据”已经成为硅谷的新宠,前有Google,后有Facebook,都是驾驭Web数据的大师—它们都擅长于给在线搜索、文章和消息披上互联网广告的外套。在2012年瑞士达沃斯举行的世界经济论坛上,大数据是框定的主题之一。该论坛的一份报告《大数据,大影响》,宣告了数据成为一种新型的经济资产,就像货币或者黄金一样。与此同时,大数据也具有相当大的覆盖面。数据丰富的影响延伸到商业之外,比如说JustinGrimmer,作为斯坦福大学的一名28岁的助理教授,他看到了3“一个机遇,因为学科正变得越来越趋于数据密集”,所以在自己的大学及研究生研究当中,他把数学运用到了政治科学里面。他的研究包括对博客发文、国会演讲以及新闻发布、新闻内容的自动计算机分析,以便深入了解政治观念是如何被传播出去的。其他领域,如科学、体育、广告及公共卫生,发生的故事也一样—即数据驱动发现和决策的趋势。“这是一次革命”,哈佛量化社会科学研究所主任GaryKing说:“我们的确正在起航。不过,在庞大的新数据来源的支持下,量化的前进步伐将会踏遍学术、商业和政府领域。没有一个领域可以不被触及。”同时,麻省理工学院斯隆管理学院的经济学家ErikBrynjolfsson形象地说到,要想领会大数据的潜在影响,你得看看显微镜。发明于4个世纪之前的显微镜,使得人们以前所未有的水平观看和测量事物—细胞级。这是测量的一次革命。二、大数据的发展背景与特点(1)大数据的发展背景随着世界经济的发展、教育投入的增加,全球青少年和成年的识字率有了质的飞跃。同时,科技的发展促进了网络的普及、降低了通讯设备的成本,全球不断增加的人口同时也获得了科技进步的红利,全球网民的数量成倍地增加。全球青少年识字率的提升以及网民数量的增加大大地增加了信息与数据的产生与交流,为大数据的产生铺垫了基础。1)全球青少年及成年人识字率持续上升识字率的定义为一个国家当中,十五岁以上的合法“劳动人口”中能读写文字的人的比率,就目前而言,全球平均识字率正在增加当中。过去20多年中,青年和成人在识字方面都取得了稳步进展。2011年,全球成年人(15岁及以上)中84%具有读写能力,比1990年提高了8个百分点。青年(15-24岁)识字率在1990年至2011年间增长了6个百分点。因此,全球89%的年轻人掌握基本的读写和计算技能。41990年至2011年间,青年识字率提高最大的地区是北非(从68%到89%)和南亚(从60%到81%)。年轻女性识字率提高的速度要快于年轻男性:在北非,1990年至2011年间女性识字率提高了28个百分点,而年轻男性识字率提高了16个百分点。同期,在南亚,年轻女性和男性的识字率分别提高了26个和17个百分点,各个地区都在接近男女识字率相等的水平。2)互联网和移动电话普及率稳步上升联合国国际电信联盟秘书长哈玛德图雷说:“2000年初,全球手机用户只有5亿,网民数量只有2.5亿,而2011年初,全球手机用户数量和网民数量都出现了迅猛增长,手机用户达到了50亿,网民数量达到了20亿。”ITU同时在网上公布的最新数据显示,去年底全球网民数量估计达到了20.8亿,而一年前为18.6亿,去年底全球手机用户数量估计达到了52.8亿,而一年前为46.6亿,并在当时预测了2012年的网民数将达到24亿。当前,全球人口数量超过了68亿,网民数量占到了近三分之一,其中57%的网民来自发展中国家。ITU在3年前就曾表示,发展中国家的网民数量超过了发达国家。下图显示了在2007年至2012年间全球网民数量的具体变化。瑞典互联网市场研究公司RoyalPingdom周四发布研究报告称,今年全球网民总量已经达到22.7亿,较5年前的11.5亿将近翻番。其中,在过去5年中,亚洲在全球新增网民中所占比率最高,达到53.8%。自互联网诞生以来,网民总量便在快速增长。与此同时,各种网络服务的规模也在急剧膨胀,Facebook就是其中的典型例子:5该公司的用户总量已经与2004年的全球网民总数相当。国内方面,2003年至今10年的时间国内移动电话用户数量迅猛地在增加,在2013年初移动电话普及率已经达到90.80部/每人,因为中国的人口基数较大,所以国内的移动电话规模已经十分庞大。另外随着2000年互联网的兴起,我国的互联网普及率显著提升,2013年初的互联网普及率已经达到45.80%,考虑到我国的人口基数,这样的互联网普及率已经十分可观,并且随着科技的发展,普及率还有相当大的上升空间。(2)大数据的特点62001年,麦塔集团(METAGroup,现为高德纳)分析员DougLaney指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、快(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部份大数据产业中的公司,都继续使用3V来描述大数据。后来,IDC咨询公司又提出了真实性(Veracity)为第四特点,IBM也在前三个特点的基础上提出数据的价值性(Value)为第四个特点。这里主要介绍下前比较主流的四个特点,即量(Volume)、快(Velocity)、多变(Variety)与价值(Value)。1)大数据之“大”大数据之所以称为大数据,正是因为当今的数据规模已经达到PB级别。首先解释数据的量级,数据量级从字节开始,分为KB,MB,GB,TB,PB,EB,ZB,YB..相对应的换算关系如下:一提到数据量级,人们通常会联想到美国国会图书馆(见上右图)。麦肯锡首席分析师介绍了PB级数据究竟有多大。美国国会图书馆在2011年4月前已经收集了235TB的数据,而一个PB相当于它的4倍。如果还不够形象,下面的比喻将更为直接与清楚:7从全球范围看,大数据的规模一直在高速增长,随着2011年以来移动设备的快速发展,全球数据规模又在移动端的牵引下迅速膨胀,增速从2011年的46.7%上升到57.6%,可以说一直维持在一个较高水平的增速上。从国内来看,2013年中国产生的数据总量超过0.8ZB(相当于8亿TB),2倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。从行业来看,互联网公司产生的数据规模最为庞大,百度现在的数据总量接近一千个PB左右,阿里巴巴掌握的总体数8据量为30PB左右,行业内部人士预计阿里集团大概有30万台左右服务器,目前保存的数据量应该在近百PB(对新浪微博的投资,对高德等的收购等行为,会进一步提高阿里巴巴可接触的数据量),腾讯QQ目总存储数据量经压缩处理以后在100PB左右。另外,像电信、金融、保险、电力、石化系统的,他们的数据量级在数十PB。交通领域,航班往返一次能产生数据就达到TB级别,还有列车、水陆路运输产生的各种数据视频、文本类数据,每年也在百PB级别,能够保存下来的,也能达到数十PB。其他公共领域,像整个中国气象局所保存的数据在4~5PB左右,每年大概增加数百个TB左右,大型医院每年的数据增量在数十TB,仅医学影像每年可达20TB。2)大数据之“快”快(Velocity)衡量的是用户“交互点”(Point-of-Interaction),如网站响应速度、订单完成速度、产品和服务的交付速度等。假设交互点是一个黑盒子,一边吸入数据,经过黑盒子处理后,在另一边流出价值,那Velocity指的是吸入、处理和产生价值的快速度。第一,时间就是金钱。时间在分母上,越小,单位价值就越大。面临同样大的数据矿山,“挖矿”效率是竞争优势。Zara与H&M有相似的大数据供应,Zara胜出的原因毫无疑问就是“快”。第二,像其它商品一样,数据的价值会折旧。过去一天的数据,比过去一个月的数据可能都更有价值。更普遍意义上,它就是时间成本的问题:等量数据在不同时间点上价值不等。第三,数据跟新闻和金融行情一样,具有时效性。美国国家海洋和大气管理局的超级计算机能够在日本地震后9分钟计算出海啸的可能性,但9分钟的延迟对于瞬间被海浪吞噬的生命来说还是太长了。9在大数据面前,企业必须改变现有的数据处理模式,才能够存储大量数据并从中挖掘有用的数据及商业价值。下图设想我们站在某个时间点上,背后是静静躺着的老数据,面前是排山倒海扑面而来的新数据。在令人窒息的数据海啸面前,我们的数据存储系统如同一个小型水库,而数据处理系统则可以看作是水处理系统。数据涌入这个水库,如果不能很快处理,只能原封不动地排出。对于数据拥有者来说,除了付出了存储设备的成本,没有收获任何价值。另外,批处理和流处理也有着截然不同的效果。对于burst数据,多数是先进入存储系统,然后再来处理,因此以批处理范式为主;而对于流数据,多采用流范式。传统上认为流处理的方式更快,但流范式能处理的数据常常局限于最近的一个数据窗口,只能获得实时智能(real-timeintelligence),不能实现全时智能(all-timeintelligence)。批处理擅长全时智能,但翻江倒海捣腾数据肯定慢,所以亟需把批处理加速