形势与政策姓名文刘青学号2013040151005专业13级电子科学与技术我看形势之大数据关键词:大数据、云计算一、引言随着社交网络、移动互联、电子商务、互联网和云计算的兴起,音频、视频、图像、日志等数据正在以指数级增长,互联网的边界和应用范围不断被扩展。据麦肯锡的预测,2010年全球范围内硬盘存储的新数据超过7EB(1EB=10亿GB),而到2020年,全球数据总量将达到约35ZB(1ZB=10亿TB),大数据正以其多源、海量、异构的特性冲击着社会的各个领域,为传统的数据库系统在存储、访问和管理大数据方面带来严峻的考验,无论是在学术界还是工业界,都引起人们高度的关注。2008年,国际顶级学术期刊Nature以“BigData”为专刊,讨论了大数据给各个领域带来的冲击和挑战;2011年,国际顶级学术期刊《Science》推出“Dealingwithdata”专刊,重点探讨了对大数据的处理技术;2011年5月,全球著名咨询机构麦肯锡公司发布题为“大数据:下一个创新、竞争和生产力的前沿”的报告,明确提出应对大数据快速发展的策略,是第一份系统阐述大数据的专题研究成果;2011、2012年,中国举办了第一届、第二届“大数据世界论坛”,邀请了微软、甲骨文、因特尔等国际资深专家,覆盖金融、电信、能源等各个领域,共同探讨大数据前沿技术与发展态势,以应对持续增长的海量数据;2012年1月达沃斯世界经济论坛把大数据作为主题之一,探讨如何挖掘大数据的商业价值,为企业带来更好的社会效益;2012年3月,美国奥巴马政府耗资2亿美元研究“大数据研究和发展计划”,引导工业界、学术界和非营利机构改进和提高访问、收集、组织大数据的技术和方法。大数据已经成为一种战略资源,具有广阔的应用前景。为了有效地管理大型复杂的数据和高效提取有价值的知识,还需要进一步把握大数据特性,选择合理的处理方式。二、大数据定义移动互联网,尤其是社交网络,电子商务与移动通信将人类社会代入了一个以PB(1024TB)为度量单位的数据信息新时代。物联网,云计算,移动互联网,平板电脑,手机等各种传感器都是爆炸性增长数据的来源。2011年5月麦肯锡发布大数据报告,2012年3月奥巴马政府启动大数据发展计划,各国政府开始积极应对,2012年11月我国第一届大数据论坛召开。大数据的内涵:从数据的来源来看,数据贴近客户,大数据技术的产生便是为了及时了解客户。舍恩伯格《大数据时代》一书中,将大数据描述为“大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场结构,组织结构,以及政府与公民关系的方法。”赵国栋《大数据时代历史机遇》中“如何盘活数据资产,使其为国家治理、企业决策乃至个人服务,是大数据的核心议题。”数据成为一种资产。在2012年1月,瑞士达沃斯召开的经济论坛上,报告《大数据,大影响》中称数据已经成为一种新的经济资产,像货币或黄金一样。《大数据时代》中“数据已经成为一种商业资本,一项总要的经济投入,可以创造新的经济利益。”《大数据时代历史机遇》中将数据是资产作为基本的观点,并且用4V模型描述了大数据中的“数据”四大特征:Volume(体量)Variety(多样性)Value(价值),Velocity(速度)。体量巨大,以PB计量;种类繁多,数字,视频,文本,时间,图片,声音等等各种结构化和非结构化的数据,并且非结构化数据占大部分。舍恩伯格也提出接受数据的混杂,5%的数据是可以用传统数据库存储的,但是95%是非结构化的。因为数据的体量大,所以数据的价值密度极低。速度则是信息获取的及时性,必须数据的收集处理速度极快,滞后的信息将没有价值。数据能力:简单说来是从大数据中获取有价值信息的能力。根据《大数据时代》可以概括为量化能力,“量化一切是数据化的核心”:将文本变为数据,如谷歌的数字图书馆;将方位变为数据,如UPS快递的最佳行车路径;将沟通变为数据,如对微博的情绪分析等。认知能力,数据由于其体量大价值密度低,因而数据本身没有价值,有价值的在于挖掘出海量数据中的潜在商业价值。创新能力,“数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。”,根据舍恩伯格数据的创新包括数据再利用,重组数据,可扩展数据,数据的折旧值,数据废气和开放数据。三、大数据与云计算云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用,在云计算领域目前的老大应该算是amazon,可以说为云计算提供了商业化的标准,另外值得关注的还有vmware其实从这一点可以帮助你理解云计算和虚拟化的关系,开源的云平台最有活力的就是openstack了;大数据相当于海量数据的“数据库”,而且通观大数据领域的发展也能看出,当前的大数据处理一直在向着近似于传统数据库体验的方向发展,hadoop的产生使我们能够用普通机器建立稳定的处理tb级数据的集群,把传统而昂贵的并行计算等概念一下就拉到了我们的面前,但是其不适合数据分析人员使用,所以piglatin和hive出现了,为我们带来了类sql的操作,到这里操作方式像sql了,但是处理效率很慢,绝对和传统的数据库的处理效率有天壤之别,所以人们又在想怎样在大数据处理上不只是操作方式类sql,而处理速度也能“类sql”,google为我们带来了dremel/powerdrill等技术,clouderahadoop商业化最强的公司,hadoop之父cutting就在这里负责技术领导的impala也出现了。整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力。