1大数据与云计算刘亚文(西北农林科技大学信息工程学院软件工程141)摘要:云计算是当今计算机领域最热门的话题,大数据时代的发展趋势和用户需求迫使研宄者们前赴后继地投身这一领域.这是充满挑战的时代,也是充满机遇的时代,突破了网络发展的这一质变过程,计算机学界势必迎来一个更加辉煌的时代.对于广大用户而言,云计算带来的服务将会大大提高工作效率和质量,提高生活品质,为人们幸福生活做出贡献.关键词:云计算;大数据;数据分析;一、引言以2011年5月麦肯锡发布《大数据的下一个前沿:创新、竞争和生产力》为起点,大数据概念开始持续发酵。2012年,大数据从技术圈进入主流市场[1],得到许多国家、社会组织和企业的看好和广泛应用。2012年1月,达沃斯世界经济论坛发布了一份题为《大数据,大影响》(BigData,BigImpact)的报告,3月,美国政府发布《大数据开发倡议》,之后英国、日本、德国、加拿大等国纷纷效仿,推出与大数据应用相关的战略研究,自此一场关于“大数据”的战略争夺已经拉开战幕……那么,到底什么是大数据?它与云计算是什么关系?二、认识大数据1.大数据的含义与特征地球上的煤炭、石油、天然气等自然资源在消耗中不断减少,面临枯竭;而数据随着应用的不断创新,在使用中生长和丰富。大数据的出现,就是数据的快速增长带来质的变化的结果。对于大数据还没有一个正式的定义,目前最为普遍的定义就是“用传统方法或工具不能处理或分析的数据”。大数据具有大量、速度快和多样性三大特征[2],这些特征是传统数据处理方法和工具所无法胜任的。大量(Volume)是指数据量非常庞大,主要体现在数据存储量大和计算量大。根据IDC《数字宇宙膨胀:到2010年全球信息增长预测》中统计的数据,2006年全球每年制造、复制出的数字信息量共计16.1万PB,当年信息产生量大约是历史上图书信息总量的3000倍;至2010年,数字信息总量达98.8万PB。专家指出,2020年年度数据将增加43倍。因此,大数据中的数据不再以几个GB或几个TB为单位来衡量,而是以PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。速度(Velocity)一方面是指数据在不断更新,增长的速度快,另一方面是指数据存储、传输等处理速度很快。短短60秒,YouTube用户会上传48小时的视频;Google会收到200万次搜索请求并极快地返回结果;Twitter要处理100万条Tweets信息;网购产生27.2万美元的交易;AppStore有4.7万次下载;全球新增网页571个。数据处理的速度也要求越来越快,甚至是实时处理,比如灾难的预测,需很快的对灾难发生的程度、影响的区域范围等进行量化。如日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。多样2性(Variety)指数据包含结构化的数据表和半结构化、非结构化的文本、视频、图像等信息,而且数据之间的交互非常频繁和广泛。2.大数据的作用与意义商业智能的深入发展使得商业决策已经越来越依赖于数据。然而,传统的商业智能系统中用以分析的数据,大都是企业内部的运营数据,它们只占到了企业所能获取的全部数据的15%。大数据使得企业能够分析更多的数据,从而使得分析结果更真实,能够获取新的洞察力,因此大数据能带来更大的价值。对于国家和政府,大数据能够强化国家安全,推动政府开放,提高公共决策的预见性和响应性[3]。各国军队都重视掌握技术优势,最大限度提升自己的存储、挖掘和使用“海量数据”的能力,通过海量数据挖掘高价值情报,提高快速反应能力。对于企业,大数据将开启商业智能的新阶段。《纽约时报》撰文称,“大数据”正在对各个领域都造成影响,在贸易、经济和其他领域中,越来越多的决策基于数据解析做出,而不是像昔日更多凭借经验和直觉。IBM和麦肯锡的研究都表明,应用大数据的企业确实呈现出明显竞争优势,如收入增长更快。大数据对企业竞争力的影响主要表现在客户洞察、营销规划、产品创新、物流管理、流程优化、人力资源管理、风险控制等七个方面。对于个人,大数据将对人们的衣、食、住、行、健康、娱乐等都将产生深刻的影响。比如借助戴在手臂上或装在口袋里的各种传感器,你的血压、心跳、情绪等多种体征信息被实时传送到远程健康平台,系统会根据你当天的运动量、饮食、心情、工作等情况给你最佳的锻炼和调节建议。总之,大数据的战略意义和对社会的重大影响已毋庸置疑,它有望开启继互联网、物联网之后有一个新的时代——大数据时代即将到来。三、云计算简介正如维克托教授所说,大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。而发掘数据价值、征服数据海洋的“动力”就是云计算。1.1云计算的概念由于云计算是由不同的企业和研究机构同步推进的技术,所以关于云计算的定义有很多,至今并没有一个公认的定义和标准。结合国际20位专家的定义,IanFoster定义云计算为一个由规模经济驱动的大型分布式计算模型,在该模型中,抽象的、虚拟化的、动态可伸缩的并可管理的计算资源、存储资源、平台和服务构成了一个资源池。资源池中的资源通过互联网,按需提供给池外的用户。归纳的云计算定义为:云是由易于使用的虚拟资源构成的一个巨大资源池,包括硬件资源、部署平台以及相应的服务。根据不同的负载,这些资源可以动态地重新配置,以达到一个最理想的资源使用状态。资源池中的资源是按需付费的,服务提供商通过服务等级协议(ServiceLevelAgreement,SLA)保证用户的服务质量。综合其他资料,可以将云计算归纳为:云计算以虚拟化技术为核心,虚拟化技术将共享的硬件和软件资源抽象化成一个统一的资源池,通过互联网这个载体,向用户按需地提供所需的资源。其特点在于多用户共享、大数据处理与大数据存储。云计算严格地来说并不是一种真正新的技术,而是并行计算(ParallelComputing,PC)等计算模式的进一步演进。由于云计算的主要标准和方案是由企业推进的,也可以说云计算是分布式计算模型的商业实现。1.2云计算的特点和优势云计算作为分布式计算的优势:(1).分布式系统的最大优势就是因为其具有比集中式系统更好的性能价格比,用3户花少量的钱就能获得高效能计算。由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势。(2).多数应用本身就是分布式的。如工业企业应用,管理部门和现场不在同一个地方的应用。(3).虚拟化。云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。(4).高可靠性。冗余不仅是生物进化的必要条件,而且也是信息技术。现代分布式系统具有高度容错机制,控制核反应堆主要采用分布式来实现高可靠性。(5).通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。(6).可扩展性。添置一台性能更高的大型机,或者添置一台性能相同的大型机的费用都比添加几台PC的费用高得多。(7).高度灵活性。能够兼容不同硬件厂商的产品,兼容低配置机器和外设而获得高性能计算。云计算在存储领域的发展趋势和优势:(1).用户不必为文件存储硬件投入任何前期的费用。(2).主机服务提供商会维护用户文件服务器的安全和更新问题。(3).方便的控制访问权限和文件资源管理。四、大数据与云计算的关系近几年来,云计算受到学术界和工业界的热捧,随后,大数据横空出世,更是炙手可热,经常有人把大数据和云计算相提并论。那么,大数据和云计算之间是什么关系呢?大数据与云计算确实有一些相同之处。它们都是为数据存储和处理服务的,都需要占用大量的存储和计算资源,而且大数据用到的海量数据存储技术、海量数据管理技术、MapReduce等并行处理技术也都是云计算的关键技术。但是,大数据与云计算也有很多方面的差异。云计算的目的是通过互联网更好地调用、扩展和管理计算及存储资源和能力,以节省企业的IT部署成本,其处理对象是IT资源、处理能力和各种应用。云计算从根本上改变了企业的IT架构,产业发展的主要推动力量是存储及计算设备的生产厂商和拥有计算及存储资源的企业。而大数据的目的是充分挖掘海量数据中的信息,发现数据中的价值,其处理对象是各种数据。大数据使得企业从“业务驱动”转变为“数据驱动”,从而改变了企业的业务架构,其直接受益者不是IT部门,而是业务部门或企业CEO,产业发展的主要推动力量是从事数据存储与处理的软件厂商和拥有大量数据的企业。因此,不难发现云计算和大数据实际上是工具与用途的关系,即云计算为大数据提供了有力的工具和途径,大数据为云计算提供了很有价值的用武之地。而且,从所使用的技术来看,大数据可以理解为云计算的延伸[4]。大数据若与云计算相结合,将相得益彰,互相都能发挥最大的优势。云计算能为大数据提供强大的存储和计算能力,更加迅速地处理大数据的丰富信息,并更方便地提供服务;而来自大数据的业务需求,能为云计算的落地找到更多更好的实际应用。当然大数据的出现也使得云计算会面临新的考验。五、结束语大数据技术的运用前景是十分光明的。当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四4化同步发展的保证。大数据是新一代信息技术的集中反映,是一个应用驱动性很强的服务领域,是具有无穷潜力的新兴产业领域;目前,其标准和产业格局尚未形成,这是我国实现跨越式发展的宝贵机会。我们要从战略上重视大数据的开发利用,将它作为转变经济增长方式的有效抓手,但要注意科学规划,切忌一哄而上。大数据时代呼唤创新型人才。中国是人才大国,但能理解与应用大数据的创新人才更是稀缺资源。如果说曾经有过互联网的快速发展基于信息服务业的话,未来围绕大数据或者现在的名字还叫云计算,那么新的虚拟计算模式是重要的,基本标志就是数据服务成为越多产业技术和研究重要的内容。计算模式的变迁可能造成时代变化。现在探讨中国互联网新的价值和它的科学价值或者产业价值的时候,会有很多机遇,努力探索这方面的工作。参考文献:[1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,(1):146-169[2]邬贺铨,求是,大数据时代机遇与挑战[J],2013[3]马敏行,大数据时代来袭[M],2013(11)[4]孟剑,耿耿,大数据时代,机遇?挑战?[J].中国新时代报,2012,(6)[5]维克托,迈尔,大数据时代[J].浙江:浙江人民出版社,2012[6]大数据时代降临,半月谈网[J],2012-09-22[7]IT部门如何应对大数据时代?[J]CIO时代网,2012(02)[8]“大数据”来临决策不能只凭经验[J],东方早报网,2012(4)[9]曹源,食品企业市场营销控制策略[J],合作经济与科技,2010年6月[10]徐子佩,大数据:正在到来的数据革命[M],2012:5755[11]郭小科,大数据[M],北京:清华大学出版社[12]卢万强.食品营销学[M].北京:化学工业出版社,2009.[13]孙英臣.领导决策中的群众路线[J].领导之友,2013(12)[14]刘润生.迎接大数据浪潮[J].科学中国人,2013(11)[15]尚修强.加强理论知识学习提高领导决策能力[J].理财,2014(03)