-1-云计算和大数据知识简介一、关于云计算和大数据(一)云计算云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。对云计算的定义有多种说法。对于到底什么是云计算,至少可以找到100种解释。目前广为接受的是美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。简单来说,云计算就是政府和企业将需要计算的信息,通过网络交由云计算平台来计算,然后通过广泛的数据和信息共享,得到针对性比较强的统计信息、数据分析结果。比如,通过云计算平台,分析全国全省的市-2-场运行趋势,这个信息是无法在一台计算机中完成的,一是没有数据量,二是计算量太大,而通过云计算平台,就可以在较短时间甚至是实时得到信息,然后就可以针对市场的情况、潜在的企业投资商、潜在的客户来进行招商引资、生产产品。再比如,淘宝网目前根据网购客户的购买倾向、评价信息来进行数据分析,然后与美的等电器生产商进行大数据信息共享、交换,从而根据用户的需求和爱好,生产出更加适合市场的产品。下一步的工业4.0,就是生产商和用户点对点的生产销售模式,这样的生产方式,必须通过大数据来完成,否则,一台电脑或者几台服务器都无法无成分析、设计、生产的过程。(二)大数据大数据,又可以称作巨量数据、海量数据,指的是所涉及的数据量级规模巨大到目前无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。简单的例子:每天乃至每年全国所有移动电话的通话记录就是常见的所谓大数据,这一庞大的数据是人力所根本无法解读的。而通过运营商的服务器整合数据后进行分析,就能得到一些人们感兴趣的信息,例如:中秋节期间长途电话的比例远高于平常,除夕夜短信数量是平常每一天的上万倍等等,都是大数据处理技术所能带给人们的对于庞大数据的独特解读。大数据有着以下四个显著的特征:-3-1.数据体量巨大。百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB约为1015.字节),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。2.数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。3.处理速度快。这是大数据区分于传统数据挖掘的最显著特征。在海量的数据面前,处理数据的效率就是企业的生命。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。4.价值密度低。价值密度的高低与数据总量的大小成反比。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。大数据技术(例如数据挖掘)就是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网和可扩展的存储系统等。随着经济社会的发展,全球市场经济的融合,大数据显得越来越重要。政府部门可以利用大数据整合行政资源,比如整合发展工信、建设、水利等各行业的项目信息,同时具备与外部资本、-4-国家投资对接的分析功能;可以整合各地方、各级的医疗、民生、教育资源,实现资源配置的科学化。企业可以通过大数据实现生产与市场的对接分析,使生产的产品更加适销对路;可以通过大数据进行宣传,既减少宣传广告的成本,又可以使宣传或广告能及时准确地到达用户。如某位用户在淘宝搜索过某种产品,淘宝通过大数据技术,在用户下次登录淘宝时给用户推荐类似的产品。既方便了用户,又推广了产品。(三)云计算和大数据的关系云计算,再一次改变了数据的存储和访问方式。在云计算出现之前,数据大多分散存储在每个人的个人电脑、每家企业的服务器中。云计算,尤其是公用云计算,把所有的数据集中存储到“数据中心”,也即所谓的“云端”,用户通过浏览器或者专用应用程序来访问。一些大型的网站,通过提供基于“云”的服务,积累了大量的数据,成为事实上的“数据中心”。“数据”是这些大型网站最为核心的资产,他们不惜花费高昂的费用,付出巨大的努力,来存储这些数据,谷歌公司甚至购买了单独的水力发电站,为其庞大的数据中心提供充足的电力。根据一些公开资料显示,谷歌在全球分布着大约36个数据中心。近几年,国内各地兴起了建设云计算基地的风潮,客观上为“大数据”的诞生准备了必备的储存空间和访问渠道。各大银行、-5-电信运营商、大型互联网公司、政府各部委等都拥有各自的“数据中心”。绝大多数的银行、电信、互联网公司都已经实现了全国级的数据集中的工作。云计算是大数据诞生的前提和必要条件。没有云计算,就会缺少数据集中采集和存储的商业基础,而云计算为大数据提供了存储空间和访问渠道;大数据则是云计算的灵魂和必然的升级方向。二、云计算和大数据的发展状况(一)国内云计算技术及产业状况2012年5月,工业和信息化部发布《通信业“十二五”发展规划》,将云计算定位为构建国家级信息基础设施、实现融合创新的关键技术和重点发展方向。2012年9月,科技部发布首个部级云计算专项规划《中国云科技发展“十二五”专项规划》,对于加快云计算技术创新和产业发展具有重要意义。我国云计算基础产品与操作系统技术方面取得显著进展。在云计算基础产品方面,我国已经突破EB级(1EB约1018字节)存储系统软、硬件技术和支持亿级任务并发处理的服务器系统技术。同时,互联网企业在大规模云计算操作系统方面取得突破,包括弹性计算系统、分布式计算系统、结构化数据存储系统和开放存储系统等。-6-2013年工业和信息化部正积极开展云计算综合标准的制定工作。在梳理现有各类信息技术标准的基础上制定新的云计算标准,修订已有的标准,建设形成满足行业管理和用户需求的云计算标准体系。1.部分省市政府搭建云计算基础平台,推进云计算的发展。国家发改委、工信部将北京、上海、深圳、杭州、无锡、哈尔滨市确定为国家云计算服务创新发展试点城市。北京云基地的建设。作为云计算、大数据时代基础设施的建设者和创新者,云基地各创业企业的产品和服务涵盖云计算各个环节,包括服务器、模块化数据中心、瘦终端等硬件产品的设计和生产,云中间件、云管理平台、桌面虚拟化等基础软件研发;大数据、智能知识库、分布式计算等应用软件,以及定制化云计算解决方案,构成完整的上下游和中间平台完备的云生态产业链。上海市在2010年8月颁布推进云计算产业发展行动方案,即“云海计划”,“上海市云计算产业基地”在上海市北高新技术服务业园区落户。深圳市将云计算作为“智慧深圳”的重要支撑纳入深圳市“十二五”发展规划。深圳云计算国际联合实验室在2011年4月正式揭牌,该实验室是深圳云计算产业协会联合英特尔、IBM、金-7-蝶等国内外相关企业创建的专业性技术与应用研发实验室。深圳云计算中心在2012年1月完成验收。杭州云计算产业园在2011年10月开园,形成以“技术创新、人才创新和运作模式创新”为支撑的云计算产业创新体系,打造云计算产业集聚区。杭州湾云计算(西湖云公共服务平台)是全国首家利用云计算技术服务于电子商务产业的政、产、学、研一体的公共服务平台。无锡城市云计算中心在2013年8月正式启用,作为国内首个物联网云计算中心,无锡城市云计算中心大量使用自主知识产权的产品、技术和国产设备,有效保障了云服务的“安全、自主、可控”。该中心现已为无锡电子政务、物联网、移动互联网等关键应用提供云计算服务,逐渐形成开放的城市云生态体系。哈尔滨市提出以“发挥政府引导作用,以电子政务建设为切入点,大力推进云计算技术应用,以应用带市场、以应用促招商、以应用谋发展”的工作思路,确定了“通过利用政府资源,实施云计算应用示范工程,培育和引进一批云计算骨干企业,形成一批自主知识产权的核心技术和拳头产品,实现一批在全国具有示范意义的典型应用”的工作任务。2.企业和科研机构也在积极进行云计算相关项目的研发。阿里云于2013年12月在“飞天”平台之上启动一系列举措。-8-包括低门槛入云策略、一亿元扶持计划、开发全新开发者服务平台等多项内容。从产品、价格、服务以及第三方合作等多个角度,打破传统商业模式,以用户第一的思维,创新云服务,构建更加健康的云计算生态圈。2013年10月,阿里云推出“飞天5K集群”项目,取得技术上的重大突破,拥有了只有谷歌、脸谱这样的顶级技术型IT公司才能达到的单集群规模达到5000台服务器的通用计算平台。百度在2011年9月正式开放其云计算平台,在云计算基础架构和海量数据处理能力已较为成熟,将陆续开放基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)等多层面的云平台服务,如云存储和虚拟机、应用执行引擎、智能数据分析和事件通知服务、网盘、地图、帐号和开放应用程序接口等。百度云操作系统是云和端结合的通用性平台,以个人为中心来组织数据和应用,形成产品研发的统一、落地终端的统一、运营渠道的统一。云操作系统提供网页应用化的功能,还将支持新型的网页应用。浪潮集团已形成涵盖IaaS、PaaS、SaaS三个层面的云计算整体解决方案服务能力,建立包括HPC/IDC、媒体云、教育云等跨越十余个行业的云应用并成功在非洲、东南亚等地区进行推广。通过承担“高端容错”和“海量存储”两个国家863计划重-9-大专项,“浪潮天梭K1关键应用主机”和“浪潮PB级高性能海量存储系统”均通过国家验收,并已成功在金融、税务等核心领域部署。在2013年,浪潮发布了其全新升级的云数据中心操作系统云海OSV3.0,该产品基于开放、融合的技术理念,能够帮助用户从孤立低效的传统数据中心向智能高效的云数据中心转变。华为公司秉承开放的弹性云计算的理念,如推出了FusionCloud云战略,提供云数据中心、云计算产品、云服务解决方案。“ICT软硬件基础设施、顶层设计咨询服务和联合第三方开发智慧城市应用”是华为企业业务的三个主要方向,在云数据中心的基础上,实现“云-管-端”的分层建设,打造可以面向未来的城市系统框架。华为在2013年的应用案例,如天津LTE政务网(可为政府、公安等行业用户提供),采用的是华为基于TD-LTE技术的方案,直接支持数据、视频业务,并为未来专业集群、应急通信车等提供资源预留。(二)大数据技术及产业状况大数据的应用领域涵盖了包括了大科学、无线射频辨识(RFID)、传感设备网络、天文学、大气学、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦查、社交网络、通勤时间预测、医疗记录、-10-照片图像和图像封存、大规模的电子商务等,已经不可避免的成为当今社会最炙手可热的技术之一。1.国外的大数据发展状况。美国在2012年就开始着手大数据,奥巴马政府投资近两亿美元开始推行《大数据的研究与发展计划》,本计划涉及美国国防部、美国卫生与公共服务部门等多个联邦部门和机构,意在通过提高从大型复杂的数据中提取知识的能力,进而加快科学和工程的开发,保障国家安全,而且奥巴马本人更是强调大数据会是之后的未来石油。美国的大数据产业已经创造了巨大的价值,比如:大数据使美国的交通更加便利。通过完善信息和自动驾驶功能,大数据有可能在许多方面彻底改变交通的面貌。开车的人多,交通堵塞就多,其后果是浪费能源,造成全球气候变暖,耗费时间和金钱。手持设备、车辆和道路上的分布式传感器则可以提供实时交通信息。这些信息,再加上更好的自动驾驶功能,可以使驾驶更安全,交通堵塞更少。智能汽车日益互联的新型交通生