云计算与大数据技术人民邮电出版社王鹏黄焱安俊秀张逸琴编著并行计算实验室第1章云计算与大数据基础第2章云计算与大数据的相关技术第3章虚拟化技术第4章集群系统基础第5章MPI—面向计算第6章Hadoop—分布式大数据系统第7章HPCC—面向数据的高性能计算集群系统第8章Storm—基于拓扑的流数据实时计算系统第9章服务器与数据中心第10章云计算大数据仿真技术第1章云计算与大数据基础《云计算与大数据技术》并行计算实验室1.1云计算技术概述—1.1.1云计算简介—1.1.2云计算的特点—1.1.3云计算技术分类1.2大数据技术概述—1.2.1大数据简介—1.2.2主要的大数据处理系统—1.2.3大数据处理的基本流程1.3云计算与大数据的发展并行计算实验室云计算技术是硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型云计算并不是对某一项独立技术的称呼,而是对实现云计算模式所需要的所有技术的总称。并行计算实验室云计算技术的内容很多—包括分布式计算技术、虚拟化技术、网络技术、服务器技术、数据中心技术、云计算平台技术、存储技术等。从广义上说,云计算技术几乎包括了当前信息技术中的绝大部分。1.1.1云计算简介并行计算实验室维基百科中对云计算的定义为:—云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。2012年的国务院政府工作报告将云计算作为国家战略性新兴产业给出了定义:—云计算是基于互联网的服务的增加、使用和交付模式,通常涉及通过互联网来提供动态、易扩展且经常是虚拟化的资源。—云计算是传统计算机和网络技术发展融合的产物,它意味着计算能力也可作为一种商品通过互联网进行流通。1.1.1云计算简介并行计算实验室云计算技术的出现改变了信息产业传统的格局。—传统的信息产业企业既是资源的整合者又是资源的使用者;—这这种格局并不符合现代产业分工高度专业化的需求,同时也不符合企业需要灵敏地适应客户的需要。1.1.1云计算简介并行计算实验室—传统的计算资源和存储资源大小通常是相对固定的,面对客户高波动性的需求时会非常的不敏捷,企业的计算和存储资源要么是被浪费,要么是面对客户峰值需求时力不从心。—云计算技术使资源与用户需求之间是一种弹性化的关系,资源的使用者和资源的整合者并不是一个企业,资源的使用者只需要对资源按需付费,从而敏捷地响应客户不断变化的资源需求,这一方法降低了资源使用者的成本,提高了资源的利用效率。1.1.1云计算简介并行计算实验室云计算时代基本的3种角色:资源的整合运营者、资源的使用者、终端客户。—资源的整合运营者就像是发电厂负责资源的整合输出;—资源的使用者负责将资源转变为满足客户需求的各种应用;—终端客户为资源的最终消费者。1.1.1云计算简介并行计算实验室云计算这种新的模式的出现被认为是信息产业的一大变革,吸引了大量企业重新布局:—IBM、微软、谷歌、DELL等企业—国内企业:华为、中兴、腾讯、阿里、联想、浪潮、五舟等企业1.1.1云计算简介并行计算实验室—云计算技术作为一项涵盖面广且对产业影响深远的技术,未来将逐步渗透到信息产业和其他产业的方方面面,并将深刻改变产业的结构模式、技术模式和产品销售模式,进而深刻影响人们的生活;—云计算会逐步成为人们生活中必不可少的技术;1.1.1云计算简介并行计算实验室—移动互联网的出现使云计算应用走向了人们的指间,推动了云计算技术的应用发展,今后云计算将是一项随时、随地、随身为我们提供服务的技术;—云计算的出现也将如电的出现一般,为信息产业的发展提供无限的想象空间,使应用的创新能力得到完全释放。1.1.1云计算简介并行计算实验室1.1.2云计算的特点—1.资源池弹性可扩张—2.按需提供资源服务—3.虚拟化—4.网络化的资源接入—5.高可靠性和安全性1.1.2云计算的特点并行计算实验室与传统的资源提供方向相比,云计算具有以下特点:(1)资源池弹性可扩张—云计算系统的一个重要特征就是资源的集中管理和输出,这就是所谓的资源池。从资源低效率的分散使用到资源高效的集约化使用正是云计算的基本特征之一。—分散的资源使用方法造成了资源的极大浪费,现在每个人都可能有一到两台自己的计算机,但对这种资源的利用率却非常的低,计算机在大量时间都是在等待状态或是在处理文字数据等低负荷的任务。—资源集中起来后资源的利用效率会大大地提高,随着资源需求的不断提高,资源池的弹性化扩张能力成为云计算系统的一个基本要求,云计算系统只有具备了资源的弹性化扩张能力才能有效地应对不断增长的资源需求。—大多数云计算系统都能较为方便地实现新资源的加入。1.1.2云计算的特点并行计算实验室(2)按需提供资源服务—云计算系统带给客户最重要的好处就是敏捷地适应用户对资源不断变化的需求;—云计算系统实现按需向用户提供资源能大大节省用户的硬件资源开支,用户不用自己购买并维护大量固定的硬件资源,只需向自己实际消费的资源量来付费;—按需提供资源服务使应用开发者在逻辑上可以认为资源池的大小是不受限制的,应用开发者的主要精力只需要集中在自己的应用上。1.1.2云计算的特点并行计算实验室(3)虚拟化—现有的云计算平台的重要特点是利用软件来实现硬件资源的虚拟化管理、调度及应用。—在云计算中利用虚拟化技术可大大降低维护成本和提高资源的利用率。1.1.2云计算的特点并行计算实验室(4)网络化的资源接入。—从最终用户的角度看,基于云计算系统的应用服务通常都是通过网络来提供的,应用开发者将云计算中心的计算、存储等资源封装为不同的应用后往往会通过网络提供给最终的用户。—云计算技术必须实现资源的网络化接入才能有效地向应用开发者和最终用户提供资源服务。—以网络技术的发展是推动云计算技术出现的首要动力。1.1.2云计算的特点并行计算实验室(5)高可靠性和安全性。—用户数据存储在服务器端,而应用程序在服务器端运行,计算由服务器端来处理。所有的服务分布在不同的服务器上,如果什么地方(节点)出问题就在什么地方终止它,另外再启动一个程序或节点,即自动处理失败节点,从而保证了应用和计算的正常进行。—数据被复制到多个服务器节点上有多个副本(备份),存储在云里的数据即使遇到意外删除或硬件崩溃也不会受到影响。1.1.2云计算的特点并行计算实验室1.1.3云计算技术分类—1.按技术路线分类—2.按服务对象分类—3.按资源封装的层次分类并行计算实验室目前已出现的云计算技术种类非常多,对于云计算的分类可以有多种角度:—从技术路线角度可以分为资源整合型云计算和资源切分型云计算;—从服务对像角度可以被分为公有云和私有云;—按资源封装的层次来分可以分为:基础设施即服务(InfrastructureasaService,IaaS)平台即服务(PlatformasaService,PaaS)软件即服务(SoftwareasaService,SaaS)。1.1.3云计算技术分类并行计算实验室.按技术路线分类—资源整合型云计算:这种类型的云计算系统在技术实现方面大多体现为集群架构,通过将大量节点的计算资源和存储资源整合后输出。这类系统通常能实现跨节点弹性化的资源池构建,核心技术为分布式计算和存储技术。MPI、Hadoop、HPCC、Storm等都可以被分类为资源整合型云计算系统。1.1.3云计算技术分类并行计算实验室—资源切分型云计算:这种类型最为典型的就是虚拟化系统,这类云计算系统通过系统虚拟化实现对单个服务器资源的弹性化切分,从而有效地利用服务器资源,其核心技术为虚拟化技术。这种技术的优点是用户的系统可以不做任何改变接入采用虚拟化技术的云系统,是目前应用较为广泛的技术,特别是在桌面云计算技术上应用得较为成功;缺点是跨节点的资源整合代价较大;KVM、VMware都是这类技术的代表。1.1.3云计算技术分类并行计算实验室.按服务对象分类—公有云:指服务对象是面向公众的云计算服务,公有云对云计算系统的稳定性、安全性和并发服务能力有更高的要求。—私有云:指主要服务于某一组织内部的云计算服务,其服务并不向公众开放,如企业、政府内部的云服务。—公有云与私有云的界限并不是特别清晰,有时服务于一个地区和团体的云也被称为公有云。所以这种云计算分类方法并不是一种准确的分类方法,主要是在商业领域的一种称呼。1.1.3云计算技术分类并行计算实验室.按资源封装的层次分类—基础设施即服务(InfrastructureasaService,IaaS):把单纯的计算和存储资源不经封装地直接通过网络以服务的形式提供的用户使用。这类云计算服务用户的自主性较大,就像是发电厂将发的电直接送出去一样。这类云服务的对象往往是具有专业知识能力的资源使用者,传统数据中心的主机租用等可能作为IaaS的典型代表。1.1.3云计算技术分类并行计算实验室—平台即服务(PlatformasaService,PaaS):计算和存储资源经封装后,以某种接口和协议的形式提供给用户调用,资源的使用者不再直接面对底层资源。平台即服务需要平台软件的支撑,可以认为是从资源到应用软件的一个中间件,通过这类中间件可以大大减小应用软件开发时的技术难度。这类云服务的对象往往是云计算应用软件的开发者,平台软件的开发需要使用者具有一定的技术能力。1.1.3云计算技术分类并行计算实验室—软件即服务(SoftwareasaService,SaaS):将计算和存储资源封装为用户可以直接使用的应用并通过网络提供给用户;SaaS面向的服务对象为最终用户,用户只是对软件功能进行使用,无需了解任何云计算系统的内部结构,也不需要用户具有专业的技术开发能力。1.1.3云计算技术分类并行计算实验室(SaaS)平台即服务(PaaS)基础设施即服务(IaaS)硬件即服务四层模型对应的服务图1.1云计算服务体系结构—如图所示,云计算系统按资源封装的层次分为IaaS、PaaS、SaaS,分为对底层硬件资源不同级别的封装,从而实现将资源转变为服务的目的。—传统的信息系统资源的使用者通常是以直接占有物理硬件资源的形式来使用资源的,而云计算系统通过IaaS、PaaS、Saa