云计算期末考试总结【强烈推荐】

wuyan1986
1 ℃
2020-04-24

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第一章什么是“新摩尔定律”：每18个月全球新增信息量是计算机有史以来全部信息量的总和。云计算具有哪些特点：（1）、超大规模（2）、虚拟化（3）、高可靠性（4）、通用性（5）、高可伸缩性、（6）、按需服务（7）、极其廉价云计算按照服务类型大致分为三类：将基础设施作为服务（Iaas）、将平台作为服务（Paas）、将软件作为服务（SaaS）什么是Iaas？将硬件设备等基础资源封装成服务供用户使用，如AWS的弹性计算云EC2和简单存储服务S3。什么是Paas？对资源的抽象层次更进一步，它提供用户应用程序的运行环境，典型的如GoogleAppEngine。什么是SaaS？它的针对性更强，它将某些特定应用软件功能封装成服务，如Salesforce公司提供的在线客户关系管理CRM服务。云计算技术体系结构分为四层：物理资源层、资源池层、管理中间件层和SOA构建层（管理中间件层和资源池层是云计算技术的最关键部分）物理资源层包括计算机、存储器、网络设施、数据库和软件。资源池层是将大量相同类型的资源构成同构或接近同构的资源池，如计算资源池、数据资源池。构建资源池更多的是物理资源的集成和管理工作。管理中间件层负责对云计算的资源进行管理，并对众多应用任务进行调度，使资源能够高效、安全地为应用服务。大数据具有4V+1C的特征：（1）、数据量大（2）、多样（3）、快速（4）、价值密度低（5）、复杂度全球企业的IT开销分为三部分:硬件开销、能耗和管理成本。云计算的优势：云计算有更低的硬件和网络成本、更低管理成本和电力成本以及更高的资源利用率。云计算与大数据之间的关系：大数据是需求，云计算是手段。没有大数据，就不需要云计算。没有云计算就无法处理大数据。什么是云计算：长定义：云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。短定义：云计算是通过网络按需提供可动态伸缩的廉价计算服务。云计算的管理中间件层:负责资源管理、任务管理、用户管理、和安全管理等工作。资源管理:负责均衡地使用云资源节点，检测节点的故障并试图恢复或屏蔽它，并对资源的使用情况进行监视统计；任务管理:负责执行用户或应用提交的任务，包括完成用户任务映像部署和管理、任务调度、任务管理、生命周期管理。简述亚马逊的云计算：AWS率先在全球提供了弹性计算云EC2和简单服务存储服务S3，为企业提供计算和存储服务。亚马逊是最大的服务商，谷歌是最大的云计算技术的使用者。第二章Google云计算技术包括：Google文件系统GFS、分布式计算编程模型MapReduce、分布式锁服务Chubby、分布式结构化数据表Bigtable。当前主流分布式文件系统有哪些?各有什么优缺点？答：RedHat的GFS（GlobalFileSystem）、IBM的GPFS、Sun的Lustre等。优缺点：①GFS采用廉价的商品机器构建分布式文件系统，同时将GFS的设计与Google应用的特点紧密结合，简化实现，GFS将容错的任务交给文件系统完成，利用软件的方法解决系统可靠性问题，使存储成本下降；GFS将服务器故障视为正常现象，并采用多种方法、从多个角度，使用不同的容错措施，确保数据存储的安全、保证提供不间断的数据存储服务。②IBMGPFS并行文件系统软件在设计上不存在任何性能瓶颈，因此GPFS并行文件系统可以充分发挥硬件系统的性能。换句话说，GPFS并行文件系统的性能完全取决于硬件配置的好坏，而文件系统软件本身对性能的影响微乎其微。IBMGPFS并行文件系统与其它并行文件系统之间最大的区别在于GPFS不需要专用的元数据（MetaData）管理服务器，所有元数据分散在磁盘阵列中，并可以由任何I/O节点管理。这样的设计避免了并行文件系统中最可能产生性能瓶颈的因素——MetaDataServer。③Lustre文件系统为例，它只对元数据管理器MDS提供容错解决方案，而对于具体的数据存储节点OST来说，则依赖其自身来解决容错的问题。例如，Lustre推荐OST节点采用RAID技术或SAN存储区域网来容错，但由于Lustre自身能提供数据存储的容错，一旦OST发生故障就无法恢复，因此对OST的稳定性就提出了相当高的要求，从而大大增加了存储的成本，而且成本会随着规模的扩大线性增长GFS容错机制包含：1、Master容错:Master上保存了GFS文件系统的三种元数据。（1）、命名空间，也就是整个文件系统的目录结构。（2）、Chunk与文件名的映射表（3）、Chunk副本的位置信息，每一个Chunk默认有三个副本。前两种GFS通过操作日志来提供容错功能。第三种直接保存各个ChunkServer上，当master发生故障时，迅速恢复以上元数据。为了防止master彻底死机，GFS提供了master远程的实时备份。2、ChunkServer容错：GFS采用副本的方式实现其容错。如果相关副本丢失或不可恢复，master自动将副本复制到其他ChunkServer.GFS把每一个文件划分成多个Chunk,MapReduce与传统的分布式程序设计相比的优点答：与传统的分布式程序设计相比，MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节，还提供了一个简单而强大的接口。Chubby的设计目标主要有？Paxos算法在Chubby中起什么作用?（1）、高可用性（2）、高扩展性（3）、支持粗粒度的建议性锁服务（4）、服务信息的直接存储（5）、支持通报机制（6）、支持缓存机制。Chubby内部一致性问题的实现用到Paxos算法什么是分布式结构化数据表Bigtable？Bigtable是Google开发的基于GFS和Chubby的分布式存储系统，它的设计应达到以下几个目标：（1）、广泛的适用性（2）、很强的可扩展性（3）、高可用性（4）、简单性Bigtable是:一个分布式多维映射表，表中的数据通过一个行关键字、一个列关键字以及一个时间戳进行索引。在Bigtable中Chubby主要有以下几个作用：（1）选取并保证同一时间内只有一个主服务器（MasterServer）（2）获取子表的位置信息（3）保存Bigtable的模式信息及访问控制列表Bigtable主要由三个部分组成：客户端程序库、一个主服务器和多个子表服务器Paxos算法中节点被分成了三种类型：proposers、acceptors、和learners,其中proposers提出决议，acceptors批准决议、learners获取并使用已经通过的决议。一个节点可以兼有多重类型，满足三个条件保持数据的一致性，（1）、决议只有在被Proposers提出后才能批准（2）、每次只能批准一个决议（3）、只有决议确定被批准后learners才能获取这个决议。Bigtable性能优化：1、局部性群组2、压缩3、布隆过滤器GFS将整个系统的节点分为哪几类角色：Client(客户端)、Master(主服务器)、ChunkServer(数据块服务器)。Master是GFS的管理节点，在逻辑上只有一个，他保存系统的元数据，负责整个文件系统的管理，是GFS文件系统中的“大脑”。ChunkServer负责具体的存储工作。数据以文件的形式存储在ChunkServer的个数可以有多个，他的数目直接决定了GFS的规模。GFS将文件按照固定大小进行分块，默认是64MB，每一块称为一个Chunk(数据块)，每个Chunk都有一个对应的索引号（Index）。GFS具有哪些特点：1、采用中心服务器模式：GFS采用中心服务器模式管理整个文件系统，增加新的ChunkServer是一件非常容易的事情。2、不缓存数据：缓存机制是提升文件系统的性能的一个重要手段，通用文件系统为了提高性能，一般需要实现复杂的缓存机制。GFS文件系统根据应用的特点，没有实现缓存，因为GFS的数据在ChunkServer上是以文件的形式存储。3、在用户态下实现4、只提供专用接口什么是MapReduce?Map（映射）Reduce（化简）是Google提出的一个软件架构，是一种处理海量数据的并行编程模式，用于大规模数据集的并行计算。第三章AWS提供的服务包括：弹性计算云EC2、简单存储服务S3、简单数据库服务SimpleDB、简单队列服务SQS、弹性MapReduce服务、内容推送服务、电子商务服务、FPS。改进的一致性哈希算法优点：可以减小数据分布不均衡的可能性。采用数据分区后，在添加或删除设备节点时，会引起娇小的数据传输。可以在很小的数据传输代价下，保证整个系统数据分布的均衡性。在Dynamo中添加一个新的节点时，原先各节点保存的数据是否需要改变？如果改变，应该如何变化？需要改变；原存储在前驱节点上的那部分数据会迁移到新的节点上。而其他节点保存的数据不变。同样，在删除节点时，被删除节点的数据会迁移到其前驱节点上，而对其他节点没有影响。私有IP、公有IP和弹性IP的区别在哪里？EC2的IP地址包括三大类:私有IP、公有IP和弹性IP。EC2的实例一旦被创建,就会动态地分配两个IP地址,即私有IP和公有IP。私有IP地址与实例相对应,由动态主机配置协议(DHCP)分配产生。公有IP地址和私有IP地址之间通过网络地址转换(NAT)技术实现相互之间的转换。公共IP和特定的实例相对应，在某个实例终结或被弹性IP地址替代之前，公共IP地址会一直存在，实例通过这个公有IP地址和外界通信。实例每次启动时,公有IP都会发生变化。弹性IP则是与用户账号绑定,使用时可以代替公有IP通过NAT的方式实现与私有IP转换,从而连接到EC2实例。地理区域和可用区域有哪些区别？AWS中采用了两种区域(Zone),地理区域(RegionZone)和可用区域(AvailabilityZone)。地理区域是按实际的地理位置划分的。可用区域是根据是否有独立的供电系统和冷却系统划分,通常将每个数据中心看作一个可用区域。EC2系统中包含多个地理区域,而每个地理区域又包含多个可用区域。Amazom云平台中，SQS的目的及组成部分，其中“消息”的格式是什么？简单队列服务（SQS）是Amazon为了解决其云计算平台之间不同组件的通信而设计开发的。SQS由三个基本部分组成：系统组件、队列、消息。系统组件是SQS的服务对象，而SQS则是组件之间沟通的桥梁。组件有双重角色，既是消息的发送者，也可以是消息的接受者。“消息”格式：消息由以下四部分组成：消息ID：由系统返回给用户，用来标识队列中的不同消息。接收句柄：当从队列中接收消息时就会从消息那里得到一个接收句柄，这个句柄可以用来对消息进行删除等操作。消息体：消息的正文部分，需要注意的是消息存放的是文本数据并且不能是URL编码方式。消息体摘要：消息体字符串的MD5校验和。非关系型数据库和传统关系数据库的区别1.数据模型关系数据库对数据有严格的约束，包括数据之间的关系和数据的完整性。非关系数据库的key-value存储形式中，key和value可以使用任意的数据类型。2.数据处理：关系数据库满足CAP原则的C和A，在P方面很弱，所以在可扩展性方面弱，所以导致其在可扩展性方面面临很多问题。非关系型数据库满足CAP原则的A和P，而在C方面较弱，所以使得其无法满足ACID要求。3.接口层关系型数据库都是以SQL语言对数据进行访问的，提供了强大的查询功能，并便于在各种关系数据库间移植。非关系型数据库对数据库的操作大多通过API来实现，支持简单的查询功能，且由于不同数据库之间API的不同而造成移植性较差。综上所述，关系数据库具有高一致性，在ACID方面很强，移植性很高；但在可扩展性方面能力较弱，只能通过提高服务的配置来提高处理能力。非关系型数据库具有很高的可扩展性，可以通过增加服务器数量来不断提高存储规模，具有很好的并发处理能力；但由于缺乏数据的一致性保证，所以处理事务性问题能力较弱，并且难以处理跨表，跨服务器的查询。第四章微软云计算平台包括几部分？每部分的作用是什么？当前版本的Wind