hadoop习题册

syktram
2 ℃
2019-10-24

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第一章大数据概述1.互联网的发展分为______个阶段。A．一B.三C.二D.四2.下列不属于大数据特点的是（）。A.种类和来源多样化B.数据量巨大C.分析处理速度快D.价值密度高3.互联网发展的第_____个时代为智能互联网。A.3.0B.4.0C.1.0D.2.04.关于大数据叙述不正确的一项是（）。A.大数据=“海量数据”+“复杂类型的数据”B.大数据是指在一定时间对内容抓取、管理和处理的数据集合C.大数据可以及时有效的分析海量的数据D.数据包括结构化数据、半结构化数据、结构化数据。5.下列数据换算正确的一项为（）。A.1YB=1024EBB.1TB=1024MBC.1PB==1024EBD.1024ZB=1EB6.结构化数据的表现形式为______。A.文本B.视图C.二维表D.查询7.结构化的数据，先有________,再有_________.A.数据结构B.结构数据C.内容结构D.结构内容8.结构化的数据，先有________,再有_________.A.数据结构B.结构数据C.内容结构D.结构内容9.软件是大数据的_________。A.核心B.部件C.引擎D.集合10.大数据技术不包括()。A.数据计算B.数据存储C.数据冗余D.数据采集11.大数据的特点不包括（）。A.数量大B.类型少C.速度快D.价值高第二章Hadoop简介1.下列对云栈架构层数不正确的一项为________。A.三层云栈架构B.四层云栈架构C.五层云栈架构D.六层云栈架构2.下列______不是云计算三层架构的概括。A.IaaSB.PaaSC.SaaPD.SaaS3.IaaS基础设施及服务可以称为______。A.弹性计算B.效用计算C.有效计算D.随需应用4.四层云栈模式，是将三层模式中的_________进行分解，分为两层，一层为硬件层，一层为虚拟资源层。A.硬件部分B.虚拟化部分C.基础设施D.平台5.五层云栈模式，第五层为______。A.固件/硬件层B.云基本资源层C.云应用程序层D.云软件环境层6.大数据是_____的应用。A.人工智能B.云计算C.物联网D.互联网7.hadoop______中第一阶段的输出可以作为下一阶段的输入。A.应用场景B.分布式计算C.分阶段计算D.高效处理8..hadoop______中将海量数据分割于多个节点，由每个节点并行计算，将得到的结果归并到输出。A.应用场景B.分布式计算C.分阶段计算D.高效处理9.下列选项中不是hadoop特点的是_____。A.可靠性B.扩容能力C.高效率D.成本高10.hadoop能可靠地存储和处理_____字节数据。A.TBB.PBC.YBD.ZB11.hadoop集群可以用___种模式进行。A.四B.三C.五D.二12.hadoop集群不可以在_____________进行。A.联机模式B.单机模式C.虚拟分布模式D.完全分布模式13.________模式：hadoop安装时的默认模式，不对配置文件进行修改。A.联机B.单机C.虚拟分布D.完全分布14.________模式：在一台机器上用软件模拟多节点集群。A.联机B.单机C.虚拟分布D.完全分布15.________模式：Hadoop安装运行在多台主机上，构成一个真实的hadoop集群，在所有的节点上都安装JDK和hadoop，相互通过高速局域网连接。A.联机B.单机C.虚拟分布D.完全分布16.完全分布式，各节点之间设置________，将各个从节点生成的公钥添加到主节点的信任列表。A.SSHB.JDKC.hadoopD.HDFS17.完全分布式，不需要修改的配置文件为_______。A.core-site.xmlB.hdfs-site.xmlC.hadoop-env.shD.mapred-site.xml18.HDFS架构中有两个_________。A.DataNodesB.JobTrackeC.NameNodeD.SecondayNameNode19.下列不是hadoop核心组件的是________。A.JobTrackerB.TaskTrackerC.HDFSD.Hbase20._______存储Hadoop集群中所有存储节点上的文件，为海量提供存储。A.JobTrackerB.TaskTrackerC.HDFSD.HBase第四章HDFS文件系统1.___________是指跨多台计算或服务器的文件或文件夹，数据存储在多台机器而不是单台机器上。A.分布式存储B.分页式存储C.链式存储D.顺序存储2.下列关于hadoop系统架构叙述不正确的一项为________。A.由一台Intelx86处理器的服务器或PC机组成。B.部署在低成本Intel/linux硬件平台上。C.通过高速局域网构成一个计算集群。D.各个节点上运行Linux操作系统。3.主节点程序__________。A.NameNodeB.DataNodeC.SecondaryNameNodeD.Jobtracker4.从节点程序__________。A.NameNodeB.DataNodeC.SecondaryNameNodeD.Jobtracker5.HDFS结构不包括________。A.Master体系结构B.主从服务器C.元数据服务器D.存储服务器6.HDFS分布式文件系统的特点为____________。A.半透明性B.低可用性C.可扩展性D.支持一个应用程序并发访问7.HDFS中的block默认保存____份。A.3B.2C.1D.不确定8.下列_______通常与NameNode在一个节点启动。A.SecondaryNameNodeB.DataNodeC.TaskTrackerD.Jobtracker9.HDFS每个文件被划分成______大小的多个block，属于同一个文件的blocks分散存储在不同DataNode上。A.32MBB.64MBC.128MBD.无法确定10.下面哪个程序负责HDFS数据存储？（）A.NameNodeB.JobTrackerC.DataNodeD.SecondaryNameNodeE.tasktracker11.NameNode是HDFS系统中的管理局节点，它管理文件系统的命名空间，记录每个文件数据块在DataNode上的位置和副本信息、协调客户端对文件的访问、记录命名空间内的改动和空间本身属性的改动。A.错误B.正确12.HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠行、高扩展性、高吞吐率等特征，适合的读写任务是________。A.一次写入，少次读取B.多次写入，少次读取C.多次写入，多次读取D.一次写入，多次读取13.关于HDFS的文件写入，正确的是_________。A.支持多用户对同一文件的写操作B.用户可以在文件任意位置进行修改C.默认将文件复制成三份存放D.复制的文件块默认存在同一机架上14.Client在HDFS上进行文件写入时，namenode根据文件大小和配置情况，返回部分datanode信息，谁负责将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块A.ClientB.NamenodeC.DatanodeD.Secondarynamenode15.HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括A．利用SequenceFile、MapFile、Har等方式归档小文件B．多Master设计C．Block大小适当调小D．调大namenode内存或将文件系统元数据存到硬盘里16.在HDFS的数据读取过程中，客服端首先调用________的实例的open()方法打开一个文件。A.DistributedFileSystemB.FileSystemC.FSDataOutputSystemD.OutputSystem17.在HDFS的数据读取过程中，DistributedFileSystem获取这些信息后，生成一个__________对象实例返回给客户端。A.DistributedFileSystemB.FSDataInputSystemC.FSDataOutputSystemD.InputSystem18.在HDFS的数据读取过程中，客户端读取完所有数据块后，调用___________的close()接口关闭这个文件。A.DistributedFileSystemB.FSDataInputSystemC.FSDataOutputSystemD.InputSystem19.在HDFS的数据写入过程中，客服端首先调用________的实例的create()方法打开一个文件。A.DistributedFileSystemB.FileSystemC.FSDataOutputSystemD.OutputSystem20.在HDFS的数据写入过程中，客户端写完所有数据块后，调用___________的close()方法结束这次文件写入操作。A.DistributedFileSystemB.FSDataInputSystemC.FSDataOutputSystemD.InputSystem21.HDFS的错误检测不包括_________。A.NameNode检测B.DataNode检测C.数据错误检测D.冗余检测第五章MapReduce原理与编程1.MapReduce应用于__________的数据处理。A.小规模B.中小规模C.大规模D.超大规模2.MapReduce能处理的海量数据大于______。A.1TBB.10GBC.10TBD.1PB3.下列关于MapReduce说法不正确的是________。A.MapReduce是一种计算框架B.MapReduce的核心思想是“分而治之”C.MapReduce是一个串行的编程模型D.MapReduce来源于Google的学术论文4.下列关于MapReduce的特性叙述正确的一项是_________。A.自动实现分布式串行计算B.自动实现分页式并行计算C.容错，提供状态监控工具D.不容错，提供状态监控工具5.在分布式并行计算体系中，________采用一个指令流处理单个数据流。A.SISDB.SIMDC.MISDD.MIMD6.在分布式并行计算体系中，________采用多个指令流同时处理多个数据流。A.SISDB.SIMDC.MISDD.MIMD7.关于集群的特点下列叙述正确的一项是_________。A.系统吞吐量小B.可靠性高C.扩展性弱D.性价比低8.下列关于MapReduce的基本思想叙述不正确的一项是_________。A.对相互间具有计算机以来关系的大数据进行分而治之。B.用Map和Reduce两个函数提供了高层并行编程抽象模型。C.提供了同一框架D.为程序员隐藏系统细节9.下列关于MPI叙述不正确的一项是________。A.MPI是一个信息传递应用程序的接口B.MPI程序经常在共享内存的机器上使用C.MPI并行计算增加高层并行编程模型D.MPI缺少统一的计算框架支持10.下列关于MapReduce计算原理叙述不正确的一项是________。A.将大数据集划分为小数据集，小数据集划分为更小数据集B.将最终划分的小数据分发布到集群节点上C.以串行的方式完成计算处理D.将计算结果递归融汇，得到最后的结果11.下列关于Map/Reduce并行计算模型叙述正确的一项为________。A.Map/Reduce把待处理的数据集分割成许多大的数据块B.大数据块经Map()函数并行处理后输出新的中间结果C.reduce()函数把多任务处理后的中间结果进行汇总D.reduce阶段的作用接受来自输出列表的迭代器12.在MapReduce计算架构中，_________组件属于hadoop的软件模块。A.ClientB.JobTrackerC.TaskTrackerD.Task13.在MapReduce计算架构中，_________组件运