Hadoop云计算平台实验报告V1.1

381371593
0 ℃
2020-02-14

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第1页共35页Hadoop云计算平台实验报告V1.1第2页共35页目录1实验目标...................................................................................................................................32实验原理...................................................................................................................................42.1HADOOP工作原理....................................................................................................................42.2实验设计.................................................................................................................................62.2.1可扩展性.........................................................................................................................62.2.2稳定性.............................................................................................................................72.2.3可靠性.............................................................................................................................73实验过程...................................................................................................................................93.1实验环境.................................................................................................................................93.1.1安装Linux操作系统.....................................................................................................103.1.2安装Java开发环境......................................................................................................143.1.3安装SSH........................................................................................................................153.1.4配置网络.......................................................................................................................153.1.5创建SSH密钥安全联机...............................................................................................193.1.6配置Hadoop云计算系统............................................................................................193.1.7配置Slaves节点...........................................................................................................233.1.8格式化Hadoop系统....................................................................................................233.1.9启动Hadoop集群........................................................................................................233.22．实验过程.........................................................................................................................253.2.1可扩展性.......................................................................................................................253.2.1.1动态扩展.................................................................................................................................253.2.1.2动态缩减.................................................................................................................................273.2.2稳定性...........................................................................................................................283.2.3可靠性...........................................................................................................................313.2.4MapReduce词频统计测试...............................................................................................324实验总结.................................................................................................................................35第3页共35页1实验目标1.掌握Hadoop安装过程2.理解Hadoop工作原理3.测试Hadoop系统的可扩展性4.测试Hadoop系统的稳定性5.测试Hadoop系统的可靠性第4页共35页2实验原理2.1Hadoop工作原理Hadoop是Apache开源组织的一个分布式计算框架，可以在大量廉价的硬件设备组成集群上运行应用程序，为应用程序提供一组稳定可靠的接口，旨在构建一个具有高可靠性和良好扩展性的分布式系统。Hadoop框架中最核心的设计就是：MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统（HadoopDistributedFileSystem）的缩写，为分布式计算、存储提供了底层支持。HDFS采用C/S架构，对外部客户机而言，HDFS就像一个传统的分级文件系统。可以对文件执行创建、删除、重命名或者移动等操作。HDFS中有三种角色：客户端、NameNode和DataNode。HDFS的结构示意图见图1。NameNode是一个中心服务器，存放着文件的元数据信息，它负责管理文件系统的名字空间以及客户端对文件的访问。DataNode节点负责管理它所在节点上的存储。NameNode对外暴露了文件系统的名字空间，用户能够以文件的形式在上面存储数据。从内部看，文件被分成一个或多个数据块，这些块存储在一组DataNode上，HDFS通过块的划分降低了文件存储的粒度，通过多副本技术和数据校验技术提高了数据的高可靠性。NameNode执行文件系统的名字空间操作，比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体DataNode节点的映射。DataNode负责存放数据块和处理文件系统客户端的读写请求。在NameNode的统一调度下进行数据块的创建、删除和复制。第5页共35页图1HDFS体系结构示意图客户端要访问一个文件，首先从NameNode获得组成文件的数据块的位置列表；然后直接与相应的DataNode建立连接并读取文件数据。数据流不经过NameNode节点。Hadoop通过MapReduce进行海量数据处理，它是一个并行处理大规模数据的软件框架。MapReduce的设计思想基于“移动计算靠近存储”，在面向海量数据处理的技术中，通过网络将数据传输到用于计算的节点所消耗的开销远大于处理数据所需要的开销，而MapReduce将数据的处理任务交给了存储该数据的节点，避免了数据传输所带来的开销。MapReduce的根源是函数性变成种的map和reduce函数，它由两个包含多个实例（许多的Map和Reduce）的操作组成。Map函数接收一组数据并将其转换成一个键/值对列表，输入域中的每个元素对应于一个键/值对。Reduce函数接收Map函数生成列表，然后根据它们的键（为每个键生成一个键/值对）缩小键/值对列表。MapReduce的数据处理流程示意图如图2所示：MapReduce也采用C/S架构，其中JobTracker负责作业调度，TaskTracker负责任务执行。用户提交基于MapReduce变成规范的作业之后，JobTracker根据作业的输入数据的分布情况（在HDFS之中），将Map任务指派到存储这些数据块的DataNode上执行（DataNode也充当了TaskTracker），Map完成之后会根据用户提交的Reduce任务数对中间结果进行分区存储在Map任务节点本地的磁盘，执行Reduce任务的节点（由JobTracker指派）通过轮询的方式从各Map节点拉取Reduce的输入数据，并在Reduce任务节点的内存进行排序后进行合并作为reduce函数的输入，输出结果又输出到HDFS中进行