Chapter2-第二章-大数据处理架构Hadoop(2016年2月24日版本)

星轻松
2 ℃
2020-07-13

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第二章大数据处理架构Hadoop《大数据技术原理与应用》提纲•2.1概述•2.2Hadoop项目结构•2.3Hadoop的安装与使用•2.4Hadoop集群的部署与使用2.1概述•2.1.1Hadoop简介•2.1.2Hadoop发展简史•2.1.3Hadoop的特性•2.1.4Hadoop的应用现状2.1.1Hadoop简介•Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构•Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中•Hadoop的核心是分布式文件系统HDFS（HadoopDistributedFileSystem）和MapReduce•Hadoop被公认为行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力•几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务，如谷歌、雅虎、微软、思科、淘宝等，都支持Hadoop2.1.2Hadoop发展简史•Hadoop最初是由ApacheLucene项目的创始人DougCutting开发的文本搜索库。Hadoop源自始于2002年的ApacheNutch项目——一个开源的网络搜索引擎并且也是Lucene项目的一部分•在2004年，Nutch项目也模仿GFS开发了自己的分布式文件系统NDFS（NutchDistributedFileSystem），也就是HDFS的前身•2004年，谷歌公司又发表了另一篇具有深远影响的论文，阐述了MapReduce分布式编程思想•2005年，Nutch开源实现了谷歌的MapReduceHadoop的标志2.1.2Hadoop发展简史•到了2006年2月，Nutch中的NDFS和MapReduce开始独立出来，成为Lucene项目的一个子项目，称为Hadoop，同时，DougCutting加盟雅虎•2008年1月，Hadoop正式成为Apache顶级项目，Hadoop也逐渐开始被雅虎之外的其他公司使用•2008年4月，Hadoop打破世界纪录，成为最快排序1TB数据的系统，它采用一个由910个节点构成的集群进行运算，排序时间只用了209秒•在2009年5月，Hadoop更是把1TB数据排序时间缩短到62秒。Hadoop从此名声大震，迅速发展成为大数据时代最具影响力的开源分布式开发平台，并成为事实上的大数据处理标准2.1.3Hadoop的特性Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性：•高可靠性•高效性•高可扩展性•高容错性•成本低•运行在Linux平台上•支持多种编程语言2.1.3Hadoop的应用现状•Hadoop凭借其突出的优势，已经在各个领域得到了广泛的应用，而互联网领域是其应用的主阵地•2007年，雅虎在Sunnyvale总部建立了M45——一个包含了4000个处理器和1.5PB容量的Hadoop集群系统•Facebook作为全球知名的社交网站，Hadoop是非常理想的选择，Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面•国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等，其中，淘宝的Hadoop集群比较大2.1.3Hadoop的应用现状Hadoop在企业中的应用架构2.1.4ApacheHadoop版本演变•ApacheHadoop版本分为两代，我们将第一代Hadoop称为Hadoop1.0，第二代Hadoop称为Hadoop2.0•第一代Hadoop包含三个大版本，分别是0.20.x，0.21.x和0.22.x，其中，0.20.x最后演化成1.0.x，变成了稳定版，而0.21.x和0.22.x则增加了NameNodeHA等新的重大特性•第二代Hadoop包含两个版本，分别是0.23.x和2.x，它们完全不同于Hadoop1.0，是一套全新的架构，均包含HDFSFederation和YARN两个系统，相比于0.23.x，2.x增加了NameNodeHA和Wire-compatibility两个重大特性2.1.4ApacheHadoop版本演变•ApacheHadoop•Hortonworks•Cloudera（CDH：ClouderaDistributionHadoop）•MapR•……2.1.5Hadoop各种版本选择Hadoop版本的考虑因素：•是否开源（即是否免费）•是否有稳定版•是否经实践检验•是否有强大的社区支持2.1.5Hadoop各种版本2.2Hadoop项目结构Hadoop的项目结构不断丰富发展，已经形成一个丰富的Hadoop生态系统2.2Hadoop项目结构组件功能HDFS分布式文件系统MapReduce分布式并行编程模型YARN资源管理和调度器Tez运行在YARN之上的下一代Hadoop查询处理框架HiveHadoop上的数据仓库HBaseHadoop上的非关系型的分布式数据库Pig一个基于Hadoop的大规模数据分析平台，提供类似SQL的查询语言PigLatinSqoop用于在Hadoop与传统数据库之间进行数据传递OozieHadoop上的工作流管理系统Zookeeper提供分布式协调一致性服务Storm流计算框架Flume一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统AmbariHadoop快速部署工具，支持ApacheHadoop集群的供应、管理和监控Kafka一种高吞吐量的分布式发布订阅消息系统，可以处理消费者规模的网站中的所有动作流数据Spark类似于HadoopMapReduce的通用并行框架2.3Hadoop的安装与使用详细安装教程请参考厦门大学数据实验室出品的《大数据技术原理与应用第二章大数据处理架构Hadoop学习指南》访问地址：•2.3.1Hadoop安装之前的预备知识•2.3.2安装Linux虚拟机•2.3.3安装双操作系统•2.3.4详解Hadoop的安装与使用安装之前的预备知识（一）Linux的选择（1）选择哪个Linux发行版？•在Linux系统各个发行版中，CentOS系统和Ubuntu系统在服务端和桌面端使用占比最高，网络上资料最是齐全，所以建议使用CentOS或Ubuntu•在学习Hadoop方面，虽然两个系统没有多大区别，但是推荐使用Ubuntu操作系统（2）选择32位还是64位？•如果电脑比较老或者内存小于2G，那么建议选择32位系统版本的Linux•如果内存大于4G，那么建议选择64位系统版本的Linux2.3.1Hadoop安装之前的预备知识（二）系统安装方式：选择虚拟机安装还是双系统安装•建议电脑比较新或者配置内存4G以上的电脑可以选择虚拟机安装•电脑较旧或配置内存小于等于4G的电脑强烈建议选择双系统安装，否则，在配置较低的计算机上运行LInux虚拟机，系统运行速度会非常慢•鉴于目前教师和学生的计算机硬件配置一般不高，建议在实践教学中采用双系统安装，确保系统运行速度2.3.1Hadoop安装之前的预备知识（三）关于Linux的一些基础知识•Shell•是指“提供使用者使用界面”的软件（命令解析器），类似于DOS下的command和后来的cmd.exe。它接收用户命令，然后调用相应的应用程序•sudo命令•sudo是ubuntu中一种权限管理机制，管理员可以授权给一些普通用户去执行一些需要root权限执行的操作。当使用sudo命令时，就需要输入您当前用户的密码•输入密码•在Linux的终端中输入密码，终端是不会显示任何你当前输入的密码，也不会提示你已经输入了多少字符密码，读者不要误以为键盘没有响应•输入法中英文切换•linux中英文的切换方式是使用键盘“shift”键来切换，也可以点击顶部菜单的输入法按钮进行切换。Ubuntu自带的Sunpinyin中文输入法已经足够读者使用•Ubuntu终端复制粘贴快捷键•在Ubuntu终端窗口中，复制粘贴的快捷键需要加上shift，即粘贴是ctrl+shift+v2.3.1Hadoop安装之前的预备知识（四）Hadoop安装方式•单机模式：Hadoop默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。非分布式即单Java进程，方便进行调试•伪分布式模式：Hadoop可以在单节点上以伪分布式的方式运行，Hadoop进程以分离的Java进程来运行，节点既作为NameNode也作为DataNode，同时，读取的是HDFS中的文件•分布式模式：使用多个节点构成集群环境来运行Hadoop2.3.2安装Linux虚拟机一、材料和工具1、下载VirtualBox虚拟机软件2.下载UbuntuLTS14.04ISO映像文件二、步骤（一）确认系统版本如果选择的系统是64位Ubuntu系统，那么在安装虚拟机前，我们还要进入BIOS开启CPU的虚拟化2.3.2安装Linux虚拟机(二)安装前的准备1.打开VirtualBox，点击“创建”按钮，创建一个虚拟机2.给虚拟机命名，选择操作系统，版本3.选择内存大小，这里设置的1024M4.创建虚拟硬盘5.选择虚拟硬盘文件类型VDI6.虚拟硬盘选择动态分配7.选择文件存储的位置和容量大小8.点击创建2.3.2安装Linux虚拟机(三)安装Ubuntu2.3.3安装双操作系统•第一步：制作安装U盘•具体可参考百度经验文章••第二步：双系统安装•具体可参考百度经验文章•安装后Window和Ubuntu14.04都可以用，默认windows优先启动可以在电脑启动时，选择进入Ubuntu系统而不是Windows系统2.3.4Hadoop的安装与使用（单机/伪分布式）Hadoop基本安装配置主要包括以下几个步骤：•创建Hadoop用户•SSH登录权限设置•安装Java环境•单机安装配置•伪分布式安装配置详细安装配置过程请参考厦门大学数据库实验室出品教程《Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04》在“大数据课程学生服务站”中的第二章《学习指南》有该教程链接地址创建Hadoop用户如果安装Ubuntu的时候不是用的“hadoop”用户，那么需要增加一个名为hadoop的用户首先按ctrl+alt+t打开终端窗口，输入如下命令创建新用户:$sudouseradd–mhadoop–s/bin/bash上面这条命令创建了可以登陆的hadoop用户，并使用/bin/bash作为shell接着使用如下命令设置密码，可简单设置为hadoop，按提示输入两次密码：$sudopasswdhadoop可为hadoop用户增加管理员权限，方便部署，避免一些对新手来说比较棘手的权限问题：$sudoadduserhadoopsudoSSH登录权限设置配置SSH的原因：Hadoop名称节点（NameNode）需要启动集群中所有机器的Hadoop守护进程，这个过程需要通过SSH登录来实现。Hadoop并没有提供SSH输入密码登录的形式，因此，为了能够顺利登录每台机器，需要将所有机器配置为名称节点可以无密码登录它们SSH是什么？SSH为SecureShell的缩写，是建立在应用层和传输层基础上的安全协议。SSH是目前较可靠、专为远程登录会话和其他网络服务提供安全性的协议。利用S