Hadoop云计算平台搭建方案一、平台搭建概述1.1总体思路针对于电网企业在营销服务领域展开的大数据分析处理,搭建Hadoop云计算平台进行海量数据存储,并作深层次加工、处理,挖掘出无法简单直观便可得到的新的模式,为电力企业的决策提供指导。平台采用Hadoop-2.2.0作为海量数据存储和分析工具,将其部署在4个物理计算机节点上,搭建Hadoop集群,其中1个节点作为master节点,其余3个作为slave节点。为了获取更好的稳定性,平台搭建在Linux系统(ubuntu-14.04-desktop-i386)环境下。1.2软件列表软件描述版本VMwareWorkstation虚拟化软件VMwareWorkstation10.0.2.46408UbuntuLinux操作系统ubuntu-14.04-desktop-i386JDKJava的软件开发工具包jdkl.8.0_20Hadoop开源的云计算基础框架Hadoop-2.2.0HBase分布式数据存储系统Hbase-0.96.2ZookeeperHadoop可靠协调系统Zookeeper-3.4.5Sqoop数据迁移工具Sqoop-1.99.31.3平台搭建总流程和节点信息一览表在平台搭建前,给出实现的总流程图和节点信息一览表,从而对平台搭建过程和各节点信息有一个全局的认识,平台搭建总流程如下图所示。创建虚拟机master,完成JDK、Hadoop等应用的安装和配置对虚拟机master进行克隆,得到的虚拟机分别作为slave1、slave2和slave3完成Zookeeper、HBase等其它分布式服务的部署,搭建Hadoop集群运行并测试Hadoop集群系统各节点信息如下表所示:二、基础平台的搭建步骤此次大数据存储和处理平台的搭建,需要4台物理节点来部署Hadoop平台环境。我们使用虚拟机软件VMwareWorkstation创建4台虚拟机,承载平台搭建工作。另外,由于对4台虚拟机的配置大部分是相同的,所以利用VMwareWorkstation的克隆功能,可以减少部署的工作量。2.1安装虚拟机软件VMwareWorkstation首先在4台PC机器上均安装虚拟化软件VMwareWorkstation,并输入相应的序列号。2.2在master节点上安装Linux系统Ubuntu在设定为masterPC节点上首先安装Linux系统(版本为ubuntu-11.04-desktop-i386),在安装过程中为提高后期安装软件的兼容性和稳定性,在系统语言上选择英语。创建用户名为“hadoop”的普通用户,设置统一的密码。安装完成后将系统的terminal命令窗口调出来,以便使用。同时,为实现虚拟机的Ubuntu系统与本机的Windows系统之间方便快捷的文字复制粘贴以及物理主机系统与虚拟机系统相互拖放文件进行共享,需要安装VMareTools工具,具体操作如下:启动虚拟机,进入Ubuntu系统,在VM菜单栏“虚拟机(M)”的下拉菜单点击“安装VMareTools(T)”后,会弹出一个“VMareTools”文件夹,里面包含VMareTools的安装包VMwareTools-9.6.2-1688356.tar.gz,将该安装包拷贝到/home/hadoop目录下,输入命令进行解压安装:tarxzvfVMwareTools-9.6.2-1688356.tar.gz此时在/home/hadoop/目录下产生vmware-tools-distrib文件夹,进入该目录,通过在terminal终端输入相应命令,运行vmware-install.pl脚本:cd/home/hadoop/vmware-tools-distrib//进入目录sudo./vmware-install.pl//执行vmware-install.pl脚本按提示多次“回车”直至显示安装成功的信息,再重启系统即可。在完成上述操作后,为保障Hadoop集群各节点之间的无障碍通信,需关闭系统防火墙。在重启系统后,在terminal终端输入命令:sudoufwdisable当显示“Firewallstoppedanddisableonsystemstartup”时表示防火墙已关闭,若后续服务部署过程中机器重启无法实现节点之间的相互通信,可尝试检查防火墙是否关闭。2.3master节点的JDK安装与配置由于Hadoop底层实现是用JAVA语言编写的,因此它的运行离不开JAVA运行环境(JRE)的支持,这就需要JDK。JDK有多个更新版本,安装过程大致相同,这里选择安装最近更新的版本jdkl.8.0_20。先将安装文件jdk-8u20-linux-i586.gz拷贝到master节点的目录/home/hadoop/下,在终端输入命令:tarxzvfjdk-8u20-linux-i586.gz机器名IP地址用户名充当角色master172.19.17.102hadoopJobTracker、Namenodeslave1172.19.17.104hadoopTaskTracker、Datanodeslave2172.19.17.105hadoopTaskTracker、Datanodeslave3172.19.17.106hadoopTaskTracker、Datanode进行解压安装,此时会产生文件夹“jdk1.8.0_20”,所得的JDK安装路径为“/home/hadoop/jdk1.8.0_20”。安装结束后打开/etc/profile文件,配置JDK的classpath:在terminal终端键入命令:sudogedit/etc/profile打开profile文件,在文件末尾加上以下语句:#setjavaenvironmentexportJAVA_HOME=/home/hadoop/jdk1.8.0_20exportJRE_HOME=/home/hadoop/jdk1.8.0_20/jreexportCLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATHexportPATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH///home/hadoop/是hadoop文件夹所在路径,不可照抄,要以实际路径为准保存之后,在terminal终端输入命令:source/etc/profile使其生效。并键入命令java–version查看是否配置成功,若出现如下信息,则表示java环境变量配置成功。javaversion1.8.0_20Java(TM)SERuntimeEnvironment(build1.8.0_20-b26)JavaHotSpot(TM)ClientVM(build25.20-b23,mixedmode)注:以上灰色背景标注的文字表示的Linux命令,红色字体颜色标注的文本表示的需要写入的Hadoop环境配置文件中的信息,绿色字体颜色标注的小5号文本表示注释,下同2.4master节点的hadoop安装与配置Hadoop的安装是Hadoop平台搭建的关键步骤,将从节点目录/home/hadoop/下,进行解压安装,输入命令:tarxzvfhadoop-2.2.0.tar.gz安装完成后配置环境变量:在系统文件/etc/profile以及Hadoop的安装目录/home/hadoop/hadoop-2.2.0文件夹下的多个文件添加相应的配置信息。2.4.1添加环境变量打开/etc/profile文件,在terminal终端键入命令:sudogedit/etc/profile调出profile文件,在文件末尾加上:#sethadoopenvironmentexportHADOOP_HOME=/home/hadoop/hadoop-2.2.0exportPATH=$HADOOP_HOME/bin:$PATHexportPATH=$HADOOP_HOME/sbin:$PATH然后保存,在终端键入命令source/etc/profile使其生效。异常处理1:问题:保存添加的环境变量并使其生效后,terminal可能会出现如下警告:(gedit:2949):Gtk-WARNING**:Attemptingtosetthepermissionsof`/root/.local/share/recently-used.xbel',butfailed:Nosuchfileordirectory(gedit:2949):Gtk-WARNING**:Attemptingtostorechangesinto`/root/.local/share/recently-used.xbel',butfailed:Failedtocreatefile'/root/.local/share/recently-used.xbel.MN6R3V':Nosuchfileordirectory(gedit:2949):Gtk-WARNING**:Attemptingtosetthepermissionsof`/root/.local/share/recently-used.xbel',butfailed:Nosuchfileordirectory解决方法:只需直接在终端中输入命令:sudomkdir-p/root/.local/share/,创建警告信息中所提示的目录即可。若无视警告重启ubuntu后将会出现以下情况:输入密码无法进入系统,一直处于输入密码后又跳转回输入密码的界面。此时的解决方法是:在输入密码界面同时按下alt+ctrl+F2进入ubuntu命令模式,并使用root用户及对应密码登陆系统,然后键入:/usr/bin/vi/etc/profile打开etc/profile文件,找到最近在末尾加上的hadoop配置文件,按delete键删除这些行,然后键入命令:wq!(注意此处有冒号,不可省略)保存文件。然后同时按下ctrl+alt+del重启系统即可使系统恢复正常登陆,然后按照上述方法重新配置。2.4.2目录设置在普通用户hadoop下创建hadoop的数据存储目录(若使用root用户创建上述文件夹则会因权限问题导致无法向这些文件夹中写入并读取数据),可自行选择数据存储的路径,我们选择在/home/hadoop/文件夹下创建dfs和tmp作为数据存储与交换的目录,并在dfs文件夹下创建name和data两个子文件夹。分别执行命令:mkdir/home/hadoop/dfs/name//创建/home/hadoop/下dfs的子文件夹namemkdir/home/hadoop/dfs/data//创建/home/hadoop/下dfs的子文件夹datamkdir/home/hadoop/tmp//创建/home/hadoop/tmp2.4.3/home/hadoop/hadoop-2.2.0/etc/hadoop下配置文件的修改接下来在/home/hadoop/hadoop-2.2.0/etc/hadoop目录下需要修改以下文件的内容:在slaves文件下分别写入三个slave节点的名称,完成节点信息配置,并分别通过对hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、yarn-env.sh等文件分别进行Hadoop核心文件配置、HDFS配置、Mapreduce配置和Yarn配置。对/home/hadoop/hadoop-2.2.0/etc/hadoop文件夹下的几个文件做一定的修改,配置每个文件时先单击文件右键,选择“openwithtexteditor”方式打开,按照以下方式修改,需要配置的文件如下:(1)配置hadoop-env.sh文件,打开该文件,检索“#