基于AmbariHadoop2.0及Spark安装部署1、Ambari简介Ambari是hadoop分布式集群配置管理工具,是由hortonworks主导的开源项目。Ambari项目目标是不断完善hadoop集群的配置、管理和监控,使得hadoop集群管理更加简单。Ambari包含一系列APIs集合和一个基于浏览器的管理界面。Ambari提供给Hadoop集群管理员以下功能:(1)配置集群Ambari提供简易的、向导式的Hadoop组件安装,并且没有机器节点数目限制。Ambari能够直接操作集群配置。(2)管理集群Ambari提供了对Hadoop组件服务启动、停止和重新配置的中央管理能力。(3)监控集群Ambari利用Ganglia进行数据收集,并提供了仪表盘用于监控集群状态;Ambari利用Nagios对集群状态进行预警,并在集群状态异常时通过邮件向管理员报告。2、基于Ambari的Hadoop2.0安装部署2.1安装前准备2.1.1机器配置软件环境操作系统:CentOS6.364bitJDK:1.764bit硬件环境CPU:24Core2.00GHz/Core内存:96G硬盘空间:1.78TB节点数:4台2.1.2主机名修改1、hostname主机名[root@localhost~]#sudohostnamemaster2、修改network文件[root@localhost~]#sudovi/etc/sysconfig/network将里面的hostname改成你自己想要设置的。然后重启终端,主机名已经修改完成。对于集群中的其他主机修改办法相同。下面为集群机器角色分工:IPhostname角色服务10.1.9.69master管理节点AmbariServer10.1.9.75datanode01计算节点AmbariAgent10.1.9.76datanode02计算节点AmbariAgent10.1.9.77datanode03计算节点AmbariAgent*注:本文档对应所有Hadoop组件安装配置都在root用户下进行。2.1.3主机名ip对应[root@master~]$sudovi/etc/hosts在/etc/hosts中添加集群机器的主机名和IP,对于集群中的其他主机修改办法相同。修改后如下图所示:*注:红色为修改部分2.1.4无密码通信在master、datanode01、datanode02、datanode03上执行:这个命令用于生成无密码密钥对,询问其保存路径时直接回车采用默认路径。生成的密钥对为id_rsa和id_rsa.pub,默认存储在/root/.ssh目录下。接着将datanode01、datanode02、datanode03上的id_rsa.pub都复制到master的/root/.ssh目录下:*注:datanode02、datanode03类似。接着在master上做如下配置,把master、datanode01、datanode02、datanode03的id_rsa.pub都追加到授权的key里:*注:datanode02、datanode03类似。最后将master的authorized_keys分发到datanode01、datanode02、datanode03的/root/.ssh目录下:*注:datanode02、datanode03类似。这样就完成了集群各个节点的无密码通信,下面针对这一步做一些测试,如果出现上面的运行提示,说明master到datanode01的无密码通信成功。类似可以测试datanode01到master的无密码通信,以及master、datanode01、datanode02、datanode03之间的无密码通信。*注:在测试无密码通信的过程中,第一次可能会出现输入密码的情况,在无密码通信配置正确的情况下,以后不会再需要输入密码。2.1.5开启ntp服务在master、datanode01、datanode02、datanode03上执行:2.1.6关闭iptables在master、datanode01、datanode02、datanode03上执行:2.1.7关闭selinux在master、datanode01、datanode02、datanode03上执行:将SELINUX=disabled设置为disabled。然后执行:最后重启linux系统。2.1.8本地源搭建为了快速安装Hadoop2.0相关组件,采用了搭建本地源方式进行离线安装(NoInternetAccess)。1、源获取AmbariRepositories文件存放位置(HTTP服务器目录)文件存放位置(HTTP服务器目录)(HTTP服务器目录)wget、将获取的TAR包进行解压TAR包解压位置ambari-1.6.1-centos6.tar.gz{web-server-directory}HDP-2.1.5.0-centos6-rpm.tar.gz{web-server-directory}/hdpHDP-UTILS-1.1.0.17-centos6.tar.gz{web-server-directory}/hdp3、确认浏览器可以访问本地源源URLAmbariBaseURLhttp://{web-server}/ambari/{$os}/1.x/updates/1.6.1HDPBaseURLhttp://{web-server}/hdp/HDP/{$os}/2.x/updates/{$latest}HDP-UTILSBaseURLhttp://{web-server}/hdp/HDP-UTILS-{$version}/repos/{$os}*本地源示例:AmbariBaseURL:://10.1.9.207/hdp/HDP/centos6/2.x/updates/2.1.5.0/HDP-UTILSBaseURL、ambari.repo修改将[Updates-ambari-1.6.1]下baseurl修改为AmbariBaseURL,如下图所示为示例修改。2.1.9MySQL安装MySQL通过yum进行安装:启动MySQL:设置MySQL开机启动:2.2AmbariServer安装配置2.2.1AmbariServer安装在安装AmbariServer之前,首先确认本地源配置情况,如下所示:如果出现以下提示,说明本地源配置正常。下面开始安装AmbariServer:2.2.2AmbariServer配置1、登录MySQL执行以下语句,用于建立ambari、hive和oozie用户,并给相应用户赋予权限。createdatabaseambari;GRANTALLPRIVILEGESON*.*TO'ambari'@'master'IDENTIFIEDBY'ambari'WITHGRANTOPTION;GRANTALLPRIVILEGESON*.*TO'ambari'@'%'IDENTIFIEDBY'ambari'WITHGRANTOPTION;flushprivileges;useambari;source/var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sql;createdatabasehive;GRANTALLPRIVILEGESON*.*TO'hive'@'master'IDENTIFIEDBY'hive'WITHGRANTOPTION;GRANTALLPRIVILEGESON*.*TO'hive'@'%'IDENTIFIEDBY'hive'WITHGRANTOPTION;flushprivileges;usehive;source/var/lib/ambari-server/resources/stacks/HDP/2.1/services/HIVE/etc/hive-schema-0.13.0.mysql.sql;createdatabaseoozie;GRANTALLPRIVILEGESON*.*TO'oozie'@'master'IDENTIFIEDBY'oozie'WITHGRANTOPTION;GRANTALLPRIVILEGESON*.*TO'oozie'@'%'IDENTIFIEDBY'oozie'WITHGRANTOPTION;flushprivileges;2、将MySQLJDBC驱动JAR文件复制到/usr/share/java2.2.3AmbariServer启动完成上述配置之后,下面开始启动AmbariServer服务,如下所示:如果出现以下提示,说明AmbariServer正常启动。2.3Hadoop2.0集群安装部署2.3.1登陆ApacheAmbari在启动AmbariServer之后,通过浏览器访问Ambari安装向导。通过浏览器登录网址http://{main.install.hostname}:8080,然后在登陆界面输入默认用户名和密码(admin/admin),登陆界面如下图所示:2.3.2Welcome在“欢迎”页面,输入集群名称,然后点击“下一步”。2.3.3选择Hadoop集群版本在集群版本选择页面,选择你想要安装的版本。在{main.install.hostname}机器对应操作系统版本上修改HDP源相应BaseURL,然后点击“下一步”。2.3.4安装选项在安装选项页面,在目标机器文本框中输入集群所有机器的hostname,在机器注册信息文件导入框中导入{main.install.hostname}的私钥(id_rsa文件)。然后点击“注册和确认”按钮。2.3.5确认集群机器选择要注册的机器,这里四台机器全选:在所有机器注册成功之后,如下图所示:2.3.6选择服务2.3.7分配组件2.3.8分配角色2.3.9定制服务2.3.10信息确认2.3.11安装、启动及测试2.3.12完成3、spark安装部署3.1Spark安装部署Spark测试平台是在上述4台物理机上搭建的,测试平台环境配置如下:机器名配置角色软件安装master96GB内存,24CoreHadoop:NN/SN;Spark:master/clientHadoop2.4.0Hive0.13scala2.10.4Spark1.1.0datanode0196GB内存,24CoreH