Hadoop环境的搭建

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Hadoop环境的搭建主讲内容Hadoop项目简介搭建Hadoop的伪分布环境Hadoop常见命令Hadoop是什么?适合大数据的分布式存储与计算平台作者:DougCutting受Google三篇论文的启发版本Apache官方版本(1.1.2)Cloudera使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些patch。推荐使用。YahooYahoo内部使用的版本,发布过两次,已有的版本都放到了Apache上,后续不在继续发布,而是集中在Apache的版本上。Hadoop核心项目HDFS:HadoopDistributedFileSystem分布式文件系统MapReduce:并行计算框架HDFS的架构主从结构主节点,只有一个:namenode从节点,有很多个:datanodesnamenode负责:维护集群内的元数据,对外提供创建、打开、删除和重命名文件或目录的功能接收用户操作请求维护文件系统的目录结构管理文件与block之间关系,block与datanode之间关系datanode负责:存储数据,并提负责处理数据的读写请求存储文件文件被分成block存储在磁盘上为保证数据安全,文件会有多个副本DataNode定期向NameNode上报心跳,NameNode通过响应心跳来控制DataNode。MapReduce的架构Map负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现map和reduce两个接口,即可完成TB级数据的计算。MapReduce的实现也采用了Master/Slave结构。Master叫做JobTracker,而Slave叫做TaskTracker。用户提交的计算叫做Job,每一个Job会被划分成若干个Tasks。JobTracker负责Job和Tasks的调度,而TaskTracker负责执行Tasks。MapReduce的架构主从结构主节点,只有一个:JobTracker从节点,有很多个:TaskTrackersJobTracker负责:接收客户提交的计算任务把计算任务分给TaskTrackers执行监控TaskTracker的执行情况TaskTrackers负责:执行JobTracker分配的计算任务9Hadoop的特点扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。Hadoop集群的物理分布单节点物理结构Hadoop部署方式本地模式伪分布模式集群模式本地模式本地模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。伪分布模式伪分布模式是在一台机器上模拟分布式部署,方便学习和调试。集群模式集群模式是在多个机器上配置hadoop,是真正的“分布式”。安装前准备软件必备软件:VitualVox或vmwarecentosjdk-6u24-linux-xxx.binhadoop-1.1.2.tar.gz其他软件:Xfp4XShell伪分布模式安装步骤1.安装虚拟机软件2.创建一个虚拟机,安装linux操作系统3.设置虚拟机的网络、修改ip4.安装Xfp4与Xshell5.修改hostname6.设置ssh自动登录7.安装jdk8.安装hadoop第一步:安装虚拟机软件VMwareVirtualBox安装VMware后打开第二步:创建虚拟机,安装linux点击该按钮第二步:创建虚拟机,安装linux第二步:创建虚拟机,安装linux第二步:创建虚拟机,安装linux第二步:创建虚拟机,安装linux第二步:创建虚拟机,安装linux第三步:设置虚拟机的网络、修改ip对虚拟机网络进行配置,以便于远程登录到虚拟机,方便文件的传输。VMWare提供了三种工作模式,它们是bridged(桥接模式)、NAT(网络地址转换模式)和host-only(主机模式)第三步:设置虚拟机的网络、修改ip第三步:设置虚拟机的网络、修改ip第三步:设置虚拟机的网络、修改ip安装完VMwareworkstation之后,网络连接里会多出两个虚拟网卡:VMwareNetworkAdapterVMnet1和VMwareNetworkAdapterVMnet8.虚拟机里安装的系统就是靠这两个虚拟网卡来联网的.VMnet1是host-only联网需要的虚拟网卡,VMnet8是NAT联网需要的虚拟网卡。第三步:设置虚拟机的网络、修改ip桥接方式(Bridged)在桥接方式下,VMware模拟一个虚拟的网卡给客户系统,主系统对于客户系统来说相当于是一个桥接器。客户系统好像是有自己的网卡一样,自己直接连上网络,也就是说客户系统对于外部直接可见。简单地说,虚拟主机和物理主机在同一个网段,就相当于局域网里多出来了一台电脑在上网,而这台电脑就是虚拟机里的系统。物理主机和虚拟主机的IP处于同一网段,DNS和网关是一样的,这样就实现了物理主机和虚拟主机,虚拟主机和外网的相互通信。桥接方式(Bridged)网络地址转换方式(NAT)在这种方式下,客户系统不能自己连接网络,而必须通过主系统对所有进出网络的客户系统收发的数据包做地址转换。在这种方式下,客户系统对于外部不可见。Host-Only联网方式与NAT唯一的不同的是,此种方式下,没有地址转换服务,因此,默认情况下,虚拟机只能到主机访问而不能访问Internet,这也是hostonly的名字的意义。常见的linux命令1.命令cd(changedirectory):跳转到其他目录2.命令ls:查看目录下包含什么东西ls-l:显示详细信息ls-a:显示隐藏文件3.命令pwd:显示当前所处位置的4.命令clear:清屏5.命令mkdir:创建文件夹mkdir-p:递归创建上级文件夹6.命令touch:创建空白文件7.命令more:查看文件内容常见的linux命令8.命令rm:删除文件命令rmdir:删除文件夹命令rm-rf:删除文件(夹),不论层级多深,一概删除,并且不给出提示9.命令cp(copy):复制文件,还有一个功能是创建新文件10.命令mv(move):移动文件,还有个功能是重命名11.ifconfig-a命令:查看IP地址12.解压缩文件:tar–xzvfxxx常见的linux命令*********************************VI操作:(1)当使用命令vif1回车时,进入了vi编辑器内,处于只读状态(只能看不能写);(2)按字母”i“(insert)或者”a“(append)就可以进入编辑状态;(3)按键盘上的”Esc“键,再按Shift+:,进入命令状态如果输入命令wq,意味着保存退出;如果输入命令q!,意味着不保存退出;*********************************linux的权限使用9位字符表示,rwxrwxrwx这里面r表示读权限,w表示写权限,x表示执行权限,-表示没有权限这9位字符,每3位一组,分为3组。第一组表示创建者的权限;第二组表示创建者所在组的权限;第三组表示其他人的权限;第四步:安装Xfp4与Xshell用Xshell4连接到linux服务器用Xfp4连接到linux服务器第五步:修改hostname1、修改/etc/hosts文件(root用户操作),添加:ip主机名称192.168.5.15oracle2、更改主机名编辑/etc/sysconfig/network把主机名改为oracle第六步:SSH互信配置rsa加密方法,公钥和私钥1、生成公钥和私钥在命令行执行ssh-keygen,然后回车,然后会提示输入内容,什么都不用写,一路回车在oracle用户根目录下,有一个.ssh目录id_rsa私钥id_rsa.pub公钥known_hosts通过SSH链接到本主机,都会在这里有记录第六步:SSH互信配置2、把公钥给信任的主机(本机)在命令行输入ssh-copy-id主机名称ssh-copy-idoracle复制的过程中需要输入信任主机的密码3、验证,在命令行输入:ssh信任主机名称sshoracle如果没有提示输入密码,则配置成功第七步:安装jdk把文件jdk-8u65-linux-x64.tar.gz上传在oracle用户的根目录,Jdk解压,(oracle用户操作)tar-zxvfjdk-8u65-linux-x64.tar.gzz代表gzip的压缩包;x代表解压;v代表显示过程信息;f代表后面接的是文件解压完成后,在oracle用户的根目录有一个jdk1.8.0_65目录第七步:安装jdk第七步:安装jdk配置环境变量,需要修改/etc/profile文件(root用户操作)切到root用户,输入su命令vi/etc/profile(Vi是Unix世界里极为普遍的全屏幕文本编辑器,其命令可参考资料,包括游标控制、内容编辑、文件操作三类命令)进去编辑器后,输入i,进入vi编辑器的插入模式在profile文件最后添加JAVA_HOME=/home/oracle/jdk1.8.0_65exportPATH=$PATH:$JAVA_HOME/bin(export功能说明:设置或显示环境变量)编辑完成后,按下esc退出插入模式输入:,这时在左下角有一个冒号的标识q退出不保存wq保存退出q!强制退出第七步:安装jdk把修改的环境变量生效(oracle用户操作)执行source/etc/profilesource命令用法:sourceFileName作用:在当前bash环境下读取并执行FileName中的命令。查看java版本命令:java–version第八步:安装hadoop1、上传hadoop-2.6.0.tar.gz文件2、在oracle用户的根目录,解压(oracle用户操作)tar-zxvfhadoop-2.6.0.tar.gz解压完成在oracle用户的根目录下有一个hadoop-2.6.0目录第八步:安装hadoop3、修改配置文件hadoop-2.6.0/etc/hadoop/hadoop-env.sh(oracle用户操作)配置文件1:hadoop-env.sh该文件是hadoop运行基本环境的配置,需要修改的为java虚拟机的位置。故在该文件中修改JAVA_HOME值为本机安装位置:exportJAVA_HOME=/home/oracle/jdk1.8.0_65第八步:安装hadoop4、修改配置文件hadoop-2.6.0/etc/hadoop/core-site.xml,添加(oracle用户操作)configurationpropertynamehadoop.tmp.dir/namevalue/home/hadoop/tmp/valuedescriptionhadoop的运行临时文件的主目录/description/propertypropertynamefs.default.name/namevaluehdfs://oracle:9000

1 / 63
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功