Hadoop深入浅出案例驱动实战中程在线(北京)科技有限公司内部教程注意保密2Hive的安装和配置、原理、开发课程目标Hadoop安装、配置与管理HDFS原理及开发,HDFS文件管理Map-Reduce原理及开发Hbase的安装和配置、原理、开发3课程安排day1Step3•云计算•Hadoop安装、配置•大数据•Hadoop介绍•HDFS介绍与实战•MapReduce介绍与实战•Hbase介绍与实战•Hive介绍与实战•疑难解答day2day3提前准备Hadoop环境部署软件列表编号软件名称要求1VirtualBox-4.2.16-86992-Win.exe2CentOS-6.3-x86_64-bin-DVD1.iso3jdk-7u25-linux-x64.tar.gz4SSHSecureShellClient-3.2.9.zip5apache-tomcat-7.0.42-windows-x64.zip6eclipse-jee-kepler-R-win32-x86_64.zip能够创建DynamicWebProject7hadoop-eclipse-plugin-1.0.4.jar8tomcatPluginV33.zip9struts-2.3.4.1-all.zip10MySQL-server-5.5.33-1.linux2.6.x86_64.rpm11MySQL-client-5.5.32-1.linux2.6.x86_64.rpm12libaio-0.3.107-10.el6.x86_64.rpm注意选择与操作系统相同数位的软件,如操作系统是64位的,软件也选择64位软件,否则选择32位的软件,建议使用64位操作系统提前准备Hadoop组件列表编号软件名称要求1hadoop-1.0.4.tar.gz2hbase-0.94.4.tar.gz3hive-0.9.0.tar.gz从老师的机器上可以下载这些软件:http://ip/fs.php自我介绍1、工作年限;2、所在部门;3、是否精通Linux;4、是否精通Java;5、是否安装过Hadoop;学习Hadoop的目的•Hadoop是IT行业一个新的热点,是云计算大数据处理的一个具体实现。•Hadoop本身具有很高的技术含量,是IT工程师学习的首选。•Hadoop商业价值日益增长,是商业企业大数据处理的首选。8大数据时代来临一分钟内,互联网发生了什么?•YouTube增加72小时视频•Google进行200万次搜索•Spotify增加14首新音乐•新增域名70个•iTunes下载音乐1.5万首•新增网站571个•每分钟发邮件2.04亿封•LinkedIn职位搜索1.1万次•亚马逊销售8.3万美元•Snapchat分享照片10.4万张•Twitter发“Tweets”27.8万则•Flickr照片浏览2000万次•Skype通话140万分钟•Facebook增加350GB数据、增180个“赞”、每秒增加新帖子4.1万古代,人们用牛来拉重物,当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,我们也不需要尝试开发高级计算机,而应尝试着结合使用更多计算机系统。-------格蕾斯.霍珀10大数据云计算大数据互联网营销11你准备好了吗?千载难逢的机会IT界的又一桶金开始云计算之旅2019/8/1什么是云计算?2019/8/1什么是云计算?•搜索•网络购物•QQ•微博•微信•……不识庐山真面目,只缘身在此山中15云计算历史2019/8/1网格计算云计算云计算和网格计算在Google中的搜索趋势16云计算发源于搜索引擎平台,是互联网企业在创业阶段基于追求低成本、高性能、以及资源灵活分配与应用快速布署的考虑而开发出一种IT系统实现技术。云计算利用大规模低成本运算单元通过IP网络连接,以提供各种计算服务的IT技术。17云计算定义云计算就是通过网络把信息技术当作服务来使用核心理念最典型代表:Google搜索引擎典型代表云计算是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡、网络技术等一些传统计算方法的融合体。核心理念:通过不断提高“云”的处理能力而减少用户终端的处理负担,使用户终端简化成一个单纯的输入输出设备。云计算特征按需自助服务广泛的网络接入Title服务可计量资源池快速弹性云计算分类私有云公有云混合云InfrastructureasaService以服务的形式提供虚拟硬件资源,如虚拟主机/存储/网络等资源。用户无需购买服务器、网络设备、存储设备,只需通过互联网租赁即可搭建自己的应用系统典型应用:AmazonWebService(AWS)PlatformasaService提供应用服务引擎,如互联网应用编程接口/运行平台等。用户基于该应用服务引擎,可以构建该类应用。典型应用:GoogleAppEngine,Force.com,MicrosoftAzure服务平台SoftwareasaService用户通过Internet(如浏览器)来使用软件。用户不必购买软件,只需按需租用软件典型应用:GoogleDoc,Salesforce.com,OracleCRMOnDemand,OfficeLiveWorkspace面向外部用户需求,通过开放网络提供云计算服务IDC,GoogleApp,Saleforce在线CRM大型企业按照云计算的架构搭建平台,面向企业内部需求提供云计算服务企业内部数据中心等兼顾以上两种情况的云计算服务AmazonWebServer等既为企业内部又为外部用户提供云计算服务按提供的服务类型按云服务的对象IAASPaaSSaaSIaaS分布存储分布计算云计算核心技术云计算产生的前提•节约成本•广泛的网络接入•虚拟化技术的成熟•计算能力提升•大数据的出现•竞争2019/8/122节约成本广泛的网络接入2019/8/124虚拟化技术的成熟2019/8/125虚拟化技术的成熟2019/8/126虚拟化技术的成熟2019/8/127计算能力提升2019/8/128大数据的出现2019/8/129云计算产生原动力2019/8/1云计算发展现状2019/8/1云参考架构--AWS2019/8/132云参考架构--Google2019/8/133BusinesssupportVirtualizationManagement(OpenStack、HMC、SVC/TPC、TSM)PhysicalresourcelayerCloudplatformusersCloudmanagementplatformUsermanagementBillingmanagement……ServicerequestmanagementRBACMonitoringandreportingOSSWorkflowmanagementConfigurationreal-timedataCallCenterCRMBankinterfaceMinicomputer(3computer)PCServer(10computer)Storage(2computer)LoadbalancingSecurity,disasterrecovery,backup,virtualizationMinicomputer(3computer)PCServer(10computer)Storage(1computer)云参考架构云计算的价值35云部署36以分钟时间部署复杂企业应用37以分钟时间部署复杂企业应用38以分钟时间部署复杂企业应用39谁需要云计算2019/8/140Hadoop集群搭建三种运行模式安装简单,几乎不用作任何配置,但仅限于调试用途在单节点上同时启动namenode、datanode、jobtracker、tasktracker、secondarynamenode等5个进程,模拟分布式运行的各个节点。正常的Hadoop集群,由多个各司其职的节点构成。单机模式伪分布模式完全分布式模式42安装和配置步骤•参考《Hadoop-1.0.0集群安装.pdf》VirtualBox安装虚拟机•设置虚拟网卡为host-only模式•共享主机网卡•配置虚拟机VirtualBoxHost-OnlyEthernetAdapter网卡IP为192.168.0.1虚拟机NetworkAdapter•Bridged(桥接模式)•Bridged(桥接模式):默认使用VMnet0,不提供DHCP服务,需要手动配置IP、网关、子网掩码等45虚拟机NetworkAdapter•NAT(网络地址转换模式)•NAT(网络地址转换模式):默认使用VMnet8,提供DHCP服务46虚拟机NetworkAdapter•Host-only(主机模式)•Host-only(主机模式):默认使用VMnet1,提供DHCP服务•当要组成一个与物理网络相隔离的虚拟网络时,无疑非常适合使用Host-only模式。47安装Linux操作系统•安装的过程中选择OpenSSH支持LinuxShell•vi•mkdir•tar•chmod•chown•cp•mvSSH安装•安装SSH–yuminstallssh•启动SSH–servicesshdstart•设置开机运行–chkconfigsshdonSSH无密码登录•hduser@master:~$ssh-keygen-trsa-P•hduser@master:~$cat$HOME/.ssh/id_rsa.pub$HOME/.ssh/authorized_keys•hduser@master:~$sshmaster.hadoop•hduser@master:~$ssh-copy-id-i$HOME/.ssh/id_rsa.pubhduser@slave1.hadoop•hduser@master:~$ssh-copy-id-i$HOME/.ssh/id_rsa.pubhduser@slave2.hadoop51Java安装•#mkdir/usr/local/java•#cd/usr/local/java•#chmodu+xjdk-6u30-linux-i586.bin•#./jdk-6u30-linux-i586.bin•#vi/etc/profile添加环境变量•exportJAVA_HOME=/usr/java/jdk1.6.0_30/•exportCLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib•exportHADOOP_HOME=/usr/local/hadoop•exportPATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin•执行#source/etc/profile,使环境变量立即生效禁用IPV6•在所有机器上操作–#vi/etc/modprobe.d/anaconda.conf•添加如下行–installipv6/bin/true•重新启动系统生效CloneMaster虚拟机•选择重新初始化网卡选项•完全Clone•启动新的虚拟机•修改hostname•修改网卡,让网卡生效,能ping通Master54CloneMaster配置网卡•1)必须确认克隆(clone)的CentOS6的各个网卡的MAC是否有重复或与其它虚拟主机重复,最好利用其网卡工具刷新一下,生成新的MAC。使用vi命令,打开/etc/sysconfig/network-scripts/下的ifcfg-eth*(*代表0~n个网卡序号),把这个新的MAC修改进去。•2)修改/etc/udev/rules.d/70-persistent-net.rules文件,删除原来的eth0那一段,把后增加的eth1改为eth0。如果有多块网卡以此类推;如果只有一行,则把“eth1”改为eth0即可。•3)使用start_udev命令重新检测硬件;•4)用servicenetworkrestart命令重启下网络。55HDFS重要配置项!-