TranswarpDataHubv4.1包含ApacheHadoop2.5.2forLinux(x86-64)安装和使用手册T00141-01-021文档版本:2.1v发布日期:2015-06-11星环科技信息(上海)有限公司2文档目的本文档用于指导Transwarp用户安装、部署、验证和开始使用TranswarpDataHub。3TranswarpDataHubv4.1包括ApacheHadoop2.5.2forLinux(x86-64)安装和使用手册T00141-01-021版权所有©2013年-2015年星环信息科技(上海)有限公司。保留所有权利。版权声明本说明书的版权归星环信息科技(上海)有限公司所有。未得到星环信息科技(上海)有限公司的书面许可,任何人不得以任何方式或形式对本说明书内的任何部分进行复制、摘录、备份、修改、传播、翻译成其他语言、或将其全部或部分用于商业用途。星环信息科技(上海)有限公司保留对本说明书及本声明的最终解释权和修改权。免责声明由于产品版本升级或其他原因,本文档内容会不定期进行更新。内容如有更改,恕不另行通知。本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。星环信息科技(上海)有限公司在编写该说明书的时候已尽最大努力保证期内容准确可靠,但星环信息科技(上海)有限公司不对本说明书中的遗漏、不准确或印刷错误导致的损失和损害承担责任。Hadoop*,SPARK*是Apache软件基金会在美国和其他国家的商标或注册的商标。Java*是Oracle和/或其子公司的注册的商标。其他名称可能是商标各自所有者所有。4TranswarpDataHub4.1安装和使用手册技术支持感谢你使用星环信息科技(上海)有限公司的产品和服务。如您在产品使用或服务中有任何技术问题,可以通过以下途径找到我们的技术人员给予解答。email:support@transwarp.io技术支持热线电话:18930357653官方网址:意见反馈如果你在系统安装,配置和使用中发现任何产品问题,可以通过以下方式反馈:email:support@transwarp.io感谢你的支持和反馈,我们一直在努力!星环信息技术有限公司地址:上海市徐汇区桂平路481号18幢3层301室电话:40080799765TranswarpDataHub4.1安装和使用手册修订历史记录修改记录累积了每次文档更新的说明。最新版本的文档包含以前所有文档版本的更新内容。文档版本T00141-01-020(2015-04)第一次发布。文档版本T00140-01-010(2014-12)第一次发布。文档版本T00130-01-010(2013-12)第一次发布。6TranswarpDataHub4.1安装和使用手册目录目录61简介91.1公司介绍91.2TranswarpDataHub介绍91.3集群结构111.4构造集群的主要步骤112新版本管理界面增加的功能122.1新增加的功能122.2新的加强部分133安装准备143.1硬件环境要求143.2软件环境要求143.4Java环境要求143.5支持的游览器154安装前的检查164.1系统磁盘分区要求164.2内存容量要求174.3网络设置187TranswarpDataHub4.1安装和使用手册4.4集群和网络拓扑要求184.5NTP服务设置194.6安全设置194.7系统的推荐设置195TDH服务的角色215.1Zookeeper角色215.2HDFS角色215.3YARN角色225.4HyperBase角色235.5Inceptor角色245.6Streaming角色245.7Sqoop角色245.7Flume角色256操作系统安装267Transwarp管理员的安装277.1安装前系统配置改动277.2安装介质277.3检查系统时间,时区及主机信息288用TranswarpManager配置集群358.1添加集群服务器358.2删除集群中的服务器399用TranswarpManager为集群安装各项服务429.1添加各项服务428TranswarpDataHub4.1安装和使用手册9.2配置各项服务459.3服务的最后安装6710TDH许可证授权的激活和认证6910.1许可证管理6910.2许可证激活和使用6910.3查看许可证授权管理7011TDHManager的使用7111.1状态页面的使用7111.2热点图页面的使用7211.3警报页面7311.4操作页面7311.5日志查询7411.6审计查询7411.7NTP管理7512TDH安装和设置问题汇总7613TDH技术支持和维护78术语表799TranswarpDataHub4.1安装和使用手册1简介1.1公司介绍星环信息科技(上海)有限公司是目前中国国内极少数掌握企业级大数据Hadoop和Spark核心技术的高科技公司,从事大数据时代核心平台数据库软件的研发与服务。ApacheHadoop技术已成为公认的替代传统数据库的大数据产品。公司产品TranswarpDataHub(TDH)的整体架构及功能特性比肩硅谷同行,产品性能在业界处于领先水平。1.2TranswarpDataHub介绍TranswarpDataHub(简称TDH)是国内首个全面支持Spark的Hadoop发行版,也是国内落地案例最多的商业版本,是国内外领先的高性能平台,比开源基于HadoopMapReduce计算框架的版本快10x~100x倍。TDH应用范围覆盖各种规模和不同数据量的企业,通过内存计算、高效索引、执行优化和高度容错的技术,使得一个平台能够处理GB级到PB级的数据,并且在每个数量级上,都能比现有技术提供更快的性能;企业客户不再需要混合架构,TDH可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或混合架构数据迁移的棘手问题。10TranswarpDataHub4.1安装和使用手册图1:TDH系统框架图星环的大数据平台TDH包含四个组成部分:TranswarpHadoop企业版,TranswarpInceptor分布式内存分析引擎,TranswarpHyperbase分布式实时在线数据处理引擎和TranswarpStream流处理引擎,四个产品组件构成了完整的大数据平台。在统一的分布式存储之上数据平台上通过TranswarpYARN提供统一的资源管理调度,结合LDAP与Kerberos提供完备的权限管理控制,不同的部门以及使用租户可以按需创建计算集群访问其授权数据,包括基于Spark计算框架的SQL类统计分析应用与数据挖掘类应用,或者基于MapReduce计算框架的应用。同时,平台通过使用Hyperbase结合Inceptor,为用户提供基于SQL的高并发的查询以及分析能力。在数据导入与交换方面,数据平台提供多样的数据导入与交换形式,包括Flume提供海量数据文件的聚合汇总到HDFS的功能,FTPOverHDFS提供文件通过FTP传入HDFS的通道,Sqoop提供与关系型数据库的数据交换以及Kafka消息队列集群接收实时流数据。此外,TDH数据平台提供实时的流处理能力,通过消息队列Kafka接收实时数据流,做到数据不丢不重,通过TranswarpStream基于SparkStreaming提供类似与批处理系统的计算能力、健壮性、扩展性的同时,将数据时延降低至秒级甚至毫秒级。11TranswarpDataHub4.1安装和使用手册1.3集群结构创建一个集群前,首先必须保证将用于构造集群的服务器满足一些要求。这些要求包括硬件要求、软件要求、内存要求、网络要求等。第二章将对这些要求进行详细介绍。在满足这些要求的基础上,就可以开始进行系统安装。系统安装包括以下步骤:1.在集群中所有的节点(包括管理节点及Hadoop集群中所有的节点)上安装所需要的操作系统。这将在第6章中进行介绍。2.在管理节点上安装Transwarp®Hadoop。第五章将对此进行详细介绍。3.使用管理节点上的Web用户界面——Transwarp®ManagerforApacheHadoop——来把所有的节点加到集群中、对这些节点部署相关软件和配置,并运行服务。第六章将给出相关的详细步骤。1.4构造集群的主要步骤在创建集群前,你必须阅读并理解集群创建和管理的要求和推荐。这包括对集群中的每个节点的网络连接及软硬件配置作出决定。12TranswarpDataHub4.1安装和使用手册2新版本管理界面增加的功能2.1新增加的功能全新的界面风格我们重新设计了TDHManager整个管理界面,风格同上一代TranswarpDataHubManager4.0v完全不同,是全新的设计。它用扁平化风格和可视化界面来展示TDH集群服务状态个指标等。新的热点图功能新版本增加了新的热点图功能,热点图用于集中展示集群中节点指标,用户可以根据需要灵活选择需要监测的指标,并可以对比不同节点的指标。新的告警页面功能新版本增加了告警页面,新的告警页面集中展示TDH中的告警信息,可以方便用户第一时间发现问题并解决。操作页面新的服务安装操作和状态页面可以集中展示TDH中的集群状态和服务管理状态,用户可以进行集群和服务管理统一操作。日志查询日志页面可以根据不同的过滤条件查询服务日志。审计查询审计查询页面用来审计用户的操作。13TranswarpDataHub4.1安装和使用手册NTP管理NTP管理模块用于管理内部和外部的NTP服务器,同时可以查看每个节点与NTP服务器的时间差。2.2新的加强部分新版本在以下功能方面进行了更新。新的集群状态页面新的集群状态页面将服务状态和操作集中放置在一个页面上,方便用户监控和管理集群。新的服务概况页面新的服务概况页面展示服务状态、常用指标和操作。新的YARNScheduler配置页面新的Scheduler配置页面方便用户配置队列与资源。新的Inceptor资源配置页面新的Inceptor资源配置页面方便用户配置资源。14TranswarpDataHub4.1安装和使用手册3安装准备3.1硬件环境要求TDH提供一个集群服务,集群系统必须是3台以上物理服务器组成,每台服务器必须具备以下最低配置2颗6核心或以上带超线程x86指令集CPU的服务器64GB以上内存2个300G以上的硬盘做RAID1,作为系统盘4个以上的600GB容量以上的硬盘作为数据存放硬盘2个千兆以上网卡3.2软件环境要求所有集群中的节点,必须运行于同一操作系统。Transwarp®DataHub支持以下操作系统见。表1操作系统版本RedHatEnterpriseLinux6.1、6.2、6.3、6.4、6.5CentOS6.1、6.2、6.3、6.4、6.5SUSE*LinuxEnterpriseServer11SP1、11SP23.4Java环境要求TDH支持以下JDK版本OracleJDK1.715TranswarpDataHub4.1安装和使用手册3.5支持的游览器TranswarpDataHub采用internet游览器作为平台管理界面,管理平台支持以下游览器表2Transwarp®Manager支持的浏览器浏览器版本GoogleChrome(推荐)36.0.1985.143及以上FireFox36.0及以上AppleSafari7.0.2及以上InternetExplorer(不推荐)不支持16TranswarpDataHub4.1安装和使用手册4安装前的检查4.1系统磁盘分区要求系统安装和运行需要占用硬盘空间,在安装前操作系统硬盘必须留出200GB空间。对磁盘进行分区时需要遵守以下几点要求:至少要分出swap和加载于“/”的系统分区。推荐系统分区大小为100GB~300GB,并将该分区挂载到/目录。推荐把每个物理磁盘挂载在/mnt/disknn(nn为1至2位的数字)上不同的挂载点。建议使用ext3文件系统。每个这样的目录会被管理节点自动配置为HDFSData