HBase 官方文档-中文翻译

xmanwhb
1 ℃
2020-05-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

HBase官方文档Copyright©2010ApacheSoftwareFoundation,盛大游戏-数据仓库团队-颜开(译)RevisionHistoryRevision0.90.4配置，数据模型使用入门Abstract这是ApacheHBase的官方文档,Hbase是一个分布式,版本化(versioned)，构建在ApacheHadoop和ApacheZooKeeper上的列数据库.我(译者)熟悉Hbase的源代码，从事Hbase的开发运维工作，如果有什么地方不清楚，欢迎一起讨论。邮箱yankaycom@gmail.comTableofContents序1.入门1.1.介绍1.2.快速开始1.2.1.下载解压最新版本1.2.2.启动HBase1.2.3.Shell练习1.2.4.停止HBase1.2.5.下一步该做什么1.3.慢速开始(相对快速开始)1.3.1.需要的软件1.3.2.HBase运行模式:单机和分布式1.3.3.配置例子2.升级2.1.从HBase0.20.xor0.89.x升级到HBase0.90.x3.配置3.1.hbase-site.xml和hbase-default.xml3.1.1.HBase默认配置3.2.hbase-env.sh3.3.log4j.properties3.4.重要的配置3.5.必须的配置3.6.推荐的配置3.6.1.zookeeper.session.timeout3.6.2.hbase.regionserver.handler.count3.6.3.大内存机器的配置3.6.4.LZO压缩3.6.5.更大的Regions3.6.6.管理Splitting3.7.连接Hbase集群的客户端配置和依赖3.7.1.Java客户端配置4.TheHBaseShell4.1.使用脚本4.2.Shell技巧4.2.1.irbrc4.2.2.LOG时间转换4.2.3.Debug5.构建HBase5.1.将一个HBaserelease加入到Apache'sMavenRepository6.Developers6.1.IDEs6.1.1.Eclipse6.2.单元测试6.2.1.Mocito7.HBase和MapReduce7.1.默认HBaseMapReduce分割器(Splitter)7.2.HBaseInputMapReduce例子7.3.在一个MapReduceJob中访问其他的HBaseTables7.4.预测执行8.HBase的Schema设计8.1.Schema创建8.2.columnfamilies的数量8.3.单调递增RowKeys/时序数据(log)8.4.尽量最小化row和column的大小8.5.版本的时间9.Metrics9.1.Metric安装9.2.RegionServerMetrics9.2.1.hbase.regionserver.blockCacheCount9.2.2.hbase.regionserver.blockCacheFree9.2.3.hbase.regionserver.blockCacheHitRatio9.2.4.hbase.regionserver.blockCacheSize9.2.5.hbase.regionserver.compactionQueueSize9.2.6.hbase.regionserver.fsReadLatency_avg_time9.2.7.hbase.regionserver.fsReadLatency_num_ops9.2.8.hbase.regionserver.fsSyncLatency_avg_time9.2.9.hbase.regionserver.fsSyncLatency_num_ops9.2.10.hbase.regionserver.fsWriteLatency_avg_time9.2.11.hbase.regionserver.fsWriteLatency_num_ops9.2.12.hbase.regionserver.memstoreSizeMB9.2.13.hbase.regionserver.regions9.2.14.hbase.regionserver.requests9.2.15.hbase.regionserver.storeFileIndexSizeMB9.2.16.hbase.regionserver.stores9.2.17.hbase.regionserver.storeFiles10.跨集群复制11.数据模型11.1.概念视图11.2.物理视图11.3.表11.4.行11.5.ColumnFamily11.6.Cells11.7.版本11.7.1.Hbase的操作(包含版本操作)11.7.2.现有的限制12.架构12.1.客户端12.1.1.连接12.1.2.写缓冲和批量操作12.1.3.Filters12.2.Daemons12.2.1.Master12.2.2.RegionServer12.3.Regions12.3.1.Region大小12.3.2.RegionSplits12.3.3.Region负载均衡12.3.4.Store12.4.WriteAheadLog(WAL)12.4.1.目的12.4.2.WALFlushing12.4.3.WALSplitting13.性能调优13.1.Java13.1.1.垃圾收集和HBase13.2.配置13.2.1.Regions的数目13.2.2.管理压缩13.2.3.压缩13.2.4.hbase.regionserver.handler.count13.2.5.hfile.block.cache.size13.2.6.hbase.regionserver.global.memstore.upperLimit13.2.7.hbase.regionserver.global.memstore.lowerLimit13.2.8.hbase.hstore.blockingStoreFiles13.2.9.hbase.hregion.memstore.block.multiplier13.3.ColumnFamilies的数目13.4.数据聚集13.5.批量Loading13.5.1.Table创建:预创建Regions13.6.HBase客户端13.6.1.AutoFlush13.6.2.ScanCaching13.6.3.Scan属性选择13.6.4.关闭ResultScanners13.6.5.块缓存13.6.6.RowKeys的负载优化14.BloomFilters14.1.配置14.1.1.HColumnDescriptor配置14.1.2.io.hfile.bloom.enabled全局关闭开关14.1.3.io.hfile.bloom.error.rate14.1.4.io.hfile.bloom.max.fold14.2.BloomStoreFilefootprint14.2.1.StoreFile中的BloomFilter，FileInfo数据结构14.2.2.在StoreFile元数据中的BloomFilterentries15.Hbase的故障排除和Debug15.1.一般准则15.2.Logs15.2.1.Log位置15.3.工具15.3.1.search-hadoop.com15.3.2.tail15.3.3.top15.3.4.jps15.3.5.jstack15.3.6.OpenTSDB15.3.7.clusterssh+top15.4.客户端15.4.1.ScannerTimeoutException15.5.RegionServer15.5.1.启动错误15.5.2.运行时错误15.5.3.终止错误15.6.Master15.6.1.启动错误15.6.2.终止错误A.工具A.1.HBasehbckA.2.HFile工具A.3.WALToolsA.3.1.HLog工具A.4.压缩工具A.5.Node下线A.5.1.依次重启B.HBase中的压缩B.1.测试压缩工具B.2.hbase.regionserver.codecsB.3.LZOB.4.GZIPC.FAQD.YCSB:雅虎云服务测试和HbaseIndexListofTables11.1.表webtable11.2.ColumnFamilyanchor11.3.ColumnFamilycontents序这本书是HBase的官方指南。版本为0.90.4.可以在Hbase官网上找到它。也可以在javadoc,JIRA和wiki找到更多的资料。此书正在编辑中。可以向HBase官方提供补丁JIRA.这个版本系译者水平限制，没有理解清楚或不需要翻译的地方保留英文原文。最前面的话若这是你第一次踏入分布式计算的精彩世界，你会感到这是一个有趣的年代。分布式计算是很难的，做一个分布式系统需要很多软硬件和网络的技能。你的集群可以会因为各式各样的错误发生故障。比如Hbase本身的Bug,错误的配置(包括操作系统)，硬件的故障(网卡和磁盘甚至内存)如果你一直在写单机程序的话，你需要重新开始学习。这里就是一个好的起点:分布式计算的谬论.Chapter1.入门TableofContents1.1.介绍1.2.快速开始1.2.1.下载解压最新版本1.2.2.启动HBase1.2.3.Shell练习1.2.4.停止HBase1.2.5.下一步该做什么1.3.慢速开始(相对快速开始)1.3.1.需要的软件1.3.2.HBase运行模式:单机和分布式1.3.3.配置例子1.1.介绍Section1.2,“快速开始”会介绍如何运行一个单机版的Hbase.他运行在本地磁盘上。Section1.3,“慢速开始(相对快速开始)”会介绍如何运行一个分布式的Hbase。他运行在HDFS上1.2.快速开始本指南介绍了在单机安装Hbase的方法。会引导你通过shell创建一个表，插入一行，然后删除它，最后停止Hbase。只要10分钟就可以完成以下的操作。1.2.1.下载解压最新版本选择一个Apache下载镜像，下载HBaseReleases.点击stable目录，然后下载后缀为.tar.gz的文件;例如hbase-0.90.4.tar.gz.解压缩，然后进入到那个要解压的目录.$tarxfzhbase-0.90.4.tar.gz$cdhbase-0.90.4现在你已经可以启动Hbase了。但是你可能需要先编辑conf/hbase-site.xml去配置hbase.rootdir，来选择Hbase将数据写到哪个目录.?xmlversion=1.0??xml-stylesheettype=text/xslhref=configuration.xsl?configurationpropertynamehbase.rootdir/namevaluefile:///DIRECTORY/hbase/value/property/configuration将DIRECTORY替换成你期望写文件的目录.默认hbase.rootdir是指向/tmp/hbase-${user.name}，也就说你会在重启后丢失数据(重启的时候操作系统会清理/tmp目录)1.2.2.启动HBase现在启动Hbase:$./bin/start-hbase.shstartingMaster,loggingtologs/hbase-user-master-example.org.out现在你运行的是单机模式的Hbaes。所以的服务都运行在一个JVM上，包括Hbase和Zookeeper。Hbase的日志放在logs目录,当你启动出问题的时候，可以检查这个日志。是否安装了java?你需要确认安装了Oracle的1.6版本的java.如果你在命令行键入java有反应说明你安装了Jav