Hadoop-HBase数据的读写流程总结

小雷puppy
0 ℃
2019-11-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

HBase数据的读写流程总结首先我们要明确三大件概念：Zookeeper、HMaster、RegionServer。Zookeeper：保证任何时候，集群中只有一个HMaster；实时监控HRegionServer的上线和下线信息，并实时通知给HMaster；存储Hbase的schema和table元数据；HMaster需要知道哪些HRegionServer是活的、可用的及HRegionServer的位置信息，以便管理HRegionServer。这些信息都有Zookeeper提供！HMaster：理论上HMaster可以启动多个，但是Zookeeper有MasterElection机制保证且允许总有且只有一个Master在运行，来负责Table和Region的管理工作。管理HRegionServer的负载均衡，调整Region分布；RegionSplit后，负责新Region的分布；在HRegionServer停机后，负责失效HRegionServer上Region迁移工作。RegionServer：监控维护Region，处理对这些Region的响应，请求；负责切分在运行过程中变得过大的Region。注意点：1.Client访问hbase上数据时并不需要Hmaster参与，数据的读写也只是访问RegioneServer，HMaster仅仅维护这table和Region的元数据信息，负载很低。2.HBase是通过DFSclient把数据写到HDFS上的3.每一个HRegionServer有多个HRegion，每一个HRegion有多个Store，每一个Store对应一个列簇。4.HFile是HBase中真正实际数据的存储格式，HFile是二进制格式文件，StoreFile就是对HFile进行了封装（其实就是一个东西），然后进行数据的存储。5.HStore由MemStore（只有一个）和StoreFile（多个）组成。6.HLog记录数据的变更信息，用来做数据恢复。HBase写数据流程1.Client先访问zookeeper，从meta表获取相应region信息，然后找到meta表的数据2.根据namespace、表名和rowkey根据meta表的数据找到写入数据对应的region信息3.找到对应的regionserver4.把数据分别写到HLog和MemStore上一份5.MemStore达到一个阈值后则把数据刷成一个StoreFile文件。（若MemStore中的数据有丢失，则可以总HLog上恢复）6.当多个StoreFile文件达到一定的大小后，会触发Compact合并操作，合并为一个StoreFile，（这里同时进行版本的合并和数据删除。）7.当Storefile大小超过一定阈值后，会把当前的Region分割为两个（Split），并由Hmaster分配到相应的HRegionServer，实现负载均衡HBase读数据流程1.Client先访问zookeeper，从meta表读取region的位置，然后读取meta表中的数据。meta中又存储了用户表的region信息。2.根据namespace、表名和rowkey在meta表中找到对应的region信息3.找到这个region对应的regionserver4.查找对应的region5.先从MemStore找数据，如果没有，再到StoreFile上读(为了读取的效率)。