Hadoop多维数据平台测试报告

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Hadoop多维数据平台测试结果报告江苏欣网视讯软件技术有限公司2012年11月20日目录1、传统数据平台目前的问题和瓶颈1、测试基础设施二、本次测试情况一、Hadoop数据库2、Hadoop的特点和优势2、Hadoop测试结果对比3、Hbase测试结果对比4、测试总结传统数据平台的问题和瓶颈传统ETL工具失效磁盘读取速度的限制多年来磁盘存储容量快速增加的同时。其访问速度—磁盘数据的读取速度却未能与时俱进。面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求信息量高度膨胀、硬件资源极大的限制了分析的需要海量数据出现互联网高速发展,信息量不断膨胀,各种大型系统都记录下了海量的用户访问和查询日志。传统的SQL分析算法失效面对海量的数据,传统的数据分析算法必须依靠计算机性能的提升来满足,而缺少一种分布式的可扩展的架构的支持传统的日志分析和数据统计方法受到单机内外存、CPU资源有限的限制,在进行海量日志数据的分析时运到了瓶颈硬件资源限制问题Hadoop的特点和优势相较于传统的数据分析平台,Hadoop数据分析平台的优势主要体现在数据存储、数据分析和数据索引三个方面,具体优势如下:数据存储传统数据分析平台Hadoop数据分析平台随机访问性能好,没有容错,规模低于1PB,节点失效后部分数据不能访问容错,不需要人工干预,节点失效后系统任然可持续提供服务,规模可以扩展到EB。适用于数据相关性强,迭代次数多的计算,不适合处理过大规模数据,节点数不超过百台,节点失效会影响全局数据分析适用于大规模数据处理,节点规模可以达到数千台,节点失效对系统无影响数据索引能提供复杂的SQL语义和事务处理,数据规模不能动态扩展,服务器死了,服务就会受影响语义比较简单,事务支持有限,数据规模能动态扩展,节点失效,自动冗余本次测试情况——基础设备1、本次测试的设备情况:本次测试环境共有七台虚拟主机,两台NameNode节点,5台数据节点,可用数据空间约为1.5T,每台主机有8G内存,共有4个cpu内核。NameNodeDataNode1DataNode2DataNode3DataNode4SecondaryNameNodeDataNode52、本次测试的系统集群机构:该次测试是采用的分布式数据库测试,系统集群结构图如作图所示。本次测试情况——Hadoop3、Hadood的测试情况及结果:Hadoop保留三份拷贝,数据源为C网语音信令1个礼拜的数据,下面是导入情况:文件名称列数行数文件(KB)占用空间(G)加载时间(S)pcc00000pcc00001pcc00005pcc00004pcc00003pcc00002pcc0000665656565656565741109096954605174163579741479046946143156437316762778633335607231320889333911513338396031283557254083183433263194.0988.2794.2794.1288.1471.6996.67900780960900740660960705921503178236889.637加载速度(MB/S)37403437423835平均842本次测试情况——Hadoop1、导入一天约七千万条数据,执行复杂条件时Hadoop与数据仓库对比的情况如下(SQL语句关键字sum、count、distinct、groupby):3646473488073416440100200300400500600700800900Hadoop数据仓库SQL1SQL2SQL3(S)平均耗时:Hadoop为351s,数据仓库为699S。。。注:数据仓库的环境为主机为ibmp570,32G内存,8cpuHadood的测试结果对比:2、导入7天约5亿条数据,执行复杂条件时Hadoop的情况如下(SQL语句关键字sum、count、distinct、groupby):05001000150020002500300035272610911482190422762677Hadoop(S)一天数据二天数据三天数据四天数据五天数据六天数据七天数据在加载7天数据的情况下,执行复杂sql查询时Hadoop的性能基本保持线性增长。。。Hadood的测试结果对比:本次测试情况——Hadoop本次测试情况——Hbase4、Hbase的测试情况及结果:该次Hbase测试的数据源为用户行为11月01日的数据,目前总共导入了1789101267条数据记录,每行19列。导入方式为程序多主机多线程的方式导入,一天的数据用时约为8个小时。HBase的Rowkey设计原则为imsi+timestamp,数据导入后rowkey已经按字典顺序字典排好序。HBase明显查询测试,在单线程读的查询情况如下:2000查询结果集的条数查询时间1S以内2000015S左右注:1、以上数值2000和20000只是一个随机抽取的大概值,没有明显的界定含义;2、查询结果集可以设置取前多少名进行查找;3、可以采用多线程读据的方式应对查询结果集耗时长的情况。测试说明:以上测试结果仅为实验环境下测试,实际使用时还可以做如下优化:1、增加数据处理节点,充分发挥分布式数据库并行处理的能力;2、配置数据压缩减轻磁盘的压力;4、持续优化实验环境下各参数的配置。本次测试情况——测试总结根据以上测试数据及结果可以看出,Hadoop在执行复杂的SQL查询语句时,效率要比数据仓库快1倍;在数据量批量增加时,执行复杂SQL查询时,Hadoop的性能基本保持线性增长。Hadoop平台海量数据排序的使用,在Yahoo、Google这样的大型互联网引擎搜索公司已经得到了充分的认可;在Hadoop对海量数据的搜集和处理方面,美国第二大石油公司Chevron公司已经有了比较成熟的应用,他们利用Hadoop进行数据的收集和处理,其中这些数据都是来自海洋的地震数据,这些数据能便于他们更准确的找到油矿的位置。在现今的大数据背景下,ApacheHadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。Hadoop的应用场景远不止于以上几点,深入挖掘的话不难发现Hadoop在许多地方都发挥着巨大的作用。Thankyou!江苏欣网视讯软件技术有限公司2012年11月20日

1 / 11
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功