大数据集群部署-虚拟机-vs-物理机-测试报告1.0(1)

gaoleihahale
1 ℃
2020-03-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

文档密级2018年3月12日新华三机密，未经许可不得扩散第1页共2页大数据集群部署：虚拟机vs物理机下面重点分析虚拟机集群和物理服务器集群部署大数据的优缺点：一、物理服务器集群部署大数据图1X86服务器集群单台X86服务器的存储和计算能力已经无法满足海量数据存储和快速计算能力的要求，需要多台X86服务器组成集群进行横向扩展和分布式计算，X86物理服务器集群在大数据处理上具备很多优势：1.海量数据存储能力：物理服务集群采用share-nothing技术架构，集群可以实现Scaleout横向扩展，集群主机数量从几台到几千台规模，采用服务器本地硬盘及分布式存储技术可以支持PB、EB级海量数据存储能力。2.快速数据计算能力：大数据集群注重计算和存储在同一个节点，大数据可以按照哈希分片（HashPartition）、虚拟桶(VirtualBuckets)等算法将数据有序存储在集群中的数据节点上，当调用大量数据进行分布式计算时，需要在数据节点上完成所在节点数据的计算，即需要计算节点和数据节点部署的同一个节点，这样才能实现计算向数据靠近，计算的过程中减少数据的移动，实现快速数据读取和计算。物理服务器集群采用本地计算资源和本地硬盘资源，将计算节点和数据节点部署在同一个节点，满足计算向数据靠近的原则，计算过程中减少数据在服务器之间的移动，降低网络I/O，实现快速数据读取和计算。3.高速数据吞吐能力：为每台物理服务器节点配置多块硬盘，每块硬盘具备独立的I/O能力，支持数据并行读写，实现高速数据吞吐能力。4.高速网卡带宽能力：大数据集群采用分布式计算架构，节点之间存在大量的数据交换，通常会要求网卡满负荷运作，物理机可以通过多万兆网卡负荷分担来提高网络带宽。二、虚拟机集群部署大数据文档密级2018年3月12日新华三机密，未经许可不得扩散第2页共2页虚拟机技术目标和大数据的技术要求实际上是背离的，虚拟机以提升服务器资源利用率为目标，把单台服务器物理资源虚拟化成多个逻辑资源，并分配给不同APP使用；而大数据技术要求构建多服务器集群进行分布式存储和计算来解决单台服务器的存储和计算能力不足问题。虚拟机集群部署大数据集群时面临的下列问题：图2统一存储虚拟机集群1.数据存储能力有限：统一存储设备采用共享存储方式，存储容量通过Scaleup纵向扩展，可以支持几百T数据存储能力，不能支持PB、EB级海量数据。此外，统一存储成本相比X86的本地硬盘要昂贵。2.数据计算能力降低：Hadoop、MPP等大数据均采用分布式计算框架，需要通过大数据集群的多个主机分担同一个计算任务，并且主机的计算资源越强则大数据的处理性能就越快。把单台服务器物理资源虚拟化成多个虚拟机资源，单个虚拟主机的计算能力降低。在相同主机数量的情况下，虚拟机集群计算性能也会比物理机集群计算能力要低。此外，虚拟化处理hypervisor也会消耗5%-10%的服务器性能。3.数据吞吐能力有限：大数据集群每次执行计算任务时，都需要把大容量的数据从磁盘读到主机内存中，并且计算过程数据和结果数据也需要写磁盘，I/O频率和带宽都要求很高。而在虚拟机集群中，多个虚拟机并行从统一存储设备中大容量、高频率读写数据，统一存储设备的I/O能力、网络带宽都会成为瓶颈，并且不能随主机数量增加而线性扩展。4.虚拟机网卡带宽有限：一个大数据集群的多个虚机主机有可能被分配在同一个物理服务器上，多个虚拟机网卡会共用一个物理网卡，虚拟网卡带宽在大数据量交换的情况下也会成为瓶颈。三、测试报告1.总体测试思路文档密级2018年3月12日新华三机密，未经许可不得扩散第3页共2页排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业，在2008年，Hadoop在1TB排序基准评估中赢得第一名，耗时209秒。Terasort算法思想是：在map阶段，每个maptask都会将数据划分成R个数据块（R为reducetask个数），其中第i（i0）个数据块的所有数据都会比第i+1个中的数据大；在reduce阶段，第i个reducetask处理（进行排序）所有maptask的第i块，这样第i个reducetask产生的结果均会比第i+1个大，最后将1~R个reducetask的排序结果顺序输出，即为最终的排序结果。说明：Terasort计算过程有大量的数据I/O。本次测试采用3台物理机大数据集群和通过与物理机相同配置的3台服务器虚拟化出来的6个虚拟机测试同样大数据程序，进行性能数据对比。2.物理机集群部署用途CPU内存系统盘数据硬盘网络节点一4路8核128G1*600G4*600G10GbE节点二4路8核128G1*600G4*600G10GbE节点三4路8核128G1*600G4*600G10GbE3.虚拟机集群部署用途CPU内存系统盘数据硬盘网络节点一2路8核62G1*600G1.2T10GbE节点二2路8核62G1*600G1.2T10GbE节点三2路8核62G1*600G1.2T10GbE文档密级2018年3月12日新华三机密，未经许可不得扩散第4页共2页节点四2路8核62G1*600G1.2T10GbE节点五2路8核62G1*600G1.2T10GbE节点六2路8核62G1*600G1.2T10GbE4.Hadoop测试结果功能物理机集群虚拟机集群虚拟机集群/物理机集群MR生成TeraSort标准排序数据100G295秒395秒133.9％MRTerasort100G数据培训测试3006秒4342秒144.4％说明：Terasort计算过程有大量的数据I/O，虚拟机对磁盘I/O的抢占，导致性能损耗较多。四、总结从测试中可得出采用虚拟机的方式性能会降低30%以上。综上所述，对大数据量和高性能要求的生产环境需要采用物理服务器集群部署大数据，虚拟机集群部署大数据只能用于小数据量、性能要求不高的实验环境。