刘通Mellanox亚太市场开发总监高速网络InfiniBand加速大数据应用©2014MellanoxTechnologies2-MellanoxConfidential-Mellanox公司概况连接服务器、存储器的高带宽与低延迟网络的领导厂商•FDR56Gb/sInfiniBand与万兆/4万兆以太网•降低应用等待数据时间•大幅提升数据中心投资回报率公司总部:•美国加州以及以色列双总部•全球范围内约~1432名员工良好财务状况•2013年销售近3.9亿美元•现金与投资达3.4亿美元股票代码:MLNX截至2013年9月©2014MellanoxTechnologies3-MellanoxConfidential-世界领先的端到端网络互连设备提供商VirtualProtocolInterconnect存储前端/后端服务器交换机/网关56GIB&FCoIB56GInfiniBand10/40/56GbE&FCoE10/40/56GbEVirtualProtocolInterconnect芯片交换机、网关网卡网线、模块Metro/WAN完整的InfiniBand与以太网产品线©2014MellanoxTechnologies4-MellanoxConfidential-InfiniBand是高性能应用的首选网络采用MellanoxFDRInfiniBand的系统同比增长1.8倍•加速63%的InfiniBand系统是基于FDR(141systemsoutof225)超级计算机TOP500中最高占有率©2014MellanoxTechnologies5-MellanoxConfidential-InfiniBand提供不可超越的系统效率InfiniBand是实现最高系统效率的关键,平均高于万兆以太网30%MellanoxInfiniBand实现最高效率99.8%平均效率•InfiniBand:87%•Cray:79%•10GbE:67%•GigE:40%©2014MellanoxTechnologies6-MellanoxConfidential-InfiniBand技术优势©2014MellanoxTechnologies7-MellanoxConfidential-InfiniBand技术的优势和特点InfiniBandTradeAssociation(IBTA)协会制定规范•开放标准的高带宽、低延迟网络互连技术串行高带宽连接•SDR:10Gb/sHCA连接•DDR:20Gb/sHCA连接•QDR:40Gb/sHCA连接–现在•FDR:56Gb/sHCA连接–2011年底•EDR:100Gb/sHCA连接–2014年极低的延迟•低于1微妙的应用级延迟可靠、无损、自主管理的网络•基于链路层的流控机制•先进的拥塞控制机制可以防止阻塞完全的CPU卸载功能•基于硬件的传输协议•可靠的传输•内核旁路技术远端内存直接访问•RDMA-读和RDMA-写服务质量控制(QoS)•在适配器卡级提供多个独立的I/O通道•在链路层提供多条虚拟通道集群可扩展性和灵活性•一个子网可支持48,000个节点,一个网络可支持2128个节点•提供多种集群拓扑方式简化集群管理•集中路由管理•支持带内网络诊断和升级©2014MellanoxTechnologies8-MellanoxConfidential-RDMA(远端内存直接访问技术)–如何工作RDMA运行于InfiniBand或Ethernet内核硬件用户机架1OSNICBuffer1应用程序1应用程序2OSBuffer1NICBuffer1TCP/IP机架2HCAHCABuffer1Buffer1Buffer1Buffer1Buffer1©2014MellanoxTechnologies9-MellanoxConfidential-MellanoxRDMA远端内存直接访问技术零拷贝远程数据传输低延迟,高速数据传输InfiniBand-56Gb/sRoCE*–40Gb/s内核旁路通讯协议卸载*RDMAoverConvergedEthernet应用程序应用程序用户层内核硬件缓存缓存©2014MellanoxTechnologies10-MellanoxConfidential-加速分布式数据库©2014MellanoxTechnologies11-MellanoxConfidential-迈络思网络加速主流数据库大幅提升性能与可扩展性,降低成本Oracle数据仓库•提供4倍闪存•写性能提升20倍•数据吞吐量提高33%•降低能耗10%到40%IBMDB2Purescale数据库:•需要低延迟高带宽的网络,同时满足高可靠性•RDMA大大降低CPU负荷•实现DB2Purescale接近线性的可扩展性微软SQLServer数据仓库•更高性能,更低成本Teradata数据仓库•相较以太网,跨机柜SQL查询速度提升2倍•数据加载性能提升4倍©2014MellanoxTechnologies12-MellanoxConfidential-河南移动OracleRAC数据库解决方案采用MellanoxInfiniBand交换机作为心跳网络连接设备;全线速无阻塞网络;采用高可用的冗余连接方式,避免单点故障;40Gb/s高通讯带宽、100纳秒超低延迟,全面加速OracleRAC性能©2014MellanoxTechnologies13-MellanoxConfidential-InfiniBand+PCI-eSSD新架构加速Oracle数据库生产环境:处理器:16CPUItanium21.6GHZ(双核)内存:192G数量:3新架构RAC节点:AMDQuad-Core83802.5GHZ4CPU(4核)内存:64G数量:2分钟性能提升20倍以上©2014MellanoxTechnologies14-MellanoxConfidential-基于Mellanox以太网的OracleRAC方案1-融合架构网络层40/10GbE交换机应用及存储融合OracleRACNode1SDCPCServerw/ECSLSINytroSDSOracleRACNode2SDCPCServerw/ECSLSINytroSDSOracleRACNodenSDCPCServerw/ECSLSINytroSDSSDC:ScaleIO数据客户端SDS:ScaleIO数据访问服务端40/10GbEMellanox网络交换机Mellanox40GbE交换机+40GbE网卡实现最佳Oracle性能与扩展性©2014MellanoxTechnologies15-MellanoxConfidential-基于Mellanox以太网的OracleRAC方案2-分层架构OracleRAC数据库OracleRAC数据库SDC:ScaleIO数据客户端SDS:ScaleIO数据访问服务端40/10GbEEthernetSDSSDCSDCSDSSDS网络层40GbE互联PCServerw/ECSLSINytroPCServerw/ECSLSINytroPCServerw/ECSLSINytro数据库应用层存储层Mellanox网络交换机Mellanox40GbE交换机+40GbE网卡实现最佳Oracle性能与扩展性©2014MellanoxTechnologies16-MellanoxConfidential-Mellanox加速分布式OracleRAC性能Mellanox40GbE交换机+40GbE网卡实现最佳Oracle性能与扩展性©2014MellanoxTechnologies17-MellanoxConfidential-加速大数据©2014MellanoxTechnologies18-MellanoxConfidential-DataIntensiveApplicationsRequireFast,SmartInterconnectHost/FabricSoftwareICsSwitches/GatewaysAdapterCardsCables/ModulesEnd-to-End&VirtualNetworkReadyInfiniBandandEthernetPortfolioMetro/WAN©2014MellanoxTechnologies19-MellanoxConfidential-CertifiedNetworkingGear©2014MellanoxTechnologies20-MellanoxConfidential-任意服务器之间进行40Gb/s无阻塞通信,消除节点间I/O瓶颈网络采用36口交换机堆叠的Fat-tree架构,最大幅度地降低网络开销,随着节点数量的增加,整体性能线性增加,提供最佳的线性扩展能力集群任意节点均与两个交换机互联,实现系统的高可靠性;全省上网行为数据每天8TB,大数据处理平台(90台)40秒完成忙时数据装载、5小时内完成日报表处理河南移动大数据部署实例TCO大幅降低高达79.6%©2014MellanoxTechnologies21-MellanoxConfidential-•管理工具•性能•可靠性•SQL支持•备份与恢复451Research2013Hadoop调查Hadoop缺陷调查©2014MellanoxTechnologies22-MellanoxConfidential-Hadoop性能提升挑战•HDFS本事的数据延迟问题•不能支持大量小文件•MapReduce,Hbase,Hive,等等的效率.HDFS™(HadoopDistributedFileSystem)MapReduceHBaseHivePigMapReduceSQL(e.g.Impala)•性能提升需求–实时操作–更快执行速度©2014MellanoxTechnologies23-MellanoxConfidential-MapReduce工作进程©2014MellanoxTechnologies24-MellanoxConfidential-开源插件支持Hadoop版本•Apache3.0,Apache2.2.x,Apache1.3•ClouderaDistributionHadoop4.4内嵌支持HadoopMapReduceRDMA优化HDFS™(HadoopDistributedFileSystem)MapReduceHBaseDISKDISKDISKDISKDISKDISKHivePigMapReduce速度翻倍©2014MellanoxTechnologies25-MellanoxConfidential-HDFS操作ClientNameNodeDataNode148DataNode48DataNode142WriteReadReplicationReplicationHDFSFederationNameNode•HDFSFederation•更快硬盘•更快CPU和内存IO成为瓶颈©2014MellanoxTechnologies26-MellanoxConfidential-HDFS基于RDMA进行移植支持CDH5和HDP2.1HadoopHDFSRDMA优化HDFSClientJXIOJXIOJXIOJXIOHDFSCluster©2014MellanoxTechnologies27-MellanoxConfidential-Hadoop存储架构的限制•Hadoop使用本地硬盘保持数据本地性和低延迟–很多高价值数据存在于外置存储–拷贝数据到HDFS,运行分析,然后将结果发到另外系统–浪费存储空间–随着数据源的增多,数据管理变成噩梦•直接访问外部数据,无需拷贝?–需要解决性能问题©2014MellanoxTechnologies28-MellanoxConfidential-存储:从Scale-Up向Scale-Out演进Scale-out存储系统采用分布计算架