Mellanox交换机学习记录一、基本术语:1、IPOIB:是在IB网络上跑一个TCP/IP的协议,使用的IB网络,配置IP地址,但两端都是IB卡。2、EOIB:是在IB网络上跑以太网的协议,配IP地址,但一端是IB卡(上行),另一端为以太网卡(下行)简单来讲,IPOIB只需要infiniband的交换机,而EOIB需要用到bridgeX。BridgeX的两个端口,可以同时全部接IB网络,全部接以太网,1为IB,2为以太网,但不能1接以太网2接IB网。BRIDGEX的三个以太网口之间互相不通疑问:BRIDGEX是个什么样的产品,1和2端口在哪?3、SRP:SCSIRDMAprotocol,是IBSAN的一种协议,也被称为SCSIRrmoteProtocol,其主要作用是把SCSI协议的命令和数据通过RDMA的方式跑到Ifiniband网络上,和ISCSI类似。该协议主要是面向存储方面,提供了一个高带宽,高性能的存储。SCSI协议主要是在主机和存储设备之间传送命令、状态和块数据。注:RDMA(RemoteDirectMemoryAccess)技术全称远程直接数据存取,就是为了解决网络传输中服务器端数据处理的延迟而产生的。RDMA通过网络把资料直接传入计算机的存储区,将数据从一个系统快速移动到远程系统存储器中,而不对操作系统造成任何影响,这样就不需要用到多少计算机的处理功能。它消除了外部存储器复制和文本交换操作,因而能解放内存带宽和CPU周期用于改进应用系统性能4、MPI:主要面向计算机应用方面,大量的计算,加密解密等,需要并行计算,在HPC方面应用比较广泛。MPI是帮助用户进行并行计算的一个开源工具,有自己的标准(MPI1、MPI2等)。它做的是包括1、每个节点上起一个进程把程序加载起来运行程序2、解决程序起来之后运行过程中各种通讯并行计算可以理解成如果有8个节点,启动MPI之后可以看到8个运行结果,4个节点可以有4个运行结果。也可以设置ID进行分配任务,一个ID可以包含1个节点,也可以包含4个节点。5、UFM:统一网络架构管理器。软件资源。有两种管理模式:1、管理模式2、监控模式。监控模式可以随便在节点或交换机起SM,管理模式只允许在自己的服务器起SM。6、VPI:虚拟协议互联。7、QDR:QuadDataRate,是4倍数据倍率的意思。一般我们说到QDR都是指速率达到40G/S,SDR为10G/S,DDR为20G/S,QDR为40G/S,FDR为56G/S。疑问:怎么理解凭借VPI的灵活性,任何标准的网络、集群、存储和管理协议均可在利用整合软件堆栈的聚合网络上无缝运行。每个端口均可在InfiniBand、以太网或数据中心桥接(DCB)架构以及基于融合以太网的RDMA(RoCE)上运行。VPI简化了I/O系统设计,使得IT经理能够更方便地部署可解决动态数据中心的难题的基础架构。二、MELLANOX产品了解:1、Mellanox的交换芯片有两种,第四代InfiniScale®和第五代SwitchX™交换机芯片2、Mellanox交换机分为边缘交换机(EdgeSwitches)和导向级交换机(DirectorSwitches)产品有SX6000系列、IS5000系列,4系列等。还有其他的交换机比如网关产品,这块还没有具体了解。3、边缘交换机:边缘交换机见下图1,其中5022、5023、5024、5025、6025交换机没有CPU,没有管理功能,这种低端的边缘交换机一般面向数据库的产品市场,一般数据库节点只要2、4、8个左右。而5030,5035、4036、4036E、6036、6005、6012、6015、6018等属于比较高端的交换机。5030建议节点不超过108个,5035推荐管理节点在648个以下。以上交换机中,6系列以下的交换机链路速率都是QDR的40GB/S,6系列的交换机最高速率都打到FDR的56GB/S4、导向级交换机:Mellanox的导向器级交换机系列,可以从36扩展到648端口,总线速度14G,单一机箱内的带宽可从8.64Tb/s扩展至72.5Tb/s,并具备低延迟和每端口最高可达56Gb/s的端口速度。Mellanox的所有交换机均可与Mellanox的统一网络架构管理器(UFM™)软件加以整合,以用于管理横向扩展InfiniBand计算环境疑问:培训中说单芯片交换机为边缘交换机,并且一个芯片代表了一个节点,那么5030这种类型的交换机是否属于边缘交换机,是否只有一个芯片?一般说一个芯片延时为100NS,交换机内部是个2层交换机需要经过3个芯片交换所以是300NS,这种3个芯片的是什么类型交换机?上面导向级交换机中提到的总线速度14G是什么意思?5、Mellanox的getawate产品:4030E,34个QDR的INFINIBAND端口,2个万兆端口,5020有4个IN端口可以转到12个万兆端口或者16个FB端口疑问:这个端口转换怎么理解?16个FB端口是fabric端口?三、IB网络基础以及Infiniband知识学习:HCA:主机通道适配器,把CPU通过总线和infiniband交换网做一个连接,相当于把SERVER和infiniband网络接到一起。HCA可以出多个端口,更高的可靠性和性能,有自己的记忆存储空间,存储芯片,现在技术发展可以将芯片放到系统内存中,HCA都没有内存颗粒,全部都放到系统中了,HCA提供软件接口给最底层的infiniband协议,所以上面会做虚拟地址的解析,TCA:目标信道适配器可以把infiniband协议停掉另起一个ETH协议,HCA一个子系统,HCA也可以做到,TCA也可以用HCA来代替使用。Infiniband交换机主要是把所有infiniband节点通过二层交换机连接在一起,主要做2层的交换,在同一个子网中。用到16位LED(LID?)。而infiniband路由器主要是当infiniband节点不在一个子网中时,实现子网的拓展。(当一个子网中的节点数太多需要另一个子网时就需要用到路由器)。一个子网中可以容纳4.8万个节点。物理层用于infiniband的资料和物理介质的传输,LINK层指示了资料的源和终点在什么地方,当跨子网时需要上升到网络层疑问:什么时候需要用到2个子网,一个子网中可以容纳4.8万个节点,什么时候才能达到这样的网络结构?16位LED什么意思?VirtureLan:Virturelan和以太网的VLAN不一样,指的是将一条物理通道虚拟成几条虚拟通道。INF在他的规范上要建立16个VIRTURELAN一个管理,15个固定传输,一般15个不一样,可以根据不同需要分不同的带宽。交换机上一个端口可以分很多不同的LAN疑问:VirtureLan需要再了解一下子网管理器:子网管理器即SM,用于子网的管理,分配子网中每个节点的ID,每隔一段时间就会在子网中扫描是否有新的成员加进来就会分配一个ID,整合进来。如果没有还维持以前的路由配置。当子网管理器起来之后会先扫描GOID,也就是SM不停的问SA在不在,SA相应给SM,这样子网管理器通过GOID给节点安排LOCALID,第一个排1,第二个排2,这样下去建立子网中的路由表。GOID:全球唯一,出厂设置的一个ID。GOID是针对芯片的,一个交换芯片有36个口,那么只有一个GOID。在一个子网中只能有一个子网管理器在进行管理,至少要有一个子网管理器在运行。管理的那个子网管理器状态为master,其他节点如果开启了子网管理,那么状态为STANDBY。如果一个子网中有很多的操作系统,那么子网管理器可以在任何一个操作系统下进行管理着所有的操作系统。子网中所有制度由SM指定,SA实施。一个子网中可以分不同的区,分区相互独立,互相看不到,通过分区增加安全性。疑问:那么一个交换机中有几个芯片怎么来判断,那种低端的交换机有几个芯片,是如何给这些交换机划分芯片的?如何查看GOID和LID案例:起了SM,却发现所有的节点都是死的,可能原因有哪些?1、线的问题2、OPENSM如果起在HOST端,SM默认在端口1上,即使是双端口,连在第二个端口也不会好,如果想起在第二个端口,那么需要加上第二个端口的GOID,很多默认的东西都是在第一个端口上,双端口的卡也是如此。疑问:怎么理解一台SERVER在第三层上挂着所有端口都要在第三层上挂着。