并行计算硬件,性能评测汤善江ChinaResearchLaboratory▪并行计算机系统结构–Flynn分类–互连网络–并行计算机结构模型–内存访问模式▪多核处理器–多核技术概述–GPU/MIC▪并行计算性能评测ChinaResearchLaboratory▪并行计算机系统结构–Flynn分类–互连网络–并行计算机结构模型–内存访问模式▪多核处理器–多核技术概述–GPU/MIC▪并行计算性能评测ChinaResearchLaboratory://cs.tju.edu.cn/orgs/hpclab/SIMD执行52017/9/22ChinaResearchLaboratory▪并行计算机系统结构–Flynn分类–互连网络–并行计算机结构模型–内存访问模式▪多核处理器–多核技术概述–GPU/MIC▪并行计算性能评测ChinaResearchLaboratory互连网络▪静态互连网络:处理单元间有着固定连接的一类网络,在程序执行期间,这种点到点的链接保持不变;▪动态网络:用交换开关构成的,可按应用程序的要求动态地改变连接组态;72017/9/22ChinaResearchLaboratory静态互连网络(1)▪一维线性阵列(1-DLinearArray):–并行机中最简单、最基本的互连方式,–每个节点只与其左、右近邻相连,也叫二近邻连接,–N个节点用N-1条边串接之,内节点度为2,直径为N-1,对剖宽度为1,–当首、尾节点相连时可构成循环移位器,在拓扑结构上等同于环,环可以是单向或双向。82017/9/22ChinaResearchLaboratory静态互连网络(2)▪二维网孔(2-DMesh):–每个节点只与其上、下、左、右的近邻相连(边界节点除外)–在垂直方向上带环绕,水平方向呈蛇状,称为Illiac网孔–垂直和水平方向均带环绕,则为2-D环绕92017/9/22(a)2-D网孔(b)Illiac网孔(c)2-D环绕ChinaResearchLaboratory静态互连网络(3)▪二叉树:–除了根、叶节点,每个内节点只与其父节点和两个子节点相连。–传统二叉树的主要问题是根易成为通信瓶颈。胖树节点间的通路自叶向根逐渐变宽。102017/9/22ChinaResearchLaboratory静态互连网络(4)▪超立方112017/9/22ChinaResearchLaboratory动态互连网络(1)▪总线122017/9/22LMIOC本地总线高速缓存CPUIFIFIF存储器总线存储器单元IFIFCPU板存储器板I/O板通信板系统总线(底板上)数据总线缓冲CCIOP数据总线网络(以太网等)磁盘和磁带部件打印机或绘图仪本地外围设备(SCSI总线)MCIF缓冲ChinaResearchLaboratory动态互连网络(2)▪交叉开关(Crossbar)132017/9/22ChinaResearchLaboratory动态互联网络(3)▪单级交叉开关级联起来形成多级互连网络142017/9/220101010101010101(a)4种可能的开关连接000001010011100101110111输入000001010011100101110111输出第0级第1级第2级(b)一种8输入的Omega网络ChinaResearchLaboratory▪并行计算机系统结构–Flynn分类–互连网络–并行计算机结构模型–内存访问模式▪多核处理器–多核技术概述–GPU/MIC▪并行计算性能评测ChinaResearchLaboratory(ParallelVectorProcessor)▪含有为数不多、功能强大的定制向量处理器(VP),定制的高带宽纵横交叉开关及高速的数据访问。▪通常不使用高速缓存,而是使用大量向量寄存器及指令缓存,使得该系统对程序编制的要求较高。▪只有充分考虑了向量处理特点的程序才能在该系统上获得较好的性能。▪银河I,NEC地球模拟器,GPU。。。ChinaResearchLaboratory地球模拟器ChinaResearchLaboratory(SymmetricMultiprocessor)▪采用商品化的处理器,这些处理器通过总线或交叉开关连接到共享存储器。▪每个处理器可等同地访问共享存储器、I/O设备和操作系统服务▪扩展性有限▪曙光1号,IBMRS/6000,多核处理器。。。ChinaResearchLaboratory://cs.tju.edu.cn/orgs/hpclab/202017/9/22MPP(MassivelyParallelProcessor)▪处理节点采用商品微处理器▪系统中有物理上的分布式存储器▪采用高通信带宽和低延迟的互连网络(专门设计和定制的)▪能扩展至成百上千乃至上万个处理器▪异步MIMD,构成程序的多个进程有自己的地址空间,进程间通信消息传递相互作用▪Tianhe,K-Computer,CrayXT5,BlueGene。。。。ChinaResearchLaboratory://cs.tju.edu.cn/orgs/hpclab/222017/9/22Jaguar▪CrayXT5ChinaResearchLaboratory://cs.tju.edu.cn/orgs/hpclab/242017/9/22IBMBlueGeneChinaResearchLaboratory(集群)▪分布式存储,MIMD,工作站+商用互连网络,每个节点是一个完整的计算机,有自己的磁盘和操作系统,而MPP中只有微内核▪优点:–投资风险小–系统结构灵活–性能/价格比高–能充分利用分散的计算资源–可扩展性好▪问题–通信性能–并行编程环境▪IBMCluster1350/1600。。。ChinaResearchLaboratory://cs.tju.edu.cn/orgs/hpclab/272017/9/22并行计算机结构模型小结P/CLMNIC定制网络(c)MPPP/CLMNICMBMB…VPSM交叉开关(a)PVPVPVPSMSM…P/CSMSMI/O总线或交叉开关(b)SMPP/CP/C…P/CLMNICDIRMB定制网络(d)DSMP/CLMNICDIRMB…LDP/CMMBIOB(e)COWLDP/CMMBIOB商品网络(以太网,ATM,etc.)BridgeNICNICBridge…ChinaResearchLaboratory▪并行计算机系统结构–Flynn分类–互连网络–并行计算机结构模型–内存访问模式▪多核处理器–多核技术概述–GPU/MIC▪并行计算性能评测ChinaResearchLaboratory并行计算机访存模型(1)▪UMA(UniformMemoryAccess)均匀存储访问。–物理存储器被所有处理器均匀共享;–所有处理器访问任何存储字取相同的时间;–每台处理器可带私有高速缓存;–外围设备也可以一定形式共享。ChinaResearchLaboratory并行计算机访存模型(2)▪NUMA(NonuniformMemoryAccess)非均匀存储访问。–被共享的存储器在物理上是分布在所有的处理器中的,其所有本地存储器的集合就组成了全局地址空间;–处理器访问存储器的时间是不一样的;访问本地存储器LM或群内共享存储器CSM较快,而访问外地的存储器或全局共享存储器GSM较慢(此即非均匀存储访问名称的由来);–每个处理器可带私有高速缓存,外设也可以某种形式共享。LM1P1LM2P2LMnPn互连网络(a)共享本地存储模型全局互连网络(b)层次式机群模型GSMGSMGSM…………PCINCSMPPCSMCSM群1……PCINCSM群NPPCSMCSM……ChinaResearchLaboratory并行计算机访存模型(5)▪NORMA(No-RemoteMemoryAccess)非远程存储访问。–所有存储器私有;–节点间通过消息传递进行数据交换。消息传递互连网络(网络,环网,超立方,立方环等)PMPMMPMPMPMPMPPMPMPM............ChinaResearchLaboratory▪并行计算机系统结构–Flynn分类–互连网络–并行计算机结构模型–内存访问模式▪多核处理器–多核技术概述–GPU/MIC▪并行计算性能评测ChinaResearchLaboratory摩尔定律ChinaResearchLaboratory://cs.tju.edu.cn/orgs/hpclab/352017/9/22MemoryWallChinaRes