高性能计算与高性能计算机总结什么是高性能计算和高性能计算机什么是集群(Cluster),怎么配置集群什么样的用户需要高性能计算机高性能用户都关心哪些问题高性能计算机销售和一般服务器销售的区别提纲高性能市场概要曙光和高性能计算机什么是高性能计算什么是高性能计算机集群系统高性能计算市场IDC对08年服务器市场的预测:08年,全球服务器产业预计以接近9%的速度发展,HPC产业预计的发展速度将会超过12%在中国,HPC市场的发展速度将会超过20%HPC市场既是一个传统的市场,又是一个新兴的、高速发展的市场高:定位高端用户标杆项目,影响力大平民化趋势快速发展高性能计算市场一些厂商的表现例如:Intel国家的政策自主创新………技术的发展CPU多核化的趋势多进程、多线程并行化的趋势其他并行计算机上的广泛应用高端下移………高性能计算的市场正处于发展阶段提纲高性能市场概要曙光和高性能计算机什么是高性能计算什么是高性能计算机集群系统计算所/曙光和高性能计算1956年成立,我国第一个计算技术研究所,被誉为“我国计算机事业的摇篮”第一台电子管计算机(103机)第一台大型晶体管计算机(109机)第一台大型集成电路计算机(111机)第一台向量计算机(757机)第一台大规模并行计算机(曙光1000)被国防部门誉为“功勋机”109丙机,为两弹一星做出过重要贡献计算所/曙光和高性能计算1993.10曙光一号16个处理器,每秒6.4亿次使中国成为少数能生产制造MPP的国家之一1995.5曙光100036个节点机,每秒25.6亿次1998.12曙光2000I68个节点机,每秒200亿次2000.1曙光2000II164个CPU,每秒1117亿次中国第一个SMP集群计算所/曙光和高性能计算2001.10曙光3000每秒4032亿次SUMA标准诞生2003.3曙光4000L644个CPU,每秒3万亿次2004.6曙光4000A2560颗CPU,每秒10万亿次名列世界第十,成为除美日以外第一个进入世界“top500”前10名的国家计算所/曙光和高性能计算运算速度超过百万亿次的曙光5000,将使中国成为美国之后第二个能生产百万亿次超级计算机的国家曙光5000共采用3万颗CPU核,峰值230万亿次,Linpack效率超过70%曙光5000计算能力超过曙光4000A十多倍,而体积、功耗与曙光4000A相同,代表了中国高性能计算机发展的最高水平中国登峰造极的最高性能的计算机系统计算所/曙光和高性能计算2005年2006年2007年提纲高性能市场概要曙光和高性能计算机什么是高性能计算什么是高性能计算机集群系统什么是高性能计算?高性能计算HPC:HighPerformanceCompute高性能计算---并行计算并行计算(ParallelComputing)高端计算(High-endParallelComputing)高性能计算(HighPerformanceComputing)超级计算(SuperComputing)什么是高性能计算?计算科学与传统的两种科学,即理论科学和实验科学,并立被认为是人类认识自然的三大支柱,他们彼此相辅相成地推动科学发展与社会进步。在许多情况下,或者是理论模型复杂甚至理论尚未建立,或者实验费用昂贵甚至无法进行时,计算就成了求解问题的唯一或主要的手段。为什么要做高性能计算——应用需求为什么要做高性能计算人类对计算及性能的要求是无止境的从系统的角度:集成系统资源,以满足不断增长的对性能和功能的要求从应用的角度:适当分解应用,以实现更大规模或更细致的计算问题:科学和工程问题的数值模拟与仿真计算密集数据密集网络密集三种混合什么人需要高性能计算高性能计算机都在什么地方使用?都卖到哪儿去?国外状况国内状况提纲高性能市场概要曙光和高性能计算机什么是高性能计算什么是高性能计算机集群系统什么是高性能计算机?由多个计算单元组成,运算速度快、存储容量大、可靠性高的计算机系统。也称为:巨型计算机、超级计算机目前任何高性能计算和超级计算都离不开使用并行技术,所以高性能计算机肯定是并行计算机。其发展历程可以简单的分为两个时代专用时代包括向量机,MPP系统,SGINUMA系统,SUN大型SMP系统,也包括我国的神威,银河,曙光1000等。之所以称为“专用”,并不是说它们只能运行某种应用,是指它们的组成部件是专门设计的,它们的CPU板,内存板,I/O板,操作系统,甚至I/O系统,都是不能在其它系统中使用的。由于技术上桌面系统与高端系统的巨大差异,和用户群窄小。普及时代高性能计算机价格下降,应用门槛降低,应用开始普及。两个技术趋势起到重要作用。商品化趋势使得大量生产的商品部件接近了高性能计算机专有部件标准化趋势使得这些部件之间能够集成一个系统中,其中X86处理器、以太网、内存部件、Linux都起到决定性作用。机群系统是高性能计算机的一种,它的技术基础和工业基础都是商品化和标准化。高性能计算机系统架构并行向量机SMPDSM(NUMA)MPP,节点可以是单处理器的节点,也可以是SMP,DSMClusterConstellation高性能计算机的制造厂商CraySGIIBM曙光银河神威并行计算机系统类型Flynn分类:SISD,SIMD,MIMD,MISD结构模型:PVP,SMP,MPP,DSM,COW访存模型:UMA,NUMA,COMA,CC-NUMA,NORMA并行计算机分类Flynn分类Flynn(1972)提出指令流、数据流和多倍性概念,把不同的计算机分为四大类:–SISD(Single-InstructionSingle-Data)–SIMD(Single-InstructionMulti-Data)–MISD(Multi-InstructionSingle-Data)–MIMD(Multi-InstructionMulti-Data)现代高性能计算机都属于MIMD。MIMD从结构上和访存方式上,又可以分为:–结构模型:PVP,SMP,MPP,DSM,COW–访存模型:UMA,NUMA,COMA,CC-NUMA,NORMA结构模型对称多处理机系统(SMP)•SMP–对称式共享存储:任意处理器可直接访问任意内存地址,且访问延迟、带宽、机率都是等价的;系统是对称的;–微处理器:一般少于64个;–处理器不能太多,总线和交叉开关的一旦作成难于扩展;–例子:IBMR50,SGIPowerChallenge,SUNEnterprise,曙光一号;分布式共享存储系统(DSM)•DSM–分布共享存储:内存模块物理上局部于各个处理器内部,但逻辑上(用户)是共享存储的;这种结构也称为基于Cache目录的非一致内存访问(CC-NUMA)结构;局部与远程内存访问的延迟和带宽不一致,3-10倍高性能并行程序设计注意;–与SMP的主要区别:DSM在物理上有分布在各个节点的局部内存从而形成一个共享的存储器;–微处理器:16-128个,几百到千亿次;–代表:SGIOrigin2000,CrayT3D;大规模并行计算机系统(MPP)•MPP–物理和逻辑上均是分布内存–能扩展至成百上千个处理器(微处理器或向量处理器)–采用高通信带宽和低延迟的互联网络(专门设计和定制的)–一种异步的MIMD机器;程序系由多个进程组成,每个都有其私有地址空间,进程间采用传递消息相互作用;–代表:CRAYT3E(2048),ASCIRed(3072),IBMSP2,曙光1000机群系统(Cluster)•Cluster–每个节点都是一个完整的计算机–各个节点通过高性能网络相互连接–网络接口和I/O总线松耦合连接–每个节点有完整的操作系统–曙光2000、3000、4000,ASCIBlueMountain访存模型UMA:NORMA:NUMA:多处理机(单地址空间共享存储器)UMA:UniformMemoryAccessNUMA:NonuniformMemoryAccess多计算机(多地址空间非共享存储器)NORMA:No-RemoteMemoryAccess结构模型--访存模型UMA:NUMA:NORMA:多处理机&&多计算机UMA:NUMA:NORMA:多处理机(共享存储)多计算机(分布式存储)并行计算机的性能指标名称符号含意单位机器规模n处理器的数目无量纲时钟速率f时钟周期长度的倒数MHZ工作负载W计算操作的数目Mflop顺序执行时间T1程序在单处理机上的运行时间s(秒)并行执行时间Tn程序在并行机上的运行时间s(秒)速度Rn=W/Tn每秒百万次浮点运算Mflop/s加速Sn=T1/Tn衡量并行机有多快无量纲效率En=Sn/n衡量处理器的利用率无量纲峰值速度Rpeak=nR’peak所有处理器峰值速度之积,R’peak为一个处理器的峰值速度Mflop/s利用率U=Rn/Rpeak可达速度与峰值速度之比无量纲通信延迟to传送0-字节或单字的时间Μs渐近带宽r∞传送长消息通信速率MB/s衡量系统性能的主要指标(1)MIPS(百万条指令每秒)理论计算:处理器的时钟频率与平均每条指令所需的时钟周期(CyclesPerInstruction)的比值MIPS=clockrate/CPI=(numberofInstructions)/(CPUtime)实际数值:对于一个应用(程序),指令数目与运行时间的比值MIPS’=(numberofInstructions)/(executiontime)衡量系统性能的主要指标(2)MFLOPS(百万次浮点运算每秒)理论计算:系统的浮点计算部件每秒可以做的浮点计算次数;MFLOPS=(numberofFloatingPointcomputeUnit)×NN为每个浮点计算部件一个周期内可以做的最多浮点操作数,对于目前常见的微处理器,一般为1-4;实际数值:对于一个应用,浮点运算数目与运行时间的比值;MFLOPS’=(numberoffloatingoperations)/(executiontime)两个指标的缺点都不能全面表征系统的性能MIPS指标比较适用于事务处理领域;不同系统的指令不同,一条指令的功能和复杂度差别很大,如IBM的大型主机(Mainframe),价格达到千万元的大型机(含配套软件),其MIPS值一般为5-10,不及价值数千元的Pentium4PC;非计算密集型的应用(事务处理)对I/O要求高,计算密集型的应用(图形程序)对主频要求高。用户对可靠性等特殊要求;应用的需求不同,高性能计算领域也是“通才”难求,各有所长;某些特殊类型计算机适合特定的应用。两个指标的缺点理论计算和实际测试的差别对于一个具体的应用,可获得的实际性能与理论峰值有相当大的差距,即效率低的问题;应用效率成为高性能计算的核心问题之一,受到普遍关注。加速比定律在并行计算系统,并行算法(并行程序)的执行速度相对于串行算法(串行程序)加快的倍数,就是该并行算法(并行程序)的加速比;加速比是衡量“并行收益”的重要指标;Amdahl定律适用于固定计算规模的加速比性能描述,Gustafson定律适用于可扩展问题。Amdahl定律S=(WS+WP)/(WS+WP/p)=1/(1/p+f(1-1/p))显然,当p→∞时,S=1/f,即对于固定规模的问题,并行系统所能达到的加速上限为1/f一度引发了并行界部分人士的悲观情绪Gustafson定律S‘=(WS+pwp)/(WS+WP)=p-f(p-1)=f+p(1-f)并行计算是为了解决大规模并行问题,可并行部分的比例是可扩大的加速比与处理器数成斜率为(1-f)的线性关系这样串行比例f就不再是程序扩展性的瓶颈,当然,f越低,斜率会越大,加速性能越好。Linpack采用主元高斯消去法求解双精度稠密线性代数方程组,结果按每秒浮点运算次数(flops)表示。