第五讲多核技术、虚拟化技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第四讲多核技术与虚拟化技术多核技术MultiplecoresdelivermoreperformanceperwattC1C1C4C4C2C2C3C3SmallSmallcorecoreBigcoreBigcoreCacheCacheCacheCache11223344112211111122334411223344PowerPowerPerformancePerformancePower=Power=¼¼Performance=1/2Performance=1/2ManycoreismoreManycoreismorepowerefficientpowerefficientPower~areaPower~areaSinglethreadSinglethreadperformance~area**.5performance~area**.5Montecito11~1.5~1.5~1.7~1.7~2.9~2.94P/4STPC-CRelativePerformanceItanium2Itanium2-6MItanium2-9MMontecitoEnterprisePerformanceMontecitoCoreCoreCoreCoreCacheCacheCacheCache•Excellentprogressonfirstsilicon–RunningmultipleOS’sindualcoreandmulti-threading–FirstdemoatIDFshoweddualcoreandmulti-threading–FirstsampledeliveriestoOEMsbySept•HandfulofsamplesinSept•VolumesamplesbegininlateQ4•MontecitoproductiontargetsQ4’05–(3)busspeedssupported–400,533,667•Performanceandnewtechnologies–~1.5-2XhigherperformancethanMadison9M–MultiplenewCPUandplatformtechnologies•DualCore•Multi-threading•Foxton(dynamicperformanceboost)•Silvervale(virtualization)•Pellston(reliability)•DemandBasedSwitching(powerconsumption)MontvaleSummary•2H’06follow-ontoMontecito–New:65nmprocesstechnology–New:Targeting2.8GHz–Dual-coreprocessor,multi-threading,foxton–24MBL3cache–CompatiblewithMadison-9M,Montecitoplatforms–Extendsplatformlifeprovidingperformanceboostandinvestmentprotection400MHz5-Load,533,667MHz3-Load,800MHz2-LoadSystemBusCoreL3CacheCoreL3CacheArbiterSystemBusCoreL3CacheCoreL3CacheCoreL3CacheCoreL3CacheArbiterArbiterMontvale™PerformanceandPower\PerformanceboostoverMontecito:™Upto~35%onSPECint,upto~20%onSPECfp,upto~20-25%onTPCC1\WithinMontecito&Madisonpower/thermalenvelope™Platformsupport\CompatibleSKUs:400MHz5-loadbus,533MHzand667MHz3-loadbus\800MHz(2-load)supportunderinvestigation1~20%projectedonOEMcustom4Ssystem,upto~25%onlargescale64SsystemContinuedenhancementofItaniumContinuedenhancementofItanium®®processorfamilyprocessorfamilyextendsplatformlifeandprovidesperformanceleadershipextendsplatformlifeandprovidesperformanceleadership协处理器技术™多核架构从通用的对等设计迁移到“主核心+协处理器”的非对等设计™IBM的Cell\为索尼PS3游戏机定制\拥有9个硬件核心的多核处理器\1个核心主处理器™拥有完整的功能™是PowerPC970的精简版本™主要职能就是负责任务的分配™实际的浮点运算由协处理器来完成\8个协处理器™专门用于浮点运算™所需的运算规则非常简单,只要CPU运行频率足够高,Cell就能够获得惊人的浮点效能考虑以协处理器为中心优化设计?Cell性能™Cell起步频率即达到4GHz\256Gigaflops浮点运算能力,接近超级计算机的水准™每个SPE协处理器拥有4路并行的整数/浮点单元,每个运算周期又可执行4次32位浮点运算™一个时钟周期可执行两个运算操作™每个Cell拥有8枚SPE协处理器,工作频率假设在4GHz,此时Cell所具有的浮点效能就是2×4×8×4GHz=256Gigaflops\英特尔的4路Montecito安腾(双内核)系统也仅获得45Gigaflops的浮点性能256DD1(第一代):2.34(亿)DD2(第二代):2.5(亿)IBMCell9.05800万PowerPC970运算能力(GFlops)集成的晶体管数(个)处理器名称Cell的新颖设计思想™Cell的高效能很大程度上来自于其新颖的设计思想:\主处理器与协处理器各司其职\内核设计精简高效,以实现高频运作\运算单元则采用128位并行结构分布式中:系统架构、调度等能否借鉴该思想?高度适应性的Cell及所构成的Cell计算网络™Cell可以对处理内核的数量进行任意裁减\嵌入式设备:只有单个核心,工作在较低的频率,较低的能耗\便携电脑和桌面PC:可使用与PS3游戏机一样的标准Cell,或者对核心进行适当裁减\工作站/服务器系统:可以将两枚Cell处理器直接集成在一起以获得更高的效能\大型计算机:可配置成包含四枚独立Cell处理器的“MCM模块(Multi-chipmodule)”,具有每秒万亿次浮点的运算能力\分布式计算系统:利用Cell的超高速度FlexIO芯片连接总线,将不同计算设备联成一体,实现运算能力与内存资源的分享智能空间、普适计算用它的结构思想如何?Cell处理器的整体架构FrontEndInstructionFetchDecodeDispatchCacheExecutionCoreFX1FX2IntegerExcutionUnitFPUFPUFloatPointUnitLSULoad-StoreUnitVectorUnitVPUIssueLogicandRCBCommitCommitUnitRe-OrderStorageLogicControlLogicExecutionLogicPPE处理单元™以IBM的Power4处理器为基础™可支持同步多线程技术™该处理单元内置了32KB一级缓存和512KB二级缓存™规格与同出一脉的PowerPC970处理器类似SPE协处理器™运算处理单元:4个32位浮点运算单元,4个32位整数运算单元™寄存器:128bit×128bit™局部缓存:256KB™流水线长度:18级™输入总线:128bit宽度的总线3条™输出总线:128bit宽度的总线1条SPE使用对用户不透明™用户程序或数据不得大于256KB:代码+数据+栈总大小不能超过256K.\SPE使用显式控制的片内局部存储器LS(LocalStore)代替cache来简化设计™用户程序可直接对256KB局部缓存访问,象局部存储器™LS是非一致性的,象分布式存储™程序员或编译器可以在SPE进行计算的同时,显式地安排LS和主存之间数据的移动或使用\代码超出LS大小,使用overlay技术(sdk支持)定态置换局部缓存和共享存储内容\数据超出大小,可定制的软件cache(sdk支持)来实现对数据的访问或预取\除了sdk支持,上面的问题还可以手工用DMA来解决,关于DMA操作sdk也提供了封装。\据说9月份IBM的编译器会直接支持内存使用超过256K的限制™两次编译:SPE加速程序编译+PPE通用程序编译,然后连接生成可执行代码;HybridProgramming™需要用户或编译器优化使用,使得性能可以发挥到及至™硬件电路简单,可以做到高速,低功耗第三方软件必须移植PPE/SPE单元的内部联结™内部有一条768bit位宽的“EIB单元互连总线环(ElementInterconnectBUSRing,EIBRing)”\是一个强大的内部总线控制逻辑—Cell内所有的功能单元都通过EIB总线环连接在一起,包括PPE、八个SPE、XDR内存控制器以及外部总线接口\采用的是全双工的128bit连接总线™若Cell工作在4GHz频率\各个功能单元便都拥有4GHz×128bit/Hz×2(全双工)÷8Byte/bit=128GBps带宽CELL运行模式™与常规的双核处理器不同,Cell内的九个核心具有相当强的独立性\PPE处理单元的任务是运行操作系统\应用程序相关的线程运算完全由SPE协处理器运行\多个应用程序的线程被平均分布到各个SPE中,整套系统负载均衡™网络上的相互协作\可以接受并执行相关来自Cell计算网络中其他设备的计算请求,结果再通过网络传输给任务发起者\网络上的任务可以被均匀分散到所有的Cell处理器上,达到昀佳的昀短完成时间Cell的功耗分析™工作频率为4GHz时\每个SPE协处理器的工作电压高于1.1V,功耗只有4瓦\所有SPE协处理器的功耗总和昀高也不过4瓦×8=32瓦\PPE处理单元的核心部分,功耗水平也会控制在很低的水平\Cell运算部分的功耗水平会在40瓦左右,即便加上缓存单元整体功耗也可控制在较好的水平上™若频率降到3GHz,工作电压只需要0.9V,功耗只有2瓦™将频率降低到2GHz,每个SPE的功耗仅有1瓦™2006年,IBM将采用更先进的65纳米技术来制造Cell,将具有更加出色的功耗水平XDR内存控制器与FlexIO前端总线™整合XDR内存控制器以及采用FlexIO前端总线是Cell的两大技术亮点™系统拥有25.6GBps的内存带宽\Cell与3.2GHz的XDR模组搭配\16bit×4通道×3.2Gbps÷8Byte/bit=25.6GBps的内存带宽™跨平台的内存管理\组建由多个Cell设备组成的计算网络\所有的Cell处理器的内存资源在逻辑上可形成一个有机整体,无需任何修改即可直接协作™FlexIO前端总线采用6组8位全双工配置,有效带宽76.8GBps\提供给I/O芯片:上下行各12.8GBps\提供给PS3的图形处理器或其他Cell处理器:上下行各25.6GBpscell发展前瞻™可作为替代X86的下一代计算平台™X86也许要十几年后X86处理器才可能达到Cell今天所具有的运算性能™Cell要在短时间内取代X86绝非易事\昀大的问题在于Cell的软件平台尚未成熟™尤其是分布式计算架构需要软件的针对性优化\在昀关键的操作系统方面,IBM选择了开源的Linux™在过去数年间,IBM花费大量的资金和人力推动Linux系统的开发,并将自己在UNIX领域的研究成果无偿贡献出来™2005年,和Mercury计算机系统公司合作,制

1 / 122
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功