AnalystMeetAugust27,2002SCSTHITMulticoreProgrammingInstructor:ZhangWeizhe(张伟哲)ComputerNetworkandInformationSecurityTechniqueResearchCenter,SchoolofComputerScienceandTechnology,HarbinInstituteofTechnologyAnalystMeetAugust27,2002SCSTHIT多核处理器体系结构SCST3HIT3提纲多核处理器基本概念多核处理器的发展格局多核处理器软硬件挑战SCST4HIT4多核处理器概念■片上多处理器(CMP,ChipMultiprocessor)-基于单个半导体芯片上拥有两个或多个一样功能、完整的处理核心,多核心通常共享2或3级cache。核的设计简单、功耗低。■CMP可分为同构多核和异构多核■计算内核相同,地位对等的称为同构多核■计算内核不同,地位不对等的称为异构多核■异构多核多采用“主处理核+协处理核”的设计SCST5HIT5单核技术的瓶颈■多年来,在单线程性能方面已取得重大的进展■为提高单线程性能,采用了各种微体系结构技术■超标量发射■乱序发射■超流水技术■推测执行■但近年来,通过这些技术并未获得更好的性能■能量和存储延时问题,已经成为提高单线程性能的障碍■一些高频率芯片方案已被取消SCST6HIT6能耗问题■能量消耗大约与主频成立方关系■P~c*f3■处理器能量的消耗已经到了现有技术的极限■对于有足够多线程的应用■加倍并发线程的数目,能量消耗*2■减半线程的工作频率,能量消耗/8■故获得同等性能,能量仅为原来的1/4SCST7HIT7多核技术的优势SCST8HIT多核的并行运行SCST9HIT在每个核中,线程是并发的SCST10HIT10多核与多处理器的比较■多处理器:两个或两个以上的CPU及主板上的多个CPU插槽■多核处理器:一颗CPU搭载两个核芯,即1die2cores,即在一个单晶硅上集成了多个核芯SCST11HIT多核与多处理器的比较11双核■两个核在一个芯片内直接连接■多线程和多进程自动并行处理■热量消耗增加的很少■封装成本降低两个处理器•两个分开的芯片通过外在系统总线连接•需要外在软件支持•更多的热量消耗SCST12HIT12多核与超线程的比较■超线程:Hyper-ThreadingTechnology■HT是Intel对SMT的实现,在最近的P4和Xeon处理器中有2个硬件线程■逻辑的、虚拟的双处理器■同时执行2个线程■性能提升SCST13HIT13超线程与多核的比较(续)SCST14HIT14超线程与多核的比较(续)SCST15HIT15超线程与多核的比较(续)SCST16HIT16超线程与多核的比较(续)SCST17HIT17超线程与多核的比较(续)SCST18HIT18超线程与多核的比较(续)SCST19HIT19提纲多核处理器基本概念多核处理器的发展格局多核处理器软硬件挑战SCST20HIT20多核溯源■1997,IEEE计算机分会组织学术界讨论10亿晶体管级别微处理器结构,多核心处理器(CMP)就被认为是未来最有扩展潜力的方案HammondL,NayfehBA,OlukotumK.ASingle-ChipMultiprocessor.IEEEComputer,1997,30(9):79-85■2006年YalePatt教授在IEEE建立60周年纪念演讲中多核心发展已经不再是何时发生、如何进行的问题,它已经是目前的趋势和已经发生的事实■YalePat.ComputerArchitectureResearchandFutureMucroprocessor:WhereDoWeGoFromWhere?ISCA’06SCST21HIT21产业界多核处理器竞争激烈■AMD公司的多核心处理器■Intel公司的多核心处理器■IBM公司的多核心处理器■SUN/HP公司的多核心处理器SCST22HIT22AMD公司的多核心处理器SCST23HIT23AMD公司的多核心产品■2005年针对企业级服务器Opteron多核心处理器■2005年Athlon64和Sempron桌面芯片,Turion移动芯片■2007夏季代号为“Barcelona”的真四核AMD皓龙™处理器,AMD真四核AMD皓龙处理器是全球首款将4颗处理核心集成到一个硅片上的x86CPU。SCST24HIT24AMD双核的核心技术■Toledo&Manchester■两个Venice核心整合,各自有独立的512KB或1MB二级缓存,共享HyperTransport■采用了SRQ(SystemRequestQueue,系统请求队列)技术,每一个核心都将其请求放在SRQ中,当获得资源之后请求将会被送往相应的执行核心■缓存数据的一致性不需要通过北桥芯片,直接在处理器内部就可以完成SCST25HIT25AMD双核SCST26HIT26AMD四核酷龙■LargesharedL3cachesharesdatabetweencoresefficientlywhilehelpingreducelatencytomainmemory■DedicatedL1andL2cachepercorehelpsperformanceofvirtualizedenvironmentsandlargedatabasesbyreducingcachepollutionassociatedwithasharedL2cache■TheL1cacheofAMDOpteronprocessorscanhandledoublethenumberofloadspercycleasSecond-GenerationAMDOpteronprocessorstohelpkeepCPUcoresbusySCST27HIT■AMD皓龙(Opteron)■AMD速龙(Athlon64)■AMD闪龙™(Sempron64)处理器■AMD羿龙™(phenom)处理器■AMD炫龙™64(Turion64)■核数:2,3,4,6,8,1627SCST28HIT28产业界多核处理器竞争激烈■AMD公司的多核心处理器■Intel公司的多核心处理器■IBM公司的多核心处理器■SUN/HP公司的多核心处理器SCST29HIT29RoadmapofIntelProcessorsENERGY-EFFICIENTPERFORMANCETIMESingle-core,single-threadHyper-ThreadingDualCoreQuad-Core10’sto100’sofcoresEraofTera-ScaleComputingSCST30HIT30Intel多核处理器■2005年取消了4GHz主频的P4处理器■终止了采用主频为处理器命名■2006,Woodcrest(Xeon5100)和Clovertown四核,推出移动(CentrinoDuoMobile/CoreDue),桌面(PentiumD/CoreDue),工作站(Dual-CoreXen),高性能服务器(Dual-CoreItanium2)■Multi-everywhere单芯片中处理器核心数目提高到10-100数量级,Tera-Scale项目要求处理万亿量级浮点运算能力--2015yearSCST31HIT31Intel双核的核心技术■HomogeneousMulti-core■Eachwithitsownexecution■resources■EachwithitsownL1cache■32Kinstructionand32Kdata■8-waysetassociative;64-byteline■BothcoressharetheL2cache■2MB8-waysetassociative;64-bytelinesize■10clockcycleslatency;WriteBackupdatepolicyEXECoreFPUnitEXECoreFPUnitL2CacheL1CacheL1CacheSystemBus(667MHz,5333MB/s)SCST32HIT32Intel双核的核心技术(续)■Sharedbetweenthetwocores■AdvancedTransferCachearchitecture■Reducedbustraffic■Bothcoreshavefullaccesstotheentirecache■DynamicCachesizingBus2MBL2CacheCore1Core2EnablesGreaterSystemResponsivenessSCST33HIT33Intel双核的核心技术(续)StreamingSIMDExtensions(SSE)DecoderThroughputImprovementHighPerformanceComputingDigitalPhotographyDigitalMusicVideoEditingInternetContentCreation3D&2DModelingCADToolsSSE/SSE2InstructionOptimizationFloatingPointPerformanceEnhancementNewEnhancedStreamingSIMDExtensions3(SSE3)ProvidingTrueSIMDInteger&FloatingPointPerformance!SCST34HIT34Intel四核SCST35HIT35IntelCore微架构SCST36HITManyIntegratedCoreArchitecture36Singlechipcloud50+coreSCST37HIT37产业界多核处理器竞争激烈■AMD公司的多核心处理器■Intel公司的多核心处理器■IBM公司的多核心处理器■SUN/HP公司的多核心处理器SCST38HIT38IBM公司的多核产品■2001,双核RISC处理器Power4■2006,Cell处理器SCST39HIT39AHeterogeneousMulti-coreArchitecture■非对称多核CPU是将不同功能的专用内核整合到一个芯片上,等待处理的任务先由“任务分析与指派系统”分析其构成,然后把任务分解发送到各内核中,各内核只负责自己的工作,将运算结果交还“结果收集与汇总”。SCST40HIT40AHeterogeneousMulti-coreArchitecture*CellBroadbandEngineisatrademarkofSonyComputerEntertainment,Inc.SCST41HIT41Cell处理器的主要特征■Cell是以IBM所研发的64位元Power微处理器为核心,结合8个独立的浮点数运算单元所构成的非对称多核心处理器。■它共有9个CPU内核采用“1+8模式”,一个Power架构RISC型64位CPU内核“PPE”和8个浮点处理用的32位8路SIMD型CPU内核“SPE”(SynergisticProcessingElement)。Power微处理器内核是Cell处理器的大脑,是运行设备的主操作系统,并为8个“协处理器”分配任务。SCST42HIT42Cell处理器的主要特征(续)■Cell的基本构成单元PPE可同时执行2个线程的SMT架构(类似于Intel的HT超线程技术),配备32KB的一级缓存(16指令缓存和16数据缓存)以及512KB的二级缓存。■协处理核心SPE可同时执行2条指令超标量,并配备有128位×128个的通用寄存器。1个SPE的最大单精度浮点运算速度为32GFLOPS。9个核心同步时钟运行。SCST43HIT43Cell处理器的主要特征(续)■Cell的8个SPE工作方式与普通的多核心处理器不同,各SPE分别在独立的