1前言Corei7作为Intel下一代处理器,集众多先进技术于一身,如集成内存控制器、三通道技术支持、全新QPI总线以及超线程技术的回归等,是继Core2后又一款划时代处理器,将于今年年底正式推出。我们PConline评测室第一时间拿到这款CPU的工程样板,并抢先进行全国首测,详细可以查看《再现王者本色!Intel次世代CPU全国首测》一文。Corei7940工程样板(图右)在首发评测中我们已对Corei7进行了较详细测试,大部分测试项目表明Corei7带来强大的性能,但也有一些项目甚至比不上同频的Core2Quad,某些究竟什么原因使Corei7在某些测试中不如同频的Core2呢?三通道内存又能带来多少性能提升?同步多线程的威力又是如何?Corei7比CoreQuad更耗电吗?围绕这些问题,马上进入Corei7的深入评测后篇。2从Core2到Corei7的变化从Core2到Corei7Corei7采用的是全新Nehalem架构,虽然是新架构,但Nehalem还建立在Core微架构(CoreMicroarchitecture)的基础上,通过大幅增强改进而来的,外加增添了SMT、3层Cache、TLB和分支预测的等级化、IMC、QPI和支持DDR3等技术。比起从Pentium4的NetBurst架构到Core微架构的较大变化来说,从Core微架到Nehalem架构的基本核心部分的变化则要小一些,因为Nehalem还是4指令宽度的解码/重命名/撤销。Nehalem的核心部分比Core微架构改进了以下部分:Cache设计:采用三级全内含式Cache设计,L1的设计与Core微架构一样;L2采用超低延迟的设计,每个核心各拥有256KB的L2Cache;L3则是采用共享式设计,被片上所有核心共享使用。集成了内存控制器(IMC):内存控制器从北桥芯片组上转移到CPU片上,支持三通道DDR3内存,内存读取延迟大幅减少,内存带宽则大幅提升,最多可达三倍。快速通道互联(QPI):取代前端总线(FSB)的一种点到点连接技术,20位宽的QPI连接其带宽可达惊人的每秒25.6GB,远超过原来的FSB。QPI最初能够发放异彩的是支持多个处理器的服务器平台,QPI可以用于多处理器之间的互联。Nehalem的核心部分比Core微架构新增加的功能主要有以下几方面:NewSSE4.2Instructions(新增加SSE4.2指令)TurboMode(内核加速模式)ImprovedLockSupport(改进的锁定支持)AdditionalCachingHierarchy(新的缓存层次体系)DeeperBuffers(更深的缓冲)ImprovedLoopStreaming(改进的循环流)SimultaneousMulti-Threading(同步多线程)FasterVirtualization(更快的虚拟化)BetterBranchPrediction(更好的分支预测)3Corei7的改进:原生四核+全新缓存设计Corei7内核图我们知道,Core2Quad系列四核处理器其实是把两个Core2Duo处理器封装在一起,并非原生的四核设计,通过狭窄的前端总线FSB来通信,这样的缺点是数据延迟问题比较严重,性能并不尽如人意。Corei7则采用了原生四核设计,采用先进的QPI(QuickPathInterconnect,下面将进行介绍)总线进行通讯,传输速度是FSB的5倍。缓存方面也采用了三级内含式Cache设计,L1的设计和Core微架构一样;L2采用超低延迟的设计,每个内核256KB(256x4KB);L3采用共享式设计,被片上所有内核共享,容量为8MB。4Corei7的改进:采用全新QPI总线Corei7的Nehalem架构最大的改进在前端总线(FSB)上,传统的并行传输方式被彻底废弃,转而采用基于PCIExpress串行点对点传输技术的通用系统接口(CSI),被Intel称为QuickPath。QuickPath的传输速率为6.4Gbps,这样一条32bit的QuickPath带宽就能达到25.6GB/sec。QuickPath的传输速率是FSB1333MHz的5倍,前者虽然数据位宽较窄,但传输带宽仍然是后者的2.5倍。由于分别用于双处理器和单处理平台,Gainestown有两条QuickPath,而Bloomfield仅有一条。不难看出,在AMD推出HyperTransport高速串行总线,并逐渐在高性能运算领域建立优势之后,Intel也迎头赶上。若干年前,关于串行传输将一统天下的预言已经变成了现实,我们所要等待的是串行内存何时重返市场。5Corei7的改进:集成内存控制器集成内存控制器内存控制器相信大家不会感到陌生,竞争对手AMD早在K8时代CPU已经集成了内存控制器,能大幅提升内存性能,而Intel方面则表示由于时机还不合适,因此没有在Core2中使用,现在最新的Corei7终于拥有集成内存控制器IMC(IntegratedMemoryController),可以支持三通道的DDR3内存,运行在DDR3-1333,内存位宽从128位提升到192位,这样总共的峰值带宽就可以达到32GB/s,达到了Core2的2-4倍。处理器采用了集成内存控制器后,它就能直接与物理存储器阵列相连接,从而极大程度上减少了内存延迟的现象。6Corei7的改进:超线程技术原生四核Corei7有八个逻辑内核超线程技术(Hyper-Threading),又称为同步多线程技术(SimultaneousMulti-Threading,SMT)。最早出现在130nm的Pentium4上,超线程技术就是利用特殊的硬件指令,把两个逻辑内核模拟成两个物理芯片,让单个处理器都能使用线程级并行计算,进而兼容多线程操作系统和软件,减少了CPU的闲置时间,提高的CPU的运行效率。超线程技术使得Pentium4单核CPU也拥有较出色的多任务性能,现在通过改进后的超线程技术再次回归到Corei7处理器上。同步多线程(SimultaneousMulti-Threading,SMT)是2-way的,每核心可以同时执行2个线程。对于执行引擎来说,在多线程任务的情况下,就可以掩盖单个线程的延迟。SMT功能的好处是只需要消耗很小的核心面积代价,就可以在多任务的情况下提供显著的性能提升,比起完全再添加一个物理核心来说要划算得多。比起Pentium4的超线程技术(Hyper-Threading),Corei7的优势是有更大的缓存和更大的内存带宽,这样就更能够有效的发挥多线程的作用。按照INTEL的说法,Nehalem的SMT可以在增加很少能耗的情况下,让性能提升20-30%。为什么Core2没有使用SMT?很显然,它是可以做到的。SMT是在节省电力的基础上增加了性能,而且软件支持的基础建设也早就有了。有2个可能的原因:一是Core2可能没有足够的内存带宽和CPU内部带宽来利用SMT获得优势。通常,SMT能够提升内存级并行(memorylevelparallelism,MLP),但是对于内存带宽已经成为瓶颈的系统则是个麻烦。而更有可能的原因则是SMT的设计、生效等是很麻烦的,而当初设计SMT是由INTEL的Hillsboro小组主持,而并非是Haifa小组(Core2是由这个小组负责的)。这样Core2不使用SMT就避免了冒险。7评测平台及评测说明Core2评测平台CPUIntelCore2QX9770(400X8=3.2G、12MBL2Cache)IntelCore2QX9770(344X8.5=2.93G、12MBL2Cache)主板华硕X48内存宇瞻DDR3-13331GBx2硬盘希捷7200.10SATA500G显卡GeForceGTX260(576/1998MHz,SP:1242MHz)Corei7评测平台CPUIntelCorei7940(2.93G、8MBL3Cache)主板IntelX58内存宇瞻DDR3-13331GBx3宇瞻DDR3-13332GB硬盘希捷7200.10SATA500G显卡GeForceGTX260(576/1998MHz,SP:1242MHz)软件平台系统软件WindowsVISTAUltimateSP1驱动程序NVIDIA显卡:ForceWare177.98ForVistaIntel芯片组:9.0.0.1011评测软件System:SuperPI1.4EverestUltimate4.6TMPGEnc4.5WinRAR3.71CINEBENCHR10FritzChessBenchmark3DMarkVantageVer:101(DirectX10)Game:(DirectX10)WorldInConflictCompanyOfHeroes:OpposingFrontsCrysisGame:(DirectX9)CallOFDuty4HalfLife2EPISODETWO对于全新架构Corei7处理器的对比评测,我们加入了Intel目前零售最为顶级的Core2QX9770作为参考对象。Corei7940处理器频率为2.93G,为了考察两代CPU在同频下的性能差距,我们把QX9770降频到2.93G。本次深入评测我们主要测试三双通和多线程技术带来的性能提升,故我们将开启关闭SMT同步多线程进行对比,此时平台为三通道模式。单(Single)、双(Dual)、三通道(Triple)进行对比评测。为了避免3D效能成为瓶颈,我们采用了高端显卡nVIDIAGeForceGTX260作为评测平台使用,由于是测试CPU的游戏性能,我们采用了较低分辨率1024x768,这样才能更充分体现CPU在游戏的中性能差距。8三通道无用论,与双通道无区别?在内存测试部分,单通道和双通道采用的是2G容量的内存,三通道则为3G。SUPERPIMOD1.4性能测试:SUPERPISuperPI是由东京大学KanadaLab.所制作的一款通过计算圆周率的来检测处理器性能的工具,在测试里面可以有效的反映包括CPU在内的运算性能。在玩家群中,SuperPI更是一个衡量CPU性能的标尺之一。(越小越好)从评测可知,单通道和双通道区别相对明显,而双通道和三通道区别则不大。WinRAR3.71性能测试:WinRARWinRAR作为一款目前非常流行的压缩软件,我们使用了它内置的评测功能。评测的结果可以有效的反映CPU的性能。Everest内存性能测试:EverestEverest作为一个系统检测软件,其前身是Aida32,它可以详细的显示出PC每一个方面的信息。支持上千种(3400+)主板,支持上百种(360+)显卡,支持对各式各样的处理器的侦测。软件自带的MemoryLatency评测,可以通过对内存延时的评测,直观显示出内存子系统的效能。在这个内存理论测试中,双通道和三通道几乎没区别,不排除是软件问题。《使命召唤4》场景载入时间对比测试:载入的测试场景游戏所有特效开至游戏能够支持的最高级别,同时关闭垂直同步,分辨率为1024x7680AA/0AF。载入的场景为快乐歌运输号场景。第一次载入时间由于误差太大,因此我们从第二次载入开始计算,测试三次取平均值。由于是手动操作,因此存在一定误差,测试只作参考。双通道相比单通道载入时间快了2秒,三通道相比双通道提升则不明显。《孤岛危机》场景载入时间对比测试:载入场景为Benchmark的测试场景DX10大作Crysis孤岛危机以真实的画面著称。分辨率为1024x7680AA/0AF,VeryHigh。测试场景为BenchMark自带的,测试三次取平均值。由于是手动操作,因此存在一定误差,测试只作参考。小结:在内存测试中,Corei7的双通道比单通道性能上有了不少的提升,但三通道比起双通道提升不明显,以两者有1G内存差距来看,甚至可以把提升看成是容量的功劳。当然,也有可能是当前软件对三通道支持不好、Corei7带宽不足等原因,未能发挥三通道的威力。这