芯动,行动,共创未来!英特尔14纳米微架构处理器(Broadwell)SrinivasChennupaty,英特尔公司高级首席工程师兼CPU首席架构师江宏博士,英特尔院士兼英特尔公司首席媒体架构师ARCS001议程•简介•功耗管理•CPU微架构•芯片组•显卡和异构处理创新•媒体和显示创新2议程•简介•功耗管理•CPU微架构•芯片组•显卡和异构处理创新•媒体和显示创新3Tick/Tock开发模式全新英特尔微架构全新英特尔微架构(Haswell)英特尔微架构14纳米制程技术32纳米制程技术22纳米制程技术TICKTOCKTICKTICK英特尔®微架构英特尔微架构TOCK全新英特尔微架构14纳米制程技术为客户端和服务器处理器推出行业领先的14纳米制程技术414纳米微架构即将广泛的应用于各种优势产品中5采用无风扇结构设计带来出色的英特尔®酷睿™处理器体验英特尔®酷睿™M处理器•14纳米第二代三栅极晶体管•更低的TDP,支持不超过9毫米的无风扇设计•经过系统优化的动态功耗和散热管理•降低系统芯片(SoC)闲置功耗,扩大动态工作范围•第二代FIVR和3DL技术•下一代显卡/媒体/显示•芯片组:更低的功耗、语音用途、更快的存储6英特尔的下一代14纳米微架构OpenCL™2.0API,SVM,DirectX*11.2,DirectX12Ready,OpenGL*4.314纳米制程高能效IPC更快的浮点和矢量运算速度精细化PCH功耗管理第二代FIVR和3DL技术有针对性的加密速度提升PCIExpress存储音频DSP升级闲置功耗降低60%工作功耗降低30%x16PCIeeDRAM双通道内存面向嵌入式控制器的PECI接口笔记本电脑DisplayPort*显卡内核LLC内核LLC内核LLC内核LLC系统代理显示DMI/OPIPCIExpress*IMCPCH7英特尔的下一代14纳米微架构OpenCL™2.0API,SVM,DirectX*11.2,DirectX12Ready,OpenGL*4.314纳米制程高能效IPC更快的浮点和矢量运算速度精细化PCH功耗管理第二代FIVR和3DL技术有针对性的加密速度提升PCIExpress存储音频DSP升级闲置功耗降低60%工作功耗降低30%x16PCIeeDRAM双通道内存面向嵌入式控制器的PECI接口笔记本电脑DisplayPort*显卡内核LLC内核LLC内核LLC内核LLC系统代理显示DMI/OPIPCIExpress*IMCPCH经过系统优化的动态散热和功耗管理714纳米设计/制程将功耗优化至传统的1/2在性能检测过程中涉及的软件及其性能只有在英特尔微处理器的架构下方能得到优化。诸如SYSmark和MobileMark等测试均系基于特定计算机系统、硬件、软件、操作系统及功能,上述任何要素的变动都有可能导致测试结果的变化。请参考其它信息及性能测试(包括结合其它产品使用时的运行性能)以对目标产品进行全面评估。更多信息敬请登陆。传统14纳米英特尔®酷睿™M处理器制程优势系统芯片影响电容量0.75倍0.65倍功耗降低25%通过缩小和优化晶体管/互连实现更低的最小工作电压相同降低10%功耗降低20%通过更小的偏差和设计优化实现低电压晶体管性能通常针对高电压工作状态进行优化晶体管性能提升10-15%14纳米制程针对低电压性能进行了优化漏电量0.8倍通过优化将漏电量降低1/2功耗降低约10%14纳米制程专门针对英特尔酷睿M处理器进行了优化面积规模(Areascaling)0.51倍(功能不变)通过14纳米设计规范和版图优化实现9议程•简介•功耗管理•CPU微架构•芯片组•显卡和异构处理创新•媒体和显示创新10增强的睿频加速技术:在保持系统可靠性的同时,最大限度地进行加速时间PL1功耗PL1-长期系统限制PL3–电池保护PL2PL3PL2–突发限制确保电池不会频繁出现电流尖峰英特尔®睿频加速技术11增强的FIVR效率管理•可提升FIVR效率的新启发法-监控峰值需求-调整Vccin输入电压,最大限度地提升FIVR效率-将供电传输损耗控制在6W以下在保持低功耗的同时提升性能•非线性电压跌落(droop)控制-改善电压跌落(droop)50%-速度提升超过5%=功耗节省10%随着峰值负载的下降,Vccin电压会下降,从而最大限度地减少供电损耗负载效率12最大睿频最低功耗IA频率GT频率芯片组控制T1T2T3占空比控制打开/关闭模块管理偏移13芯片组占空比控制(DutyCycling)•CPU监控总体系统芯片功耗•要求PCH基于功耗余量进行控制•PCH响应-SATA–当指令发出后进行调节-使链路有机会进入低功耗状态(部分运行、睡眠……)-PCIExpress*–强制Tx和Rx进入L0s状态-USB–推迟向终端设备安排事务使链路有机会进入U1、U2等低功耗状态NoThrottlingWithThrottlingPCH控制图示ScoreSATA(power)Bandwidth功耗降低50%14扩大有效工作范围•低功耗极限要求在Vmin频率下进行工作,但在该点以下漏电量不可进行扩展•通过占空比控制降低功耗:在500MHz时实现80%,而非在400MHz实现100%。相同的频率,更少的漏电量。•DCC:占空比控制,借助硬件和显卡驱动程序之间的协作来实施•Anandtech:“蛮力与智慧并用”显卡性能系统芯片功耗极限(瓦)NoDutyCyclingDutyCycleControl以更高功耗极限智能解除DCC。DCC可扩大系统芯片的工作范围DCC可显著提升ISO能效。无工作循环时的最小工作点。15占空比控制图示最高效率频率最高效率频率+可编程偏移可实现的显卡频率显卡引擎开始在高效电压/频率范围内运行高效频率可能随温度而变化可实现的频率(高效频率+偏移)CPU发送中断信号至显卡驱动程序,以重启工作显卡频率可能降至有效点以下,此时CPU会请求显卡进入闲置状态显卡进入闲置状态,系统芯片功耗下降16C状态增强特性可降低平均功耗•增强的PkgC7(C7+)状态可进一步降低平均功耗-在C7+中打开LVR(线性电压源)-最大限度地减少FIVR静态损耗-将Vccin(从1.6V)降到1.3V,以进一步减少损耗•在该优化的低功耗状态下支持内存路径-唤醒刷新显示缓冲区时,不会导致电压上升Intel4thGenMicroarchitectureIntelCoreM60%20%35%Windows空闲高清播放Web浏览17英特尔®动态平台和散热框架(Intel®DynamicPlatformandThermalFramework)系统优化散热管理:用于实现最佳性能的平台功耗共享处理器•温度•功耗控制•P/T状态处理器显卡•温度•功耗控制•RP状态,EUPCH•温度•功耗控制内存•温度•功耗控制WLAN,WWAN•温度•功耗控制电池充电器•充电率控制表层热传感器(SkinThermalSensor)•温度显示•亮度控制系统风扇•精细化风扇控制18英特尔®DPTF–积极表层温度管理•监控平台限制•调节系统和系统芯片参数,确保在限制内运行•例如,监控表层温度,动态调节PL1/PL2•在冷系统上性能提升50%Iteration1iteration3Iteration5Iteration7Iteration8-19随时间变化的性能超过30%英特尔®动态平台和散热框架(英特尔®DPTF)19议程•简介•功耗管理•CPU微架构•芯片组•显卡和异构处理创新•媒体和显示创新20在频率相同的情况下,性能高于先前的微架构•更大的乱序调度程序(6064个条目)•更大的4K+2ML2TLB(1K1.5K个条目),全新的1GL2TLB(16个条目)•用于并行页面查询的第二个页面未命中处理程序•更准确的分支和返回地址预测•浮点和矢量改进(下一页)能效•性能特性设计为大约2:1的性能功耗比•功耗门控(PowerGating)和设计优化可提升每个工作点的能效出色能效性能单线程每周期执行的指令数(IPC)(广泛的混合工作负载)21矢量性能除法延迟(周期)除法吞吐量(开始下次除法所需的周期数)•1024Radix除法器–更低延迟-可单独调度的标量除法器–更高吞吐量-每2.5个周期(平均)完成一个单精度除法,每4个周期完成一个双精度除法•FP乘法延迟缩短至3个时钟周期•提升的Gather-相比上代处理器,微运算次数降低约60%-针对Gather密集型工作负载实现了延迟和吞吐量改进0102030405020062014SS/128PSSD/128PD256PS256PD0102030405020062014SSSD128PS128PD256PS256PD22加密和安全保护ADCX/ADOX新指令,更快速的ADC/SBB•GNU多精度库(如Mathematica)•RSA公钥加密更快速的打包无进位乘法(CarrylessMultiply)(PCLMULQDQ)•基本CRC片(散列、完整性检验等)RDSEED新指令•非确定性随机数(ANSIX9.82,第2和第4部分)管理模式访问保护(SMAP)•类似于管理模式执行保护(SMEP)•防止管理模式观察用户页面上的数据20092014ECDH-p256RSA-2048AES-128-GCMAES-128-GCM:PCLMULQDQRSA-2048:ADCX/ADOXECDH-p256:ADCX/ADOX23监控英特尔®处理器跟踪•英特尔®CPU上用于软件调试的主要新架构功能•支持在内存中执行低开销指令工作负载跟踪•该功能将获得领先调试工具的支持•计划在未来产品中进行改进英特尔®事务性同步扩展(英特尔®TSX)•上代微架构中采用的新指令可用于通过锁省略增强多线程应用•全新微架构可改进英特尔TSX事务的执行情况-面向更大事务规模的事务读取组跟踪改进-更低的事务写缓冲开销同步24通过英特尔®虚拟化技术实施虚拟化可降低开销的硬件改进•更短的客户端/主机转换时间•更快速的APIC虚拟化•更大的L2TLB面向虚拟化数据中心的新功能•服务质量•容错0500100015002000IntelVT-xRoundtripoverGenerations更短的往返延迟约400个周期支持32位英特尔架构、英特尔®64和英特尔®架构的英特尔®虚拟化技术(英特尔®VT-x)25议程•简介•功耗管理•CPU微架构•芯片组•显卡和异构处理创新•媒体和显示创新2614纳米微架构PCH-LP–重点关注功耗•音频和性能-借助增强的SRAM和更高的MIPS升级音频DSP-先进的后处理,语音用途(语音唤醒)和功耗节省-PCIExpress*存储具有快速响应能力和出色的驱动器/缓存性能•能效-与上年度相比,闲置PCH功耗降低了约25%-相比LPT-LP,工作功耗降低了约20%-针对物理模块增加了多个新的功耗域-全新的功耗降低硬件、固件和软件更新,包括精细化监控/功耗报告•创新-支持面向低功耗和无风扇结构而优化的全新轻薄设计-全新可管理性/安全特性PCH-LP功耗更低且响应更迅捷!PCH27总结英特尔14纳米微架构(Broadwell):•相比同样规模的传统制程,功耗降低了1/2•提升单条线程IPC性能和关键矢量指令•改善动态功耗和散热管理•支持不超过9毫米的无风扇设计28议程•简介•功耗管理•CPU微架构•芯片组•显卡和异构处理创新•媒体和显示创新29基于14纳米制程的新显卡微架构新特性:•性能功耗比增强•全新的微架构•OpenCL™API2.0,SVM支持•媒体速度和质量提升2倍•领先的4K端到端支持12345在性能检测过程中涉及的软件及其性能只有在英特尔微处理器的架构下方能得到优化。诸如SYSmark和MobileMark等测试均系基于特定计算机系统、硬件、软件、操作系统及功能,上述任何要素的变动都有可能导致测试结果的变化。请参考其它信息及性能测试(包括结合其它产品使用时的运行性能)以对目标产品进行全面评