APU培训资料

nings_back
2 ℃
2020-01-11

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

APUAMD新APU展示APU(AcceleratedProcessingUnit)中文名字叫加速处理器，是AMD“融聚未来”理念的产品，它第一次将中央处理器和独显核心做在一个晶片上，它同时具有高性能处理器和最新独立显卡的处理性能，支持DX11游戏和最新应用的“加速运算”，大幅提升了电脑运行效率，实现了CPU与GPU真正的融合。2011年1月，AMD推出了一款革命性的产品AMDAPU，是AMDFusion技术的首款产品。2011年6月面向主流市场的LlanoAPU正式发布。目录APU发布背景APU简介TrinityAPU架构LlanoAPU架构解析APU桌面级技术参数APU移动版技术参数展开APU发布背景APU简介TrinityAPU架构LlanoAPU架构解析APU桌面级技术参数APU移动版技术参数展开APU发布背景AMD未来的处理器组成将按照“推土机”（Bulldozer）和“山猫”（Bobcat）两款全新的处理器架构划分，推土机架构主攻性能和扩展性，面向主流客户端和服务器领域；山猫架构的重点则是灵活性、低功耗和小尺寸，将用于低功耗设备、小型设备、云客户端。LlanoAPU架构示意图山猫架构就是FusionAPU融合处理器的基础，真实产品包括“Zacate”和“Ontario”两种制品。这两种制品的区别在于，“Zacate”的TDP为18W，主要针对轻薄型PC市场，对阵Intel的ULV(UltraLowVoltage）系列处理器，而“Ontario”的TDP为9W，主要目标是上网本，对阵Atom系列处理器，梅捷SY-E350就是采用的“Zacate”核心。APU简介说到底，APU将通用运算x86架构CPU核心和可编程矢量处理引擎相融合，把CPU擅长的精密标量运算与传统上只有GPU才具备的大规模并行矢量运算结合起来。AMDAPU设计综合了CPU和GPU的优势，为软件开发者带来前所未有的灵活性，能够任意采用最适合的方式开发新的应用。AMDAPU通过一个高性能总线，在单个硅片上把一个可编程x86CPU和一个GPU的矢量处理架构连为一体，双方都能直接读取高速内存。AMDAPU中还包含其他一些系统成分，比如内存控制器、I/O控制器、专用视频解码器、显示输出和总线接口等。AMDAPU的魅力在于它们内含由标量和矢量硬件构成的全部处理能力。所谓APU其实就是“加速处理器”（AcceleratedProcessingUnit）的英文缩写，是AMD推出的整合了x86/x64CPU处理核心和GPU处理核心的新型“融聚”（Fusion）处理器，因此我们也能在网上找到“融聚加速处理器”的说法。AMD的APU平台分两种，一种是此前已经能在市面上买到的E系列入门级APU，一种是近期才在欧美市场正式上市的A系列主流级APU，A系列APU分A4/A6/A8三大系列，就是我们一般讲的“LlanoAPU处理器”（拉诺APU处理器）。因此，A系列的APU平台一般就称为LlanoAPU平台，当然，也有人针对APU整合的GPU，把LlanoAPU平台叫做“Lynx平台”(猞猁平台）。AMD认为，CPU和GPU的融合将分为四步进行：第一步是物理整合过程（PhysicalIntegration），将CPU和GPU集成在同一块APU是什么？硅芯片上，并利用高带宽的内部总线通讯，集成高性能的内存控制器，借助开放的软件系统促成异构计算。第二步称为平台优化（OptimizedPlatforms），CPU和GPU之间互连接口进一步增强，并且统一进行双向电源管理，GPU也支持高级编程语言，这部分才是最关键的。第三步是架构整合（ArchitecturalIntegration），实现统一的CPU/GPU寻址空间、GPU使用可分页系统内存、GPU硬件可调度、CPU/GPU/APU内存协同一致，这已在APU中初步完成。第四步是架构和系统整合(Architectural&OSIntegration），主要特点包括GPU计算环境切换、GPU图形优先计算、独立显卡的PCI-E协同、任务并行运行实时整合等等，这些需要和微软、ADOBE等行业软件巨头不停的沟通交流。APU正是AMD公司对融合技术多年研究的成果，传统计算中的绝大部分浮点操作都脱离CPU而转入擅长此道的GPU部分，GPU不再只是游戏工具，混合计算将大放光芒。在不远的未来，CPU和GPU的概念也会渐渐模糊起来，正如AMD所宣传的：TheFutureisFusion。编辑本段TrinityAPU架构简介TrinityAPU预计将在2012年年中的某个时候正式发布，距LlanoAPU发布还不到一年，桌面平台代号为“Virgo”，移动平台为“Comal”，新一代APU将采用GlobalFoundries32nmSOIHKMG工艺制造，拥有2-4个基于改进的推土机架构CPU核心，核心代号为“Piledriver”，可以说这一部分的改进还是比较大的，因为上一代Llano的CPU部分还是采用的较老的K10架构，融合的GPU部分也进行了大刀阔斧的改进，HD6000核心将被采用VLIW4（Cayman核心的HD6900就是采用的这种架构）架构的新图形核心取代。直接竞争将在四月份推出的IntelIvyBridge。可以预料，AMD将会继续在处理器性能上落后，同时在图形性能上大幅领先。显示核心TrinityAPU基于增强版的推土机架构“打桩机”（Piledriver），最多双模块四核心，支持第三代动态加速技术TurboCore3.0，同时整合VLIW4架构的RadeonHD7000系列图形核心。内存控制器TrinityAPU还改进了DDR内存控制器，可以支持到DDR3-2133内存，目前从LlanoAPU的测试来看，内存性能的提升直接影响到图形显示部分的性能，从DDR3-1333内存升级为DDR3-1866后游戏性能最高可提升55%（参见：性能提升20%？高频内存APU平台大比拼）。也许是由于修改部分较多，TrinityAPU采用了新的FMx封装接口，不过据说是可以兼容现有的FM1接口，真实情况还得等待官方的确认。性能预测关于TrinityAPU处理器的性能我们可以从最近AMD展示的移动版平台来一窥端倪。AMD在搭载了TrinityAPU的笔记本上运行了DX11新作《杀出重围3：人类革命》（相关评测：杀出重围3袭来！十八套主流配置实测），为了方便了解，AMD还拿Intel的SandyBridge平台进行了对比（移动版SandyBridge均是内置HDGraphics3000），在开启了开启DX11、形态抗锯齿（MLAA）、纹理过滤、屏幕环境光遮蔽（SSAO）、景深（DOF）、后期处理、曲面细分等特效和技术后，TrinityAPU平台运行更为流畅，而SandyBridge平台则会时不时出现明显的卡顿现象。以PCMarkVantage、3DMarkVantage的成绩进行衡量，台式机版本的处理器性能、图形性能相比LlanoAPU均可提升最多30%，而笔记本版本则是最多25%、50%。TrinityAPU将针对Windows8操作系统进行专门优化，并引入新的视频处理能力，尤其是视频压缩引擎“VCE”，对手直指IntelQuickSync转码引擎。功耗及续航能力至于电池续航能力，AMD内部测试给出的答案是：Windows桌面空闲待机12小时28分钟、播放DVD标清电影7小时15分钟、播放BD蓝光高清电影4小时2分钟、运行3DMark06测试3小时20分钟。TrinityAPU展望这一代的LlanoAPU由于缺货的原因目前并未发挥出它应有的能量——FusionAPU于今年3月1日正式发布，主流的LlanoAPU于今年6月1日正式发布，而在9月中下，隶属A系列APU的A8-3850和A6-3650还并未在卖场铺货，起码中关村卖场还未见到货。在SandyBridge早早完成铺货并开始大势宣传的情况下，LlanoAPU还有多少的表现空间还不得而知，也许APU真正的能量在TrinityAPU身上才能爆发出来。加强了整数运算性能的全新推土机架构处理核心和更侧重通用计算的全新VLIW4架构图形核心将使新一代TrinityAPU具有更强的诱惑力，AMD首先提出的融聚概念的威力也将在那时候宣泄出来。编辑本段LlanoAPU架构解析APU与融合不同于推土机，LlanoAPU并没有使用全新的内核架构，甚至不像BrazosAPU平台那样至少处理器部分是新的“山猫”（Bobcat）架构，说白了主要就是K10处理器、DX11显卡（以及北桥芯片）的合体，但显然也不是1+1=2那么简单。LlanoAPU面临的问题不仅仅是要避免1+12，还要争取做到1+12。LlanoAPU的设计目标主要有这么几条：－CPU、GPU性能综合：同时提供最好的CPU、GPU性能。－独立显卡级别的GPU体验：完整的DX11和功能集；拖拽转码和Aero效果等Windows7体验。－独有双显卡技术：配合AMDRadeon独立显卡提供额外性能。－下一代视频加速：也就是UVD3引擎，创新的显示和画质功能，更高带宽。－行业和开放标准计算API支持：主要是OpenCL、DirectCompute，同时数据传输延迟更低。－3D立体：支持HD3D，包括蓝光3D、DisplayPort1.1（不及独立显卡的DP1.2）、HDMI1.4a。可以看出，六个目标中有五个半是关于GPU的，涉及CPU的只有半个，LlanoAPU的关注重点也就不言而喻了，也与AMDⅥSION这样的平台名字相符。LlanoAPU芯片采用GlobalFAPU架构(3张)oundries32nmHKMG工艺制造，又分为两种版本，其一是完整版本，集成14.5亿个晶体管，核心面积228平方毫米，又称为BigLlano或者Llano1；其二是精简版本，集成7.58亿个晶体管，核心面积暂时不详，又称为SmallLlano或者Llano2。二者都采用了新的microPGA封装接口SocketFS1，772针无顶盖，引脚间距1.2192毫米，芯片尺寸35×35=1225平方毫米。从各方面看，首批发布的LlanoAPU都是采用了第一个完整版本，双核版本也是由四核屏蔽而来的，因此热设计功耗同样较高。不知道何时才能看到原生的双核版本，但是AMD透露说会在近期推出不需要风扇散热的低功耗型号，想来就是了。和之前的BrazosAPU类似，LlanoAPU也在单独一颗硅片上集成了以下众多模块：x86处理器核心、二级缓存、DDR3内存控制器、图形SIMD阵列（也就是GPU）、显示控制器、UVD解码引擎、PCI-E控制器。从下边这两张图上你就可以看出各个模块的分布位置和相对大小。LlanoAPU内集成了如此众多的功能模块，如何确保它们之间的高速互连、以便让整体随时保持在最佳状态、避免任何潜在的瓶颈，这无疑是APU设计过程中最关键的一点，也是获得1+12效果的基本前提。AMD在这方面显然是下足了功夫，比如特意设计了全新的FusionComputeLink(Fusion计算连接）来将北桥模块、GPU、IO输入输出串联在一起，允许GPU访问一致性缓存/内存，同时在GPU和北桥之间还搭建了RadeonMemoryBus(Radeon内存总线），让没有独立显存的GPU通过高速带宽去访问系统系统。说到底，APU并不是简简单单地把CPU、GPU整合到一块硅片上就完事了，不然也不会花费AMD三年多的时间，反复修改设计才最终修成正果。CPU与TurboCoreLlanoAPU中的处理器部分来源于Stars架构，也就是俗称的K10架构，与PhenomⅡ/AthlonⅡ系列同宗同源，在移动平台上更确切地说相当于此前的PhenomⅡMobile系列，自带128-bit浮点单元、一级缓存（每核心64KB+64KB）、二级缓存（每核心1MB），但没有三级缓存。当然一切都不是完全照搬而来的。除了制造工艺从45nm进步到32nm，从而更有效地控制晶体管集成度、核心面积、频率和功耗，支持C6电源状态，还在细