高级计算机系统结构雷航hlei@uestc.edu.cnTel:61831144前言课程历史:现代微机系统现代微机结构高级计算机体系结构以Intel80286、80386为主Intel86系列处理器、以及其它高端处理器、RISC技术、64位处理器、总线技术等以《现代微机结构》内容为基础,进一步结合计算机硬件技术发展状况进行讨论1、本课程的前续课程(1)微型计算机原理及应用主要内容:CPU及微型计算机的组成寻址方式、指令系统以及汇编语言程序设计信息存储原理、存储器组织、存储空间分配以及如何与CPU接口微机接口:查询、中断、DMA三种主要接口方式典型接口芯片:Intel8255/8253/8259/8237/8251等微机应用:如串行/并行通信、A/D和D/A转换等(2)计算机组成原理主要内容:►运算器的构成(从全加器、进位链到加法器、乘法器等,以及原码、补码的各种运算方法)►控制器的构成:组合逻辑设计方法、微程序设计方法►存储器:存储信息的原理、存储器的组织、存储空间的分配等►计算机接口:查询、中断、DMA等►外部设备:如CRT、磁盘、磁带机、打印机等学习以上两门课程的目的:掌握计算机和微型计算机的基本工作原理以及一些基本的应用。计算机原理偏重于内部特性和原理微机原理则偏重于外部特性和原理(3)操作系统掌握一些基本概念,如多任务机制、分段、分页等存储管理。2、本课程的主要内容和目的主要内容(1)现代计算机硬件体系结构,着重介绍:②引入的关键技术,如流水线、虚存机制、保护模式、超标量结构、指令重调度、超线程、多核技术、向量计算等,并以Intel系列微处理器为典型代表进行介绍。(2)RISC处理器设计方法以及与CISC的比较(3)64位处理器(4)总线技术(5)计算机的一般性能评价方法等①处理器体系结构学习目的掌握现代计算机硬件技术的特征、发展状况、不断引入的新技术和发展方向,了解新技术如何提高处理器以及计算机系统的性能,为进行计算机系统分析和研究、以及为其它专业课程的学习进行打下基础。同时,也从一个更高的层面上学习计算机硬件技术。课程特点将系统结构、技术发展、典型处理器相结合;内容丰富,概念多,但难度不大。第一章概述一、计算机的发展过程(一)计算机的发展时期归纳(二)计算机性能指标网络系统70’年代前70’年代80’年代90’年以后大中型机小型机微型机(1)字长首款微处理器4004Itanium4位→8位→16位→32位→64位第1台64位微处理器:DEC的Alpha21064—64位计算机系统►内部总线和寄存器为64位►外部总线64位►配置64位操作系统►64位数据一次性处理(2)速度速度是衡量计算机处理能力的一个综合指标。主频、处理器的结构、指令运行模式、Cache的容量、内存的大小和速度等诸多因素,最终都将表现在计算机的速度上。—64位处理器:64位内外部总线、64位寄存器(3)容量►内存容量:►外存容量►高速缓存(Cache)容量:不计入存储容量►主频决定主频的因素?►MIPS:百万条指令/每秒►基准测试程序,比如SPEC(比如Intel80386系统的理论内存空间可达232=4000M)。最大可达2n(n为地址线的条数)—用什么来衡量速度(三)微处理器主要生产厂商Intel公司AMD公司IBM公司(如PowerPC系列和Power系列)Apple公司(如PowerPC系列)Motorola公司(如MC68系列)SUN公司(SPARC系列,仅作设计)MIPS公司(如R系列RISC处理器)HP公司(如PA系列RISC处理器)DEC公司(Alpha系列)等(四)微处理器发展过程中引入的一些重要技术1、虚存管理机制提供分段管理和分页管理等虚存管理机制,为操作系统提供了支持:►为存储管理(虚存管理)提供了一种有效手段►为多任务机制提供了一种重要的技术保证2、流水线技术地址流水线和指令流水线3、分支预测技术提高程序分支时的执行效率4、超级标量结构实现了多条指令流水线的并行执行5、大容量高速缓存极大缓解了CPU速度与内存速度不匹配的矛盾,为实现指令流水线起到了重要的作用6、RISC技术处理器的一种设计方法,提高了处理器的速度,使处理器的设计方法向前迈进了一大步7、SIMD技术(SingleInstructionMulti-Data)单指令多数据流技术9、显示并行计算(EPIC)使处理器具有更高的指令并行能力8、指令乱序执行技术指令的重调度(指令重新排序、指令动态调度)能力,使指令流水线具有更高的执行效率11、多核技术使处理器具有多处理器的处理能力10、向量处理一种面向运算的并行处理器技术更好的硬件平台(五)微机迅速发展的主要原因和关键技术集成技术的发展微机性能的提高功能更强的软件微机进入新的应用领域对微机性能提出更高的要求1、主要原因:2、关键技术:需求集成电路技术的发展二、处理器(硬件)的热点(近十几年)1、PC处理器典型代表:Intel8086系列处理器—指令执行方式:—总线:内外部总线均为64位—体系结构:指令流水线超级标量结构●Pentium基本型:●PentiumMMX(Multi-MediaeXtended):称为“多能Pentium”,在Pentium基本型基础上增加以下功能:►新增加57条多媒体信息处理指令►片内Cache容量从16K增加到32K►SIMD技术:一条指令同时处理多个数据传统标量处理SIMDXYXYX3X2X1X0Y3Y2Y1Y0X3Y3X2Y2X1Y1X0Y0►积和运算功能如单指令可完成计算:Pentium基本型和PentiumMMX称为第一代奔腾处理器(P5架构)►饱和计算功能将溢出后的结果作为最大值或最小值处理。X=a0b0a1b1a2b2a3b3…a6b6a7b7当发生上溢出时:溢出的结果转化为最大值当发生下溢出时:溢出的结果转化为最小值目的:避免做溢出处理导致流媒体信息处理质量下降和颜色出现倒置►14级流水线►双穴封装技术:►指令乱序执行:►寄存器重命名(Registerrenaming):分析并重排指令,优化指令的顺序执行。也称为指令流分析技术数据重新定位到一个内部寄存器(速度与流水线的考虑)●PentiumPro:高能Pentium将二级Cache(256K)封装在一个模块中,一级Cache和二级Cache之间采用64位的独立总线连接在Pentium基本型的基础上的主要改进:►将CISC指令集内部转换为类RISC指令集来执行,以提高处理器速度(PentiumII只支持2个处理器)●PentiumII:在PentiumPro体系结构中引入奔腾MMX功能►PentiumPro与PentiumMMX技术的结合►二级Cache从256K增加到512K●PentiumIIXeon(至强):在PentiumII基础上的主要改进:►二级Cache从512K增加到1M►可支持4个或更多个处理器从PentiumPro到PentiumIII称为第二代奔腾处理器(P6架构)原有Pentium处理器的SIMD只能处理整数,而PentiumIII的SIMD,既能处理整数,也能处理浮点数。●PentiumIII:在PentiumII基础上的主要改进:►新增加了70条指令,增强对多媒体信息、3维图形图象信息、互连网操作的处理能力►增强的SIMD技术●Pentium4:Pentium4采用了新的内部设计,主要表现为:►增加了144条指令,进一步增强了对多媒体信息/3维信息/互连网操作的处理能力;►主频达2G以上,提高了指令执行的吞吐率;►系统总线的速度从PentiumIII的133M提高到了400M;►流水线的级数(流水线深度)从PentiumIII的14级提高到20级;►超线程技术(Hyper-Threading)Pentium4、Prescott、PentiumD的体系结构均称为NetBurst●PentiumPrescottPrescott主要特征:►流水线的级数从Pentium4的20级提高到30级►提高了分支预测机构的预测效率●PentiumD主要特征:►沿用Prescott架构,采用双核结构(2个独立的Prescott核心)►不支持超线程●CORE2(酷睿2)CORE2的体系结构称为Core微架构通用于台式机、服务器和笔记本电脑►双核结构►提高了每周期的执行的指令数量►双核共享L2Cache►更多的指令及数据预取器►更长位数SIMD(128位整数及128位浮点,传统的处理器为64位)►降低了功耗整体性能比PentiumD提高44%。(2)从集成技术的角度●CMOS(互补金属氧化物半导体电路)工艺直接在半导体基片上制作各种晶体管电路●SOI制作工艺(SiliconOnInsulator硅晶绝缘体)减少了充电电流,降低了功耗减少了晶体管的静电电容,缩短了充放电时间,提高了晶体管的切换速度SOI制作工艺与同期CMOS工艺相比,速度可提高35%~40%,功耗可减少50%~60%曾有资料认为:SOI技术将使摩尔定律继续起作用,有望使CPU主频提高到T级。但是:近年来以及可预见的将来,处理器的发展方向不是提高主频,而是多核处理器●铜芯片采用铜导线来代替铝用于集成电路中晶体管之间的互联线,在相同条件下减少40%的功耗;还可以将铜导线与SOI技术相结合(IBM率先采用了该方式)。●LowK互连层技术随着电路板蚀刻精度越来越高,芯片上集成的电路越来越多,信号干扰也就越来越强。LowK材料解决了芯片中的信号干扰,并降低处理器的功耗,提高处理器的高频稳定性。●应变硅技术基本原理:加大硅原子的间距,以减小电子通行所受到的阻力,相当于减小了电阻。从而降低了耗发和热量,运行速度则得以提升。在处理器的工艺上,芯片的功耗、封装、等越来越难以处理,使得摩尔定律本身的发展及其对处理器的影响发生了一些深刻的变化。首先,摩尔定律趋势已经变缓,由原来的1.5年一代变为2-3年一代。除技术难度增加以外,集成电路生产线更新换代的成本越来越昂贵。其次,处理器主频正在与摩尔定律分道扬镳。过去每代微处理器主频是上代产品的两倍中,只有1.4倍来源于器件的按比例缩小,另外1.4倍来源于结构优化。为此,芯片设计越来越强调结构的层次化、功能部件的模块化和分布化,即每个功能部件都相对地简单,部件内部尽可能保持通信的局部性。(3)从体系结构的角度①处理器体系结构►从标量结构演变到超级标量结构►数据流上从单数据流演变到多数据流►处理器内单一总线结构演变为多总线结构►单指令发射到多指令发射VLIW(VeryLongInstructionWord),即把多条指令连在一起,增加了运算的速度。►短指令到超长指令字VLIWVLIW的基本思想:VLIW的基本思路:处理器在一个长指令字中赋予编译程序控制所有功能单元的能力,让编译程序精确调度在何处执行每个操作、各寄存器读写和每个转移操作。比如:编译器可以把“R1+R2→R3”和“R4+R5→R6”这两条指令组合到一个指令字中(两条指令无寄存器相关)。指令并行性和数据移动完全由编译来安排,处理器只需简单执行编译程序所产生的结果,因而简化运行时资源的调度。如:比较Intel80286与Pentium的内部结构—Intel80286AUEUIDUBU②物理地址①寻址请求③操作数③指令代码④已译码指令8K指令Cache指令预取部件指令译码器微指令ROM分支预测部件控制部件U流水线V流水线U流水线地址生成逻辑V流水线地址生成逻辑双端口数据Cache浮点处理部件FPU总线接口部件32位内部地址总线64位内部数据总线Pentium基本型②微机系统硬件结构的变化从单一总线结构主要表现为PCI总线出现后,在一个系统中PCI总线、ISA总线、EISA总线并存。多总线结构SCSI接口图形处理接口以太网接口芯片组ISA总线低速I/O低速I/O微处理器芯片组存储器PCI总线(4)从指令计算的角度指令计算的执行顺序的演变:串行计算方式:指令流水线:指令1·····指令2指令3指令4t