第2章DSP芯片的基本结构和特征

雨幕寒霜
1 ℃
2019-12-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

·11·第2章DSP芯片的基本结构和特征2.1引言可编程DSP芯片是一种具有特殊结构的微处理器，为了达到快速进行数字信号处理的目的，DSP芯片一般都具有程序和数据分开的总线结构、流水线操作功能、单周期完成乘法的硬件乘法器以及一套适合数字信号处理的指令集。本章将首先介绍DSP芯片的基本结构，然后介绍TI公司的各种DSP芯片的特征，最后简要介绍其他公司的DSP芯片的特点。2.2DSP芯片的基本结构为了快速地实现数字信号处理运算，DSP芯片一般都采用特殊的软硬件结构。下面以TMS320系列为例介绍DSP芯片的基本结构。TMS320系列DSP芯片的基本结构包括：（1）哈佛结构；（2）流水线操作；（3）专用的硬件乘法器；（4）特殊的DSP指令；（5）快速的指令周期。这些特点使得TMS320系列DSP芯片可以实现快速的DSP运算，并使大部分运算（例如乘法）能够在一个指令周期内完成。由于TMS320系列DSP芯片是软件可编程器件，因此具有通用微处理器具有的方便灵活的特点。下面分别介绍这些特点是如何在TMS320系列DSP芯片中应用并使得芯片的功能得到加强的。2.2.1哈佛结构哈佛结构是不同于传统的冯·诺曼（VonNeuman）结构的并行体系结构，其主要特点是将程序和数据存储在不同的存储空间中，即程序存储器和数据存储器是两个相互独立的存储器，每个存储器独立编址，独立访问。与两个存储器相对应的是系统中设置了程序总线和数据总线两条总线，从而使数据的吞吐率提高了一倍。而冯·诺曼结构则是将指令、数据、地址存储在同一存储器中，统一编址，依靠指令计数器提供的地址来区分是指令、数据还是地址。取指令和取数据都访问同一存储器，数据吞吐率低。在哈佛结构中，由于程序和数据存储器在两个分开的空间中，因此取指和执行能完全·12·重叠运行。为了进一步提高运行速度和灵活性，TMS320系列DSP芯片在基本哈佛结构的基础上作了改进，一是允许数据存放在程序存储器中，并被算术运算指令直接使用，增强了芯片的灵活性；二是指令存储在高速缓冲器（Cache）中，当执行此指令时，不需要再从存储器中读取指令，节约了一个指令周期的时间。如TMS320C30具有64个字的Cache。2.2.2流水线与哈佛结构相关，DSP芯片广泛采用流水线以减少指令执行时间，从而增强了处理器的处理能力。TMS320系列处理器的流水线深度从2~6级不等。第一代TMS320处理器采用二级流水线，第二代采用三级流水线，而第三代则采用四级流水线。也就是说，处理器可以并行处理2~6条指令，每条指令处于流水线上的不同阶段。图2.1所示为一个三级流水线操作的例子。图2.1三级流水线操作在三级流水线操作中，取指、译码和执行操作可以独立地处理，这可使指令执行能完全重叠。在每个指令周期内，三个不同的指令处于激活状态，每个指令处于不同的阶段。例如，在第N个指令取指时，前一个指令即第N-1个指令正在译码，而第N-2个指令则正在执行。一般来说，流水线对用户是透明的。2.2.3专用的硬件乘法器在一般形式的FIR滤波器中，乘法是DSP的重要组成部分。对每个滤波器抽头，必须做一次乘法和一次加法。乘法速度越快，DSP处理器的性能就越高。在通用的微处理器中，乘法指令是由一系列加法来实现的，故需许多个指令周期来完成。相比而言，DSP芯片的特征就是有一个专用的硬件乘法器。在TMS320系列中，由于具有专用的硬件乘法器，乘法可在一个指令周期内完成。从最早的TMS32010实现FIR的每个抽头算法可以看出，滤波器每个抽头需要一条乘法指令MPY：LT；装乘数到T寄存器DMOV；在存储器中移动数据以实现延迟MPY；相乘APAC；将乘法结果加到ACC中其他三条指令用来将乘数装入到乘法器电路（LT），移动数据（DMOV）以及将乘法结果（存在乘积寄存器P中）加到ACC中（APAC）。因此，若采用256抽头的FIR滤波器，这四条指令必须重复执行256次，且256次乘法必须在一个抽样间隔内完成。在典型的通CLKOUT1执行译码取指NN－1N－2N＋1N－1N＋2NNN＋1·13·用微处理器中，每个抽头需要30~40个指令周期，而TMS32010只需4条指令。如果采用特殊的DSP指令或采用TMS320C54X等新一代的DSP芯片，可进一步降低FIR抽头的计算时间。2.2.4特殊的DSP指令DSP芯片的另一个特征是采用特殊的指令。2.2.3节中介绍的DMOV就是一个特殊的DSP指令，它完成数据移位功能。在数字信号处理中，延迟操作非常重要，这个延迟就是由DMOV来实现的。TMS32010中的另一个特殊指令是LTD，它在一个指令周期内完成LT、DMOV和APAC三条指令。LTD和MPY指令可以将FIR滤波器抽头计算从4条指令降为2条指令。在第二代处理器中，如TMS320C25，增加了2条更特殊的指令，即RPT和MACD指令，采用这2条特殊指令，可以进一步将每个抽头的运算指令数从2条降为1条：RPTK255；重复执行下条指令256次MACD；LT,DMOV,MPY及APAC2.2.5快速的指令周期哈佛结构、流水线操作、专用的硬件乘法器、特殊的DSP指令再加上集成电路的优化设计，可使DSP芯片的指令周期在200ns以下。TMS320系列处理器的指令周期已经从第一代的200ns降低至现在的20ns以下。快速的指令周期使得DSP芯片能够实时实现许多DSP应用。2.3TI定点DSP芯片自1982年TI推出第一个定点DSP芯片TMS32010以来，TI的定点DSP芯片已经经历了TMS320C1X、TMS320C2X/C2XX、TMS320C5X、TMS320C54X、TMS320C62X等几代产品，产品的性能价格比不断提高，应用越来越广泛。下面分别介绍这些芯片的主要特征。2.3.1TMS320C1X2.3.1.1基本特点第一代TMS320系列DSP芯片包括：TMS32010、TMS32011、TMS320C10、TMS320C15/E15和TMS320C17/E17。其中，TMS32010和TMS32011采用2.4m的NMOS工艺，而其他几种则采用1.8mCMOS工艺。这些芯片的典型工作频率为20MHz。TMS320第一代DSP芯片的主要特点如下:指令周期：160ns/200ns/280ns片内RAM：144字/256字（TMS320C15/E15/C17/E17）片内ROM：1.5K字/4K字（TMS320C15/C17）4K字片内程序EPROM（TMS320E15/E17）4K字外部全速存储器扩展并行乘法器：乘积为32位·14·桶形移位器：将数据从存储器移到ALU并行移位器允许文本交换的4×12位堆栈两个间接寻址的辅助寄存器双通道串行口（TMS32011,TMS320C17/E17）片内压扩硬件（TMS32011,TMS320C17/E17）协处理器接口（TMS320C17/E17）器件封装：40脚双列直插（DIP）/44脚塑封（PLCC）·15·2.3.1.2TMS320C10TMS320DSP芯片的第一代产品是基于TMS32010和它的CMOS版本TMS320C10的结构。TMS32010于1982年推出，是第一个能够达到5个MIPS的微处理器。TMS32010采用改进的哈佛结构，即程序和数据空间相互独立。程序存储器可在片内（1.5K字）或片外（4K字）。片内数据RAM为144字。有四个基本的算术单元：算术逻辑单元（ALU）、累加器（ACC）、乘法器和移位器。(1)ALU：32位数据操作的通用算术逻辑单元。ALU可进行加、减和逻辑运算；(2)ACC：累加器存储ALU的输出，也是ALU的一个输入。它采用32位字长操作，分高16位和低16位两部分。处理器提供高16位和低16位的专门指令：SACH（高16位）和SACL（低16位）；(3)乘法器：16×16位并行乘法器由三个单元组成：T寄存器、P寄存器和乘法器阵列。T寄存器存储被乘数，P寄存器存储32位乘积。为了使用乘法器，被乘数首先必须从数据RAM中装入到T寄存器，可用LT、LTA和LTD指令。然后执行MPY（乘）或MPYK（乘立即数）指令。乘和累加器操作可用LTA、LTD和MPY、MPYK指令在两个指令周期内完成；(4)移位器：有两个移位器可用于数据移位。一个是桶形移位器，另一个是并行移位器。桶形移位器又称定标移位器。当数据存储器的数据送入累加器或与累加器中的数据进行运算时，先通过这个移位器进行0~16位左移，然后再进行运算。并行移位器即输出移位器，其作用是将累加器中的数据左移0、1或4位后再送入数据存储器中，以实现小数运算或小数乘积的调整。在TMS32010/C10基础上又派生了多个处理器，它们可提供不同的处理器速度、存储器扩展和各种I/O集成。2.3.1.3TMS320C1X的其他芯片1．TMS320C15/E15TMS320C15/E15与TMS32010的代码和管脚全兼容，提供256字的片内RAM和4K字的片内ROM（C15）或EPROM（E15）。TMS320C15的指令周期有200ns和160ns（TMS320C15-25）两种。2．TMS320C17/E17TMS320C17/E17是一个专用的微处理器。它有4K字的片内程序ROM（C17）或EPROM（E17），一个全双工串行通信的双通道串行口，片内硬件压扩器（律/A律），一个用于串行通信的串行口定时器，及一个协处理器接口。协处理器接口可以在处理器和4/8/16位微处理器之间提供直接接口。TMS320C17/E17与TMS32010目标代码兼容，且可用相同的开发工具。该处理器是基于TMS320C10的CPU内核，外加片内的外设存储器和I/O模块。TMS320C17/E17可认为是半定制的DSP芯片。表2.1是TMS320第一代产品的比较表。·16·表2.1TMS320第一代处理器DSP芯片指令周期（ns）制造工艺片内程序ROM（字）片内程序EPROM（字）片内数据RAM（字）片外程序（字）TMS32010200NMOS1.5K1444KTMS32010-25160NMOS1.5K1444KTMS32010-14280NMOS1.5K1444KTMS32011200NMOS1.5K144TMS320C10200CMOS1.5K1444KTMS320C10-25160CMOS1.5K1444KTMS320C15200CMOS4K2564KTMS320C15-25160CMOS4K2564KTMS320E15200CMOS4K2564KTMS320C17200CMOS4K256TMS320C17-25160CMOS4K256TMS320E17200CMOS4K2562.3.2TMS320C2X第二代TMS320DSP芯片包括TMS32020、TMS320C25/E25、TMS320C26及TMS320C28。在这些芯片中，TMS32020是一个过渡的产品，其指令周期为200ns，与TMS32010相当，而其硬件结构则与TMS320C25一致。在第二代DSP芯片中，TMS320C25是一个典型的代表，其他芯片都是由TMS320C25派生出来的。其中TMS320E25将内部4K字的ROM改为EPROM；TMS320C26去掉了内部的4K字ROM，而将片内RAM增加到1.5K字；TMS320C28则将内部ROM增加到8K字。由于TMS320C25的典型性，下面就讨论TMS320C25的基本特征和结构。2.3.2.1TMS320C25的基本特征指令周期：TMS320C25：100ns，TMS320C25-33：120ns，TMS320C25-50：80ns片内掩膜ROM：4K字片内RAM：544字，分B0、B1和B2三块程序和数据空间均为64K字具有8级硬件堆栈、8个辅助寄存器具有全静态双缓冲串行口，可与许多串行器件直接接口与低速片外存储器通信的等待状态插入采用HOLD操作的DMAFFT变换用的比特反转寻址扩