基于ARM+DSP的双核架构

pxc1213
2 ℃
2020-01-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

基于ARM+DSP的双核架构，很多工程师不知道如何入手进行开发，提出了很多的疑问，比如对ARM工程师，很困惑的是如何使用DSP的资源？如何进行数据的交互？如何保持双核之间的同步？对DSP工程师，则问到如何进行ARM调试？如何启动DSP？如果进行媒体加速，如何操作外设获取或发送数据等。基于不同的开发经验和基础，ARM工程师和DSP工程师会从完全不同的角度来看SOC的芯片，以至于拿到SOC的芯片根本不知道如何入手，这里就本人的经验与大家分享一下。首先ARM+DSP的芯片，他是一个双核的，对应ARM和DSP分别是不同的指令集和编译器，可以把SOC的芯片看成是两个单芯片的合成，需要两套不同的开发工具，CCS3.3可以进行芯片级的调试和仿真，但是对应ARM和DSP需要选择不同的平台。一般来说，ARM上面跑操作系统，比如Linux，Wince等，在ARM上的开发，除了bootloader以外，基本都是基于OS的开发，比如驱动，内核裁减，以及上层应用等，需要的调试和仿真主要靠log或者OS提供的调试器，如KGDB，PlatformBuilder等。基于DSP核的开发和传统单核DSP一样，需要用CCS+仿真器来进行开发调试。其次，对于芯片的外设接口，ARM核和DSP核都可以访问，典型的情况是ARM控制所有的外设，通过OS上的驱动去控制和管理，这部分和传统的ARM芯片类似；DSP主要是进行算法加速，只是和memory打交道，为了保持芯片的资源管理的一致性，尽量避免由DSP去访问外设。当然，根据具体的应用需求，DSP也是可以控制外设接口进行数据的收发，这时，需要做好系统的管理，避免双核操作的冲突。对memory的使用，非易失的存储空间，比如NAND、NORFlash，基本也是由ARM访问，DSP的算法代码作为ARM端OS文件系统的一个文件存在，通过应用程序进行DSP程序的下载和DSP芯片的控制。外部RAM空间，即DDR存储区，是ARM和DSP共享存在的，但是在系统设计的时候，需要把ARM和DSP使用的内存严格物理地址分开，以及预留出一部分用来交互的内存空间。一般情况，ARM是用低端地址，DSP通过CMD文件分配高端地址，中间预留部分空间用来做数据交互，比如在OMAP3的Linux下的DVSDK中，128MB的DDR空间被分成三部分，低端地址从0x8000000到0x85800000-1的88MB空间给Linux内核使用；从0x85800000到0x86800000-1的16MB给CMEM的驱动，用来做ARM和DSP的大块数据交互，从0x86800000到0x88000000-1的24MB是DSP的代码和数据空间。芯片的启动也是需要重点考虑的问题，一般情况下，是ARM启动，和传统的单核ARM一样，支持不同的启动方式，比如可以支持NAND，NOR，UART，SPI，USB，PCI等接口启动。DSP默认处于复位状态，只有通过ARM的应用下载代码并且解除复位以后，DSP才能跑起来。有些应用场景，需要DSP直接从外部上电就自启动，有些芯片也是支持这种模式的。最后，关于芯片的通信和同步，这个是困扰很多工程师的问题，为了便于客户的开发和使用，TI提供了DSPLINK，CODECENGINE的DVSDK开发套件，基于DVSDK可以很方便的进行ARM+DSP的应用开发，下面对DVSDK的软件架构，各个软件模块的功能等做简要介绍。DVSDK是多个软件模块的集成，包括纯DSP端的软件模块，ARM的软件模块和双核交互的软件模块。DVSDK的软件包都是基于实时软件模块（Real-Time-Software-Component：RTSC）的，还需要安装RTSC的工具XDC，XDC是TI开源的一个工具，可以支持跨平台的开发，能够最大程度的代码重用；如果需要进行纯ARM的开发，还需要ARM的编译工具以及Linux内核或者Wince的BSP；如果需要进行DSP的算法开发或者DSP端开执行代码生成，还需要安装DSP的编译器cgtools和DSP/BIOS；为了便于配置生成DSP端的可执行代码，通过向导生成Codec的RTSC包和可执行代码，还可以选装ceutils和cg_xml。DVSDK的核心是CodecEngine，所有的其他软件模块基本都是围绕CodecEngine的。CodecEngine是连接ARM和DSP的桥梁，是介于应用层（ARM侧的应用程序）和信号处理层（DSP侧的算法）之间的软件模块，在编译DSP端可执行代码和ARM端应用程序时，都需要CodecEngine的支持。CodecEngine主要有两部分：?ARM端应用适配层，提供了精简的API和对应的库给应用层使用。?DSP的算法调用层，提供了DSP算法的接口封装规范，是的所有的算法通过简单的配置就可以编译到DSP的可执行程序中。最终的应用程序需要通过CodecEngine的API接口来下载DSP代码，调用DSP端的封装好的算法，以及进行ARM和DSP的通信。关于CodecEngine的介绍，可以参考《帮您快速入门CodecEngine》。CodecEngine底层ARM和DSP的通信是建立在DSP/BIOSLink之上的，DSP/BIOSLink真正实现ARM和DSP交互的软件模块。由于DSP/BIOSLink是跨平台的，也是有ARM部分和DSP部分组成，其中在ARM端，包括基于OS的驱动和供应用调用的库文件，DSP端，必须要用DSP/BIOS，DSP的可执行代码需要包含DSP/BIOSLink的库文件。DSP/BIOSLink常用的主要有如下几部分的软件模块：?PROC相关的，主要是用来做DSP芯片的控制，比如启动，停止等，下载DSP的可执行代码，以及直接读写DSP端的memory空间等?MSGQ相关，ARM和DSP的通信是基于MSGQ的，MSGQ有轮询等待的方式或者中断的方式，MSG是基于共享内存池的方式。CodecEngine通过MSGQ交互一些关键数据，比如控制，和一些大块数据的地址指针等。大量的数据交互需要通过cmem实现。在ARM端，配合CodecEngine使用的软件模块有LinuxUtils或者WinceUtils，包含cmem，SDMA等，cmem是用来在OS之外分配连续物理内存空间，进行物理地址到虚地址，以及虚地址到物理地址空间转化的。为了避免数据的多次复制，需要开辟一块ARM和DSP共享的数据空间，ARM和DSP都可以直接访问，这部分空间需要通过CMEM管理。对ARM来说，CMEM是OS上的一个驱动程序，需要通过IOCTL来实现内存分配或者地址空间转化。由于DSP可以访问任何物理地址空间，通过ARM传给DSP的指针必须是物理地址。为了适配一些播放器的接口，DVSDK还提供了DMAI（DigitalMediaApplicationInterface），DMAI提供了更为精简的媒体接口和基于OS的音视频捕捉、回放等接口，在Linux下的gstreamer和Wince下的dshowfilter都是基于DMAI的。并且DMAI也提供了最基本的测试应用例子，可以很方便的进行修改和测试。如果只是调用现成的或者第三方的算法库，可以只了解ARM端的软件模块，CodecEngine或者DMAI已经提供了丰富的应用接口，DSP可以认为是个单纯的媒体加速器，把ARM+DSP的芯片当作ASIC一样使用。如果要充分发挥DSP的性能，就需要对DSP进行开发了。CodecEngine对DSP的算法只是规范了接口，以便于和CodecEngine一起生成DSP的可执行程序。开发DSP算法的工程师，和传统的单核的DSP开发模式类似，只需要操作DSP核，基于CCS进行算法开发，最后封装成xDM的接口就可以了。具体如何进行DSP的打包，如何生成DSP的可执行程序，在后续的文章继续讨论。arm是一种嵌入式芯片，比单片机功能强，可以针对需要增加外设。类似于通用cpu，但是不包括桌面计算机。DSP主要用来计算，计算功能很强悍，一般嵌入式芯片用来控制，而DSP用来计算，譬如一般手机有一个arm芯片，主要用来跑界面，应用程序，DSP可能有两个，adsp,mdsp，或一个，主要是加密解密，调制解调等。FPGA和CPLD都是可编程逻辑器件，都可以用VHDL或verilogHDL来编程，一般CPLD使用乘积项技术，粒度粗些；FPGA使用查找表技术，粒度细些，适用触发器较多的逻辑。其实多数时候都忽略它们的差异，中国电子顶级开发网--电子设计讨论、博客、超人气的电子工程师资料分享平台一般在设计ASIC芯片时要用FPGA验证，然后再把VHDL等程序映射为固定的版图，制作ASIC芯片，在设计VHDL程序时，有可能要使用C仿真。SOC就是单片系统，主要是器件太多设计复杂，成本高，可靠性差等缺点，所以单片系统是一个发展趋势。SOPC就是可编程芯片系统，就是可以用FPGA/CPLD实现一个单片系统，譬如altera的Nios软核处理器嵌入到Stratix中。●FPGA与CPLD的区别系统的比较,与大家共享：尽管ＦＰＧＡ和ＣＰＬＤ都是可编程ＡＳＩＣ器件,有很多共同特点,但由于ＣＰＬＤ和ＦＰＧＡ结构上的差异,具有各自的特点:①ＣＰＬＤ更适合完成各种算法和组合逻辑,ＦＰＧＡ更适合于完成时序逻辑。换句话说,ＦＰＧＡ更适合于触发器丰富的结构,而ＣＰＬＤ更适合于触发器有限而乘积项丰富的结构。②ＣＰＬＤ的连续式布线结构决定了它的时序延迟是均匀的和可预测的,而ＦＰＧＡ的分段式布线结构决定了其延迟的不可预测性。③在编程上ＦＰＧＡ比ＣＰＬＤ具有更大的灵活性。ＣＰＬＤ通过修改具有固定内连电路的逻辑功能来编程,ＦＰＧＡ主要通过改变内部连线的布线来编程;ＦＰＧＡ可在逻辑门下编程,而ＣＰＬＤ是在逻辑块下编程。④ＦＰＧＡ的集成度比ＣＰＬＤ高,具有更复杂的布线结构和逻辑实现。⑤ＣＰＬＤ比ＦＰＧＡ使用起来更方便。ＣＰＬＤ的编程采用Ｅ2ＰＲＯＭ或ＦＡＳＴＦＬＡＳＨ技术,无需外部存储器芯片,使用简单。而ＦＰＧＡ的编程信息需存放在外部存储器上,使用方法复杂。⑥ＣＰＬＤ的速度比ＦＰＧＡ快,并且具有较大的时间可预测性。这是由于ＦＰＧＡ是门级编程,并且ＣＬＢ之间采用分布式互联,而ＣＰＬＤ是逻辑块级编程,并且其逻辑块之间的互联是集总式的。⑦在编程方式上,ＣＰＬＤ主要是基于Ｅ2ＰＲＯＭ或ＦＬＡＳＨ存储器编程,编程次数可达1万次,优点是系统断电时编程信息也不丢失。ＣＰＬＤ又可分为在编程器上编程和在系统编程两类。ＦＰＧＡ大部分是基于ＳＲＡＭ编程,编程信息在系统断电时丢失,每次上电时,需从器件外部将编程数据重新写入ＳＲＡＭ中。其优点是可以编程任意次,可在工作中快速编程,从而实现板级和系统级的动态配置。⑧ＣＰＬＤ保密性好,ＦＰＧＡ保密性差。⑨一般情况下,ＣＰＬＤ的功耗要比ＦＰＧＡ大,且集成度越高越明显。随著复杂可编程逻辑器件(CPLD)密度的提高,数字器件设计人员在进行大型设计时,既灵活又容易,而且产品可以很快进入市场。许多设计人员已经感受到CPLD容易使用、时序可预测和速度高等优点,然而,在过去由于受到CPLD密度的限制,他们只好转向FPGA和ASIC。现在,设计人员可以体会到密度高达数十万门的CPLD所带来的好处。CPLD结构在一个逻辑路径上采用1至16个乘积项,因而大型复杂设计的运行速度可以预测。因此,原有设计的运行可以预测,也很可靠,而且修改设计也很容易。CPLD在本质上很灵活、时序简单、路由性能极好,用户可以改变他们的设计同时保持引脚输出不变。与FPGA相比,CPLD的I/O更多,尺寸更小。如今,通信系统使用很多标准,必须根据客户的需要配置设备以支持不同的标准。CPLD可让设备做出相应的调整以支持多种协议,并随著标准和协议的演变而改变功能。这为系统设计人员带来很大的方便,因为在标准尚未完全成熟之前他们就可以著手进行硬件设计,然后再修改代码以满足最终标准的要求。CPLD的速度和延迟特性比纯软件方案更好,它的NRE费用低於ASIC,更灵活,产品也可以更快入市。CPLD可编程方案的优点如下：●逻辑