基于SOPC技术构建FPGA上的B/S系统郑安兵(桂林工学院)转载请注明出处摘要:本文论述了使用FPGA器件,利用SOPC嵌入式开发技术,复用多种软CPUIP核,使用片内总线代替机群内的计算机网络,移植现有的软件开发方法,在片上构建包含WEB服务器、业务逻辑应用服务器、数据库服务器的B/S系统的可行性及实现方法,并给出一个具体实现方案。引言B/S系统一直是基于大中小型服务器、台式机等通用计算机而设计的。为具体单个的B/S系统从芯片开始量身订做一整套计算机软硬件系统,使其安全、可靠、高效地运行,长期以来被认为是一件不现实的事情。近年来,FPGA器件和SOPC嵌入式开发技术的迅速发展为多处理器片上系统的实现提供了灵活的解决方案。利用可配置处理器软核复用的多处理器片上系统,借以实现B/S系统软硬件一体化,已经成为一个值得研究的课题。本文探讨使用FPGA器件,利用SOPC技术,复用多种软CPUIP核,移植现有的编程模式,在片上构建一个多处理器B/S系统的可行性及实现方法。这种系统不仅效率、处理事务的吞吐率与现有的以通用机为主的B/S系统相当,且其安全性、可靠性更好,成本更为低廉。一、可行性当前的典型B/S系统一般分为三层:数据访问层、业务逻辑层、表示层,另外,其后台一般都需要DBMS为其提供数据库服务。系统所需的机器主要有:数据库服务器、业务逻辑应用服务器、Web服务器,三种服务器软件可以部署在一台机器上,也可部署在多台机器上,各机器之间用计算机网络互连,目前流行的部署方式属于后者。在B/S系统中,一个用户从浏览器输入URL到一桩事务处理完毕基本上要经历如下几个过程:1、Web服务器解释页面脚本2、在遇到业务逻辑运算时调用业务逻辑层API3、业务逻辑应用程序进行业务逻辑运算4、业务逻辑应用程序在遇到数据库操作时向DBMS传递SQL语句5、DBMS操作数据库,并返回结果给应用逻辑应用程序6、应用逻辑应用程序运行完毕时返回结果给Web服务器7、Web服务器生成结果HTML页面返回给客户端其中2-6的过程可能会在一个页面里处理多次,3-5的过程可能会在一次业务逻辑运算时处理多次。因此,通常情况下,负荷最重的是DBMS,其次是业务逻辑应用子系统,最后才是Web服务子系统。其中,DBMS还要受限于磁盘读写速度瓶颈。当多个用户请求页面时,不同架构的B/S系统执行时间是不同的。为了简便测算系统的执行时间,先假设每次页面请求时,Web服务器、应用服务器、数据库服务器线性执行。设单个页面在Web服务器上运行的时间为TW,在应用服务器上运行的时间为TA,在数据库服务器上运行的时间为TD,通信开销为TC。则,串行执行一个页面处理所需的时间为:TCTDTATWT0(1)流水执行时,负荷最重的DBMS显然是瓶颈,当n个页面处理流水执行时,流水线的执行时间为:nTDTCTATWTf(2)由(2)式可以看出,当n非常大,且页面处理过程线性流水执行时,TW、TA、TC可以忽略不计,系统的吞吐率只与TD有关,即,数据库服务器吞吐率实际上决定了整个B/S系统的吞吐率。数据库服务器上CPU的运行时间与磁盘读写时间相比,相差约为六个数量级,即使采用了磁盘阵列、缓存管理、数据预处理等先进技术加快磁盘访问速度,也至少相差三到四个数量级,因此,可以这样认为,在B/S系统中,CPU的运算速度并不是最重要的因素。现在在FPGA上可运行的软CPU核中,Altera的NiosII可以达到200DMIPS,Xilinx的MicroBlaze可以达到166DMIPS,OpenCores的OpenRisc1200性能介于ARM7到ARM9之间,在主频300MHz时,性能可以达到300DMIPS,虽然与主流通用机CPU相比,它们的速度有很大差距,但在B/S系统中,这种差别已经为页面处理过程的磁盘读写瓶颈所淡化。NiosII软核的耗费约600到3000个逻辑单元,MicroBlaze与NiosII的耗费相当,OpenRisc1200耗费约为4000个逻辑单元,而一片Altera的高端StratixIIFPGA器件EP2S180有179400个逻辑单元,一片Xilinx的高端Virtex-4型LX系列FPGA器件最大有89088个Slice。在其上复用多个CPU软核(至少三个以上)构成多处理器硬件系统已经不再是非常困难的事情。OpenCores已经在OpenRisc1200上移植了Linux内核版本2.6.15(当前最新版本为2.6.24),并提供GCC4.0的交叉编译工具链;Altera为其NiosII提供了uCosII开发插件,同时,Microtronix也为其提供了uClinux内核移植及其开发插件;MicroBlaze上也移植了uClinux.;由于这些工作的完成,片上多核B/S的软件系统构建的复杂度大大降低。因此,利用可配置处理器软核复用的多处理器片上系统,借以实现B/S系统软硬件一体化,有可能达到与基于通用机B/S相似的性能,而且在技术上也是可行的。二、硬件架构在FPGA上将Web服务器、应用服务器、数据库服务器集成,至少需要三个处理器软核,其中,作为Web服务器和数据库服务器的CPU必须能够运行复杂的操作系统,例如Linux。一个可行的方案可以如图1所示架构。数据库服务CPU应用服务CPU1。。。。。。应用服务CPUnWebServerCPU本地存储器LM本地存储器LMscsi控制器LMLMLM应用服务共享存储器磁盘阵列交叉开关总线数据库服务子系统应用服务子系统Web服务子系统以太网接口全局共享存储器(多体低位交叉存储器)总线桥图1片上多核B/S系统的硬件架构图1中,数据库服务、应用服务、Web服务三个子系统之间用交叉开关总线(SwitchFabric)Wishbone互连。其中,Web服务子系统和数据库服务子系统使用OpenRisc1200,应用服务子系统采用NiosII多核复用实现一个SMP(对称多处理器系统),用Avalon总线互连,子系统内共享一个内部共享存储器,子系统的Avalon总线与全局的Wishbone总线用一个总线桥来实现两种总线信号的转换。三个子系统之间使用一个全局共享存储器作为通信媒介。图中每个存储器(包括本地存储器和共享存储器)均通过各自的存储控制器连在总线。本地存储器分两块,一块为存储运行程序的FLASH芯片,一块为程序运行中使用的RAM,可以为SDRAM或者DDRSDRAM、DDR2SDRAM。共享存储器均需有一个硬件Mutex核,以保证各处理器对共享内存的互斥访问。除总线桥外,其余的IP核均可由Altera公司提供或从OpenCores网站上免费下载。各子系统中所需运行的软件都放在各自的本地的FLASH中,对于运行中的各子系统而言,FLASH是只读的。只有在停机时,通过另外的专用硬件工具,才可以执行FLASH写操作。这样,可以有效避免黑客篡改程序,对木马、病毒等安全性隐患能起到一些预防作用。在不能停机维护的应用场合,由于数据的存储媒介与程序的存储媒介完全隔离,且除磁盘阵列以外,系统的造价较为低廉,复制一个备份设备代价不大,其热切换时所需完成的工作以及完成时间比通用机系统要少得多。三、软件开发环境对于一个B/S系统,软件开发的难易直接影响到系统的应用。B/S应用需求时常改变,因而,系统在设计时就应考虑到Web网页脚本和业务逻辑应用程序的更新,使其适合于通用的Web应用开发模式。系统中,Web服务子系统上移植Linux后,可以移植Apache和PHP,其过程大致为:从官方网站下载到这两个软件的源程序,然后,在台式机Linux下make一次,然后再用交叉编译工具make,遇到编译失败时,将失败的文件记下(它多半是因为将一些交叉编译时用到的可执行文件编译成了目标机代码而造成的),将X86下编译成功的相应文件覆盖,即可顺利地重新编译。在移植完Apache和PHP文件后,Web服务器上就可以提供静态网页服务和解析PHP脚本了。Apache是世界上应用得最广泛的Web服务器之一,而PHP脚本编写也是世界上应用最广泛的Web应用开发手段之一。在数据库服务子系统中,同样也移植Linux,然后可以移植OracleBerkeleyDB嵌入式数据库服务器软件,移植过程很简单,按照手册用交叉编译工具编译即可。该软件是一套开放源码的嵌入式数据库的程序库。它为应用程序提供可伸缩的、高性能的、有事务保护功能的数据管理服务,为数据的存取和管理提供了一组简洁的函数调用API接口。同时,BDB为多种编程语言提供了API接口,其中包括C、C++、Java、Perl、Tcl、Python和PHP,所有的数据库操作都在程序库内部发生。多个进程,或者同一进程的多个线程可同时使用数据库,有如各自单独使用,底层的服务如加锁、事务日志、共享缓冲区管理、内存管理等等都由程序库透明地执行,BerkeleyDB包含有与某些经典Unix数据库编程库兼容的接口,包括:dbm,ndbm和hsearch,其性能并不比MSSQL2000或者Oracle9i之类大型DBMS相差太多,同样支持ACID数据库事务处理,细粒度锁,XA接口,热备份以及同步复制等数据库高级特性。虽然,它没有用户管理、授权、远程客户端连接等功能,但对于本文的嵌入式B/S来说,由于数据库服务仅供数据库服务子系统程序调用,这些功能已不再需要。在应用程序服务子系统中,可以移植uClinux。其移植后的内核以及应用程序开发环境都已由Microtronix公司嵌入到了Altera公司的NiosIIEDS中了。使用它可以很方便地开发用C和C++编写的应用程序。四、多核之间的通信多核之间采用互斥读写的共享内存进行通信。可以通过互斥硬核Mutex来协调共享资源的访问,Mutex核提供一个基于硬件的原子测试和置位(test-and-set)操作,允许多处理器决定软核对Mutex核的使用权,使用Mutex核就可实现多核对相应共享资源(如存储器)的互斥访问。各CPU运行的软件中提供Mutex核访问的函数,如:打开、加锁、解锁、判断Mutex属主等。其使用方法是:单个软核每次对共享RAM操作之前都要首先取得Mutex核所有权,操作完之后应立即放弃对Mutex核的所有权,从而避免单个软核对Mutex核及共享资源的独占。在应用服务子系统内使用片上RAM作为共享存储器。在子系统间使用片外存储器作为共享存储器。各子系统在逻辑上呈分层结构,Web服务子系统将应用服务子系统当做自己的一个协处理外设,应用服务子系统将数据库服务子系统也当做自己的一个协处理外设。通信信息在逻辑上是调用与被调用的主从关系。由于B/S系统主要关注网页处理的吞吐率,而不是实时响应,因此,通信采用生产者-消费者算法实现,采用两个队列分别表示函数调用请求以及返回结果,其队列表中项的数据结构如表1、表2所示,当上层请求调用下层功能时,它在请求队列插入一个表项,然后查询结果队列,直到结果访回。下层将结果访回给上层时,向结果队列中插入一个表项,然后读取请求队列下一个表项进行处理。变量类型定义Function_name16个字节的字符串所需调用的函数名Parameters256个字节参数表,多参数之间用ESC字符隔开,ESC本身用两个连续的ESC表示。Sequence_Id16位无符号整数序列号,用来标识一次函数调用。表1请求调用队列中表项的数据结构变量类型定义Flag8位无符号整数标志Sequence_Id16位无符号整数序列号Return_value256个字节返回结果表2结果返回队列中表项的数据结构表2的标志字段主要用来扩展返回结果,当返回结果太大,超过256个字节时,使用扩展标志,表示本Return_value字段的并未完含完整结果,需要下一个表项来扩展。无论是全局共享存储器和还是应用服务子系统内的共享存储器,都使用上述数据结构和通信机制。五、系统扩展由于B/S系统在各具体应用中的需求相差很大,即使是同一个具体应用,需求改动也相当频繁,因此,系统必须要具有可伸缩性。由于通信数据结构只与