数字集成电路低功耗物理实现技术与UPF孙轶群sun.yiqun@nationz.com.cn国民技术股份有限公司NationzTechnologiesInc摘要本文从CMOS电路功耗原理入手,针对不同工艺尺寸下数字集成电路的低功耗物理实现方法进行描述,并着重描述了SynopsysUPF(UnifiedPowerFormat)对低功耗设计的描述方法。UPF是Synopsys公司提出的一种对芯片中电源域设计进行约束的文件格式。通过与UPF格式匹配的Liberty文件,UPF约束文件可以被整套Galaxy物理实现平台的任何一个环节直接使用,并将设计者的电源设计约束传递给设计工具,由工具完成设计的实现工作,从而实现整套数字集成电路低功耗物理实现的流程。1.0概述本文从数字集成电路低功耗设计原理下手,对设计中低功耗的实现技术进行描述,包括完成低功耗设计需要的库资料以及常用EDA工具对低功耗技术实现的方法。2.0CMOS电路的低功耗设计原理CMOS电路功耗主要分3种,静态功耗主要与工艺以及电路结构相关,短路电流功耗主要与驱动电压、p-MOS和n-MOS同时打开时产生的最大电流、翻转频率以及上升、下降时间有关,开关电流功耗主要与负载电容、驱动电压、翻转频率有关。做低功耗设计,就必须从这些影响功耗的因素下手。3.0低功耗设计手段及Library需求低功耗的设计手段较为复杂,但对于不同的设计,或者不同的工艺,实现的方法却各不相同。3.10.18um及以上工艺0.18um及以上工艺,在低功耗设计手段上较为有限,主要原因在于,静态功耗很小,基本不用关心。动态功耗方面,主要的功耗来自于SwitchingPower,即与负载电容、电压以及工作中的信号翻转频率相关。减小负载电容,就必须在设计上下功夫,减少电路规模。减少信号翻转频率,除了降低时钟频率外,只有在设计上考虑,能不翻转的信号就不翻转。至于电压,由于0.18um及以上工艺的阈值电压有一定的限制,因此,供电电压降低,势必影响工作频率。一般说来,在0.18um工艺下设计电路,主要有以下几种对低功耗设计的考虑。3.1.1静态功耗可以忽略根据现有项目经验可知,利用0.18um工艺StandardCell设计出来的某芯片,数字逻辑加上Ram和Rom约40万门的电路,在完全静止的状态下,功耗约200uA左右(实测数据为400uA左右,包括了50uAFlash,30uA的PHY,113uA的VR,其他模拟部分漏电不大,因此这里估算为200uA)。这样的功耗,我们是可以接受的。如果非要减少静态功耗,则可以参照90nm工艺的设计思路,专门设计高阈值电压的MOSFET,或者专门设计切断电源所需的元件,但由此带来设计的复杂性,对0.18um工艺的影响还是很大的。如果设计规模没有那么大,且可以满足应用,往往还是可以忽略这个结果的。3.1.2时钟门控减小不必要的动态功耗在寄存器的电路设计中,时钟输入端都会有一个反向器负载,就算输入端不发生变化,时钟的变化也会造成该反向器的变化,由此产生动态功耗。因此在如果该寄存器输入在某种条件下等于输出(即输出保持)时,可以将时钟门控住,以减少无效的时钟翻转。时钟门控的实现原理如下图所示:图3-1时钟门控原理图如上图所示,由于现在的设计方式,大多数是同步设计,设计人员只考虑数据路径,时钟往往是不做处理的。因此如果要实现门控,只需要在设计电路时提供可以识别的控制信号,在综合的时候,EDA工具就可以自动插入时钟门控。利用DesignCompiler进行时钟门控单元插入,在读入设计以及时序约束后,需要做以下设置:1.set_clock_gating_style,设置时钟门控单元插入的约束2.insert_clock_gating–global,开始插入时钟门控单元;3.uniquify,将所有时钟门控单元做uniquify操作,以便后续PR4.hookup_testports-se_portATPGSE_Pad-se_pinuPad/uATPGSE_Pad/C–verbose,将所有时钟门控单元的scan_enable信号与测试用SE信号连接起来。如果没有ATPG,可以不用该句命令。5.propagate_constraints-gate_clock,将门控单元信息传递给整个电路。6.report_clock_gating可以查看时钟门控单元插入的情况,以便做电路修改,或插入时钟门控单元设置的修改。完成这些设置后,只需要和平常一样做系统综合即可。而在DC2008.09版本以后,第2~5的步骤都可以省略,在利用compile_ultra进行优化时,第2、3步骤都会被自动执行,第4、5步骤会在insert_dft时被执行。形式验证工具Formality,在进行形式验证,需要设置verification_clock_gatie_hold_mode为low、high或者any,Formality就可以识别出时钟门控单元,并与RTL进行形式验证了。3.1.2.1.ClockGatingCells这里所说的ClockGatingCell是指专门设计的,集成式时钟门控单元(IntegratedClockGatingCell,简称ICG),就是利用Latch和与门/或门实现的一个独立的StandardCell,其优势在于以硬IP实现,时序易于掌握,物理实现中对布局布线有帮助。当然如果单元库中不提供专门的时钟门控单元,EDA工具也可以利用与门、或门、Latch甚至是寄存器等进行门控单元的实现,但效果都没有ICG好用。这里针对ICG的插入进行描述。图3-1中的门控单元是一种典型的,利用负沿使能Latch以及与门组成的上升沿有效时钟门控单元,只有时钟下降沿后才会将时钟门控住,保证不产生时钟毛刺。在Liberty格式文件中,某个Cell,需要有clock_gating_integrated_cell,才能让EDA工具认识到,该Cell是一种ICG。不同的clock_gating_integrated_cell的设置,需要在DC设置set_clock_gating_style时做相应的设置,才可能被使用到,下面列举一些常用的设置:同时,在ICG的不同Pin上,必须有以下属性,来告诉DC该Pin在ICG的使用中是什么功能(这里只列举常用的信息):clock_gate_enable_pin该pin是时钟使能控制信号clock_gate_out_pin该pin是时钟输出信号clock_gate_clock_pin该pin是时钟输入信号clock_gate_test_pin该pin是scan_enable或test_mode信号3.1.3使用低电压的库进行设计由于动态功耗中,驱动电压对功耗的影响也相当大,因此,如果能有一套电压只有1V的标准单元库,进行设计,仍然可以达到降低动态功耗的目的。但电压的降低,势必引起元件延时的增加,且由于0.18um工艺下,阈值电压一般在0.4V左右,驱动电压的稳定性需求也相当大,否则,可能会导致致命性的错误。法国的Dolphin公司是一家致力于低功耗设计的IP提供商,在TSMC、SMIC等Foundry的0.18um工艺下都提供了1V的逻辑单元库。下面列出Dolphin在SMIC0.18um工艺下设计的一套1V逻辑单元库,和SMIC0.18um工艺Metro标准单元库进行比较。比较中Metro标准单元库使用1个门的BUFX2M,而Dolphin使用最小的Bufferni01d1进行比较。area(um*um)Averageleakage(nW)Risedelay(0.04pf,ns)TypicalRiseEnergy(0.04pf,pJ)SMIC18METROBUFX2M8.78080.0480.1822560.0266Dolphin1VforSMIC0.18umni01d110.34880.010.60.005由比较中可以看出,当电压下降到1V后,RiseEnergy下降了80%以上,除了由于电压下降引起的功耗降低外,Dolphin应该在电路结构等方面也做了处理,因此不但动态功耗减少了,而且静态功耗也减少了很多。但延时却大了很多,因此如果设计需要翻转的频率不高时,可以考虑利用低功耗的库进行设计,达到降低功耗的目的。如果速度要求很高,这个方法是不可行的。3.290nm及以下工艺从3.1.3可以知道,降低驱动电压,可以减少动态功耗,但由于电压降低,驱动能力也同时被减弱,因此元件延时较大。为了解决这个问题,工艺尺寸开始减小,以便在减小驱动电压的情况下,增加宽长比(aspectratio),以达到提高驱动电流的目的,保持元件延时。同时进入更低尺寸的工艺,氧化层厚度也随之减小,以便减少阈值电压,进一步提高速度。但因为氧化层厚度在减小,漏电电流也变大了。在90nm及以下工艺中,漏电电流开始被设计人员关注。下面对在90nm工艺下进行低功耗设计及实现的一些手段结合常用EDA工具进行描述。3.2.1切断未使能电路的电源减小不必要的静态功耗针对SMIC0.18um工艺Metro标准单元库以及TSMC90nmLP工艺高密度标准单元库(dbtcbn90lphdbwptc)进行比较,以一个门的Buffer来举例:Averageleakage(nW)IncrementalTypicalRiseEnerge(0.04pf,pJ)IncrementalSMIC18METROBUFX2M0.048-0.0266-TSMC90LPBiasedWellBUFFD1BWP0.214345.83%0.00272-89.77%可以看出,90nm工艺下的静态功耗,已经是0.18um工艺下功耗的3.5倍左右了。根据3.1.1可知,利用0.18um设计出来的,约40万门的电路,静态功耗,大约是200uA(360uW,0.18um工艺按1.8V供电电压计算)。如果同样规模的电路,放在90nm工艺下,则可能达到1.26mW左右,即1.05mA左右的静态功耗(90nm工艺按1.2V供电电压计算)。既然,静态功耗这么大,那么在静止时,怎样才能将这些功耗减小呢?一个非常彻底的方法就是将静止状态电路的电源关断。为了关断电源,就需要在电源网络和电路之间建立一个电源控制电路,他们被称为电源开关单元(PowerSwitchingCell),在需要关断时,控制PowerSwitchingCell将电路的供电关闭,否则打开,提供电源。由于电源关断后的电路,其输出信号就没有电路驱动,对于其驱动的电路来说,就会出现输入浮空的状态。为了解决这个问题,就需要在关闭电源的电路输出端添加一个额外的保持电路,当其电源关闭后保持输出,而电源打开时,保持电路则表现的像一个Buffer,输出等于输入即可。同时,如果被关闭电源地电路输入固定电压,也可能产生对地的电流,就需要一个特别的单元对该部分电流进行保护。这样的单元被称为隔离单元(IsolationCell)。一般来说IsolationCell的输出部分有较大的电容负载,也就是说IsolationCell的延时将会比较大,对时序有一定的影响,是需要注意的。当然,对于寄存器来说,如果断电,则原有的数据就无法保存,重新打开电源后,就一定会出现原有数据丢失的情况。因此可以为一些必须保持数据的寄存器建立一个备份设备,电源关闭前,将寄存器的数值保存到备份设备上,电源打开后从备份设备上将数据重新写入寄存器中。这种备份设备叫做保存寄存器单元(RetentionRegisterCells)。对于PowerSwitchingCell、IsolationCell以及RetentionRegisterCell,他们在上电之后是不能关闭的,因此使用的电源也和正常功能不同,这些单元被成为常开逻辑单元(Always-OnLogicCells)下面就各种不同的Cell,描述其原理、库中保存的信息、以及实现流程。3.2.1.1.PowerSwitchingCells原理上说,PowerSwitchingCell结构如下图所示:图3-2PowerSwi