1©陈强,《高级计量经济学及Stata应用》课件,第二版,2014年,高等教育出版社。第25章非线性回归与门限回归25.1非线性最小二乘法对于非线性回归模型,除了MLE,还可使用“非线性最小二乘法”(NonlinearLeastSquare,简记NLS)。考虑以下非线性回归模型:(,)(1,,)iiiyginx2为K维参数向量,()g是的非线性函数,且无法通过变量转换变为的线性函数。如果(,)iigxx,则回到古典线性回归模型。记为的一个假想值,对应的残差为(,)iiieygx。非线性最小二乘法通过选择,使得残差平方和最小:2211minSSR()(,)nniiiiieygx3最小化的一阶条件为1(,)SSR()2(,)niiiigyg0xx可简化为1(,)(,)niiiigyg0xx1(,)niiige0x这是一个K个方程、K个未知数的非线性方程组。4满足这个非线性方程组的估计量被称为“非线性最小二乘估计量”,记为NLSˆ。残差向量e与(,)gx正交,而不是与x正交(线性回归的情形)。通常没有解析解,要用数值迭代方法求解,比如牛顿-拉夫森法。例考虑如下非线性回归模型:123exp()iiiyx这个模型含有三个未知参数123(,,),即3K。5使用NLS进行估计,残差平方和为21123exp()minSSR()niiixyNLS估计量的一阶条件为11231exSS0)R)p(2(iniiyx112332exp()exp(S)2)SR(0iniiixxy1232331exp()exp(SSR()0)2niiiiixxxy6NLS的大样本性质如果E(|)0iix,再加上一些技术性条件,则NLSˆ为的一致估计量,且NLSˆ服从渐近正态。如果扰动项为球型扰动项,则NLSˆ是渐近有效的(asymptoticallyefficient)。25.2非线性回归的Stata命令及实例725.3门限回归考察回归系数是否稳定:将样本分成若干子样本分别回归,能否得到相近的估计系数?对于时间序列,经济结构是否随着时间推移而改变(Chowtest)?对于横截面数据,比如,样本中有男性与女性,可根据性别将样本一分为二,分别估计男性样本与女性样本。如果用来划分样本的变量是连续型变量,比如,企业规模、人均国民收入,则需要给出一个划分的标准,即“门限(门槛)值”(thresholdlevel)。8例在应用研究中,人们常常怀疑大企业与小企业的投资行为不同,那么如何区分大企业与小企业呢?例受到流动性约束(liquidityconstraint)的企业与没有流动性约束企业的投资行为也可能不同,如何通过债务股本比(debttoequityratio)或其他指标来区分这两类企业?例发达国家与发展中国家的经济增长规律可能不同,如何通过人均国民收入这一指标来区分一个国家发达与否?传统的做法由研究者主观确定一个门限值,把样本一分为二,既不对门限值进行参数估计,也不进行统计检验,结果并不可靠。Hansen(2000)提出“门限(门槛)回归”(thresholdregression),以严格的统计推断方法对门限值进行参数估计与假设检验。9假设样本数据为1,,niiiiyqx。iq为用来划分样本的“门限变量”(thresholdvariable),iq可以是解释变量ix的一部分:12,,若若iiiiiiiiyqyqxx其中,为待估门限值,ix为外生解释变量,与i不相关。将此分段函数合并写为1212()()iiiiiiiiyqq11zzxx10可用NLS来估计。如果已知,可定义1()iiiq1zx与2()iiiq1zx,将此方程转化为线性回归模型:1122iiiiyzz实践中,常分两步来最小化残差平方和。首先,给定的取值,用OLS估计1ˆ()与2ˆ()(1ˆ与2ˆ依赖于),并计算残差平方和SSR()(称为ConcentratedSumofSquaredResiduals),也是的函数。其次,选择使得SSR()最小化。11给定iq,由于示性函数()iq1与()iq1只能取值0或1,故是的阶梯函数,而“阶梯的升降点”正好是iq(只有一级“台阶”)。故SSR()也是的阶梯函数,而阶梯的升降点恰好在1niiq不重叠的观测值上,因为如果取1niiq以外的其他值,不会对子样本的划分产生影响,故不改变SSR()。最多只需要考虑取n个值即可,即12,,,nqqq。这使得SSR()的最小化计算得以简化。记最后的参数估计量为12ˆˆˆˆˆ(),(),。12在一定的条件下,Hansen(2000)导出了ˆ的大样本渐近分布,在此基础上构造ˆ的置信区间,并对00:H进行似然比检验。类似地,可考虑包含“多个门限值”的门限回归。比如,对于门限变量iq,假设两个门限值为12,则门限回归模型为1121232()()()iiiiiiiiyqqq111xxx1325.4面板数据的门限回归对于面板数据,,:1,1ititityqintTx,Hansen(1999)考虑了如下的固定效应门限回归模型:12,,若若itiititititiititityqyqxx其中,itq为门限变量(可以是itx的一部分),为门限值,扰动项it为iid。假设itx为外生变量(不包含ity的滞后值),与it不相关。14将模型更简洁地表示为12()()itiititititityqq11xx假设n较大,T较小(短面板),故大样本的渐近理论基于“n”。定义12,()()()itititititqq11xxx,则方程简化为()itiitityx对于个体i,将方程两边对时间求平均:()iiiiyx15将两方程相减,可得离差形式:()()()itiitiitiyyxx记*ititiyyy,*()()()ititixxx,*ititi,则可得***()ititityx仍使用两步法进行估计。首先,给定的取值,用OLS进行一致估计(组内估计量),得到估计系数ˆ()以及残差平方和SSR()。其次,对于:1,1itqintT(最多有nT个可能取值),选择ˆ,使得ˆSSR()最小。最后得到估计系数ˆˆ()。16如果不希望某个子样本中的观测值过少,可限制的取值,比如不考虑itq中最大5%或最小5%的取值。对于是否存在“门限效应”(thresholdeffect),可检验原假设:012:H如果此原假设成立,则不存在门限效应,模型简化为1itiitityx对于这个标准的固定效应面板模型,将其转化为离差形式,然后用OLS来估计(组内估计量)。17记在“012:H”约束下所得到的残差平方和为*SSR,以区别于无约束的残差平方和ˆSSR()。显然,*ˆSSRSSR()。如果*ˆSSRSSR()越大,加上约束条件后使得SSR增大越多,则越应该倾向于拒绝“012:H”。Hansen(1999)提出使用以下似然比检验(LR)统计量:*2ˆˆLRSSRSSR()其中,2ˆSSR()ˆ(1)nT为对扰动项方差的一致估计。18如果“012:H”成立,则不存在门限效应,也就无所谓门限值等于多少。在0H成立的情况下,无论取什么值,对模型都没有影响,故参数不可识别。检验统计量LR的渐近分布并非标准的2分布,而依赖于样本矩,无法将其临界值列表,但可用自助法得到临界值。如果拒绝“012:H”,认为存在门限效应,可进一步对门限值进行检验,即检验“00:H”。定义似然比检验统计量为2ˆˆLR()SSR()SSR()19在“00:H”成立的情况下,LR()的渐近分布的累积分布函数为221ex,可直接算出临界值。可利用统计量LR()来计算的置信区间。考虑多门限值的面板回归模型。以两个门限值为例:1121232()()()itiititititititityqqq111xxx其中,门限值12。将这个模型转换为离差形式,仍用两步法进行估计。首先,给定12(,),使用OLS估计离差模型,得到残差平方和12SSR(,)。其次,选择12(,)使得12SSR(,)最小化。