专题1:有序因变量模型的理论与应用张晓峒(2011-11-15)南开大学数量经济研究所所长、博士生导师中国数量经济学会常务理事天津市数量经济学会理事长nkeviews@yahoo.com.cn有序因变量模型(ordereddependentvariablemodel)由Aitchisen和Silvey(1957)提出。有序因变量模型也是二元离散选择模型的拓展。有序因变量模型中被解释变量yi的观测值表示等级分类,选项是有顺序的,所以称有序因变量。比如,把受调查对象分为5类:文盲、小学毕业、中学毕业、大学毕业和研究生毕业,分别用1、2、3、4、5表示。把受调查对象分为工作、半退休和完全退休3类分别用1、2、3表示。假定有一个隐变量yi*与解释变量列向量Xi呈线性关系,yi*=Xi+ut,utIID(0,2)(1)其中Xi里不包括截距项。如果yi存在m种选择,则被解释变量yi与隐变量yi*存在如下关系:*,*,3*,2*,11-32211imiiiiymyyyy其中j,j=1,2,…,m-1称作门限值或阈值。yi,i=1,2,…,m表示被解释变量分类。注意:有序因变量模型的设定应满足如果yiyj,则意味着yi*yj*(即如果因变量yi的序数值小,则相应隐变量yi*的值也一定小)。上式也可写为yi=j,若j-1yi*j,j=1,2,…,m,其中0=-,m=。上式也可写为yi=j,若j-1yi*j,j=1,2,…,m,其中0=-,m=。据上式P(yi=j)=P(j-1yi*j),j=1,2,…,m依据(1)式,P(yi=j)=P(j-1yi*j)=P(j-1Xi+utj)=P(j-1-Xiutj-Xi)=F(j-Xi)-F(j-1-Xi),j=1,2,…,m其中F(·)表示式(1)中ut的累积概率分布函数。有序因变量的条件概率是P(yi=1∣Xi,,)=F(1-Xi)P(yi=2∣Xi,,)=F(2-Xi)-F(1-Xi)P(yi=3∣Xi,,)=F(3-Xi)-F(2-Xi)…P(yi=m∣Xi,,)=1-F(m-1-Xi)如果ut是正态分布的,则F(2-Xi)表示正态累积概率分布函数。如果ut是logistic分布的的,则F(2-Xi)表示logistic累积概率分布函数。以yi有3种分类为例,在Xi=0条件下,yi选择3种分类各对应的概率如图1所示。其中曲线表示累积概率分布曲线。yi=1,2,3的概率分别是p1,p2-p1,1-p2。当Xi0,且值越大时,分点j-Xi,j=1,2越向左移。yi取标号高的分类的概率越大。当Xi0,且值越小时,分点j-Xi,j=1,2越向右移。yi取标号高的分类的概率越小。对于每一个调查对象而言,处于3种选择的概率和为1。图1累积正态概率分布曲线-4-202400.20.40.60.8112p1P2(j-Xi)F(i-Xi)对于有序因变量模型,阈值和回归系数是通过对对数似然函数求极大同时估计出来的。对数似然函数是logL(,)=)()),,((11jyDjyPlogiNimjiiX其中D(yi=j)是指示函数,当yi=j,j=1,2,…,m为真时,D(yi=j)=1,当yi=j,j=1,2,…,m为不真时,D(yi=j)=0。对于样本中某个yi来说,m个可能值,只有一个为真。例如,仍以受调查对象分为“工作”、“半工作半退休”和“完全退休”3类为例,分别用1、2、3表示。即yi=1,2,3有三种状态。对于某个个体,假设处于“半工作半退休”状态,则D(yi=1)=0,D(yi=2)=1,D(yi=3)=0对数似然函数求极大,就是每个个体在其yi取值条件下,估计,使对数似然函数值达到最大。求概率p1(第1种选择概率)对某个解释变量的偏导数计算公式是NiKkyPpkikikikikikikiiik...,,1,,...,1),)(-()()-()-()-()(),1()(11111XXXXXXXX求概率pj,j=2,...,m-1(中间选择的概率)对某个解释变量的偏导数计算公式是NiKkmjjyPpkikjikjikikjikjikjikikjikjikjikiiikj...,,1,,...,1,1...,,2),)](-()-([)()-()-()-()()-()-()-()(),()(1111XXXXXXXXXXXXX求概率pm(最后1种选择概率)对某个解释变量的偏导数计算公式是NiKkyPpkikmikikmikmikmikimikm...,,1,,...,1),)(-()()-()-()]-(1[)(),1()(1111XXXXXXXX注意:(1)的符号能预示两个外端状态概率的变化方向。P(yi=1)状态的概率变化与的符号相反(即增加,P(yi=1)减小)。而P(yi=m)状态的概率变化与的符号相同。(即增加,P(yi=m)也增加)P(yi=1∣Xi,,)=F(1-Xi)P(yi=2∣Xi,,)=F(2-Xi)-F(1-Xi)P(yi=3∣Xi,,)=F(3-Xi)-F(2-Xi)…P(yi=m∣Xi,,)=1-F(m-1-Xi)(2)作为样本观测值,yi只取1,2,…,m,而对于每一个研究对象,当把解释变量的值代入隐变量估计式后,可以计算隐变量的值,以及该研究对象处于m种选择的相应概率值。哪一个概率值大,该研究对象最有可能处于那种状态。案例4:(file:7order_model-1)分析736家上市公司的净资产收益率(Y)净资产收益率(ner,测量公司绩效的指标)被离散化为3个等级。2.03,2.002,0,1,高盈利)净资产收益率(,中等盈利)净资产收益率(,亏损)净资产收益率(nernernery解释变量rate:基金持股比例解释变量total:总资产有序响应Probit模型估计结果如下:yi*=0.0168RATEi+1.1710-11TOTALi+ut,utIID(0,2)(5.3)(2.9)N=736,伪R2=)~(log)ˆ(log1LL=3162.4977165.4471=0.0997,(McFaddenR2)两个阈值分别是1=-1.5156,2=1.0248。用736家上市公司中的每一家公司的解释变量数据都可以计算出一个隐变量的值*ˆiy,并同时计算出该公司处于3个盈利等级的概率预测值。而哪一个等级的概率值最大,就是该公司最有可能处于的状态。3个盈利等级的概率预测值用下式计算。P(yi=1∣Xi,,)=F(1-Xi)=F(-1.52-*ˆiy)P(yi=2∣Xi,,)=F(2-Xi)-F(1-Xi)=F(1.02-*ˆiy)-F(-1.52-*ˆiy)P(yi=3∣Xi,,)=1-F(2-Xi)=1-F(1.02-*ˆiy)图1以隐变量*ˆiy为横轴对应每个公司3个等级的概率预测值的散点图见图1。隐变量*ˆiy的每一个值都会在其垂直方向上对应着3个概率预测值点(兰、红、绿点)。分别表示公司处于亏损、中利、高利状态的概率值。.0.1.2.3.4.5.6.7.8.90.00.40.81.21.62.02.4Y_1_0Y_2_0Y_3_0I_Y_0概率p1,p2,p3*ˆiy隐变量已知第21号公司,基金持股比例rate21=17.259,总资产total21=2.65109。求该公司的净资产收益率处于1、2、3等级的概率各是多少。解释变量每增加一个单位的概率增加多少。先求隐变量*ˆ21y的值。如下计算中,F()表示累计概率分布函数。()表示概率密度分布函数。*ˆ21y=0.0168RATE21+1.1710-11TOTAL21=0.016817.259+1.1710-112.65109=0.3205该公司的净资产收益率处于1、2、3等级的概率各是P(y21=1)=P(-y21*1)=F(1-X21)=F(1-*ˆ21y)=F(-1.5156-0.3205)=8361.12221dtet=0.0332P(y21=2)=P(1y21*2)=F(2-X21)-F(1-X21)=F(2-*ˆ21y)-F(1-*ˆ21y)=F(1.0248-0.3205)-F(-1.5156-0.3205)=0.70432221dtet-8361.12221dtet=0.7262P(y21=3)=P(2y21*)=1-F(2-X21)=1-F(1.0248-*ˆ21y)=1-F(1.0248-0.3205)=1-0.70432221dtet=0.2406P(y21=1)+P(y21=2)+P(y21=3)=0.0332+0.7262+0.2406=1三个概率值0.0332,0.7262,0.2406中,相对于第2等级(中等盈利)的概率值0.7262最大,所以第21号公司的最有可能结果是处于第2盈利等级(中等盈利)。见图2。图2.0.1.2.3.4.5.6.7.8.90.00.40.81.21.62.02.4Y_1_0Y_2_0Y_3_0I_Y_0按pj=1,2,3求解释变量基金持股比例rate,总资产total各每增加一个单位,概率值变化多少。ratep1=))(-()-()-()-(*)(*)(*)(12112112111212121XXXXraterateyyyF21=(1-*ˆ21y)(-β1)=(-1.5156-0.3205)(-0.0168)=2)-1.8361(221e(-0.0168)=-0.00124totalp1=))(()()()(*)(*)(*)(2211211211211212121XXXXtotaltotalyyyF=(1-*ˆ21y)(-β2)=(-1.5156-0.3205)(-1.1710-11)=2)-1.8361(221e(-1.1710-11)=-8.6410-13ratep1+totalp1=-0.00124-8.6410-13=-0.00124当基金持股比例rate,总资产total都增加一个单位时,第21号公司处于第1盈利等级的概率将下降0.00124。rateFrateFraterateyyyFratep)()()()()()()()()(*)(*)(*)(2112112112122122122121212121212XXXXXXXXX=[(2-*ˆ21y)-(1-*ˆ21y)](-β1)=[(1.0248-0.3205)-(-1.5156-0.3205)](-β1)=[(0.7043)-(-1.8361)](-0.0168)=2)-1.8361(2)0.7043(2221-21ee(-0.0168)=-0.00398totalFtotalFtotaltotalyyyFtotalp)()()()(