Delta方法摘要在统计学中,独立和的中心极限定理或者Linderberg-Feller中心极限定理都给出了随机变量服从极限正态分布的条件,不过,很多时候我们关注的不是随机变量本身的分布,而是随机变量函数的分布,而delta方法作用就是利用估计量的极限方差求得渐近正态估计量函数的极限分布。Delta方法主要利用了Taylor展开证明。介绍假定统计量nT是参数的一个估计,但是我们感兴趣的是(),其中是一个已知的函数。一个很自然的想法是用统计量()nT来估计。但是()nT的渐进性质如何呢?首先由连续映射定理可知,如果序列nT以概率收敛于,且在处连续,那么()nT以概率收敛于()。一个类似的问题是关心极限分布。特别的如果()nnT弱收敛到一个极限分布,那么对于(()())nngTg一样成立?定理证明Delta方法(一元)如果一列随机变量nX满足2(0,)nnXN,其中2,均为有限的常数,那么22()()(0,['()])nngXgNg,其中g满足'()g存在且取值不为零。Delta方法(多元)设g(1)jjm都是k变元函数,有一阶全微分,1(,....,)'mggg.又1(,...,)'(1)nnknn为一串随机向量,满足条件(0,),nnaNBn这里1(,...,)'kaaa为常向量,0B为k阶常方阵,则()()(0,'),nnggaNCBCn其中C为mk矩阵,其(i,j)元为/|ijuaguTaylor多项式如果函数g(x)有r阶导数,即存在()()()rrrdgxgxdx,则对任意常数a,g(x)在a附近r阶Taylor多项式(Taylorpolynomialoforderrabouta为()0()()()!iririgaTxxaTaylor定理如果()()()|rrxardgagxdx存在,则()()lim0()rrxagxTxxaTaylor定理表明余项()()rgxTx是Taylor多项式的无穷小,由于我们仅考察Taylor级数近似,常常忽略其余项,所以余项的具体表达式并不十分关心,不过在余项的具体表达式中,下列表示最为常用(1)()()()()!xrrragtgxTxxtdtrSlutsky定理如果nX依分布收敛于随机变量X,nY依概率收敛于常数a则A.nnXY依分布收敛于随机变量aX;B.nnXY依分布收敛于随机变量aX,方法设速记变量序列nY满足:()nnY依分布收敛于2(0,)N,函数g在指定处满足:'()g存在且不为零,则2'2[()()](0,[()])nngYgNg(依分布收敛)证明(一元)()ngY在nY附近的Taylor展式为'()()()()nngYggY余项其中,当nY时余项趋于零。由于nY依概率收敛于,故余项依概率收敛于零,于是'[()()]()[]nnngYggnY(依分布收敛)再由Slutsky定理可知,此定理得证。(多元)因1,...,mgg都有一阶全微分,故有[()()]()()nnnnggaCnana按照假定()nna有极限分布,故当n,(())0nna依概率成立。因此上式左边的极限分布,与右边的第一项分布的极限分布相同。按假定,后者等于C的分布,其中(0,)kNB,这就证明了多元的Deita方法。扩展下面我们介绍Deita方法的一种推广。推广考察g'()0的情形,这种情况却有可能发生,例如我们在Taylor展式中多取一项,即2''()()()'()()()2nnnggYggYY余项令g'()0,重新整理后,即2''()()()()2nnggYgY余项回忆(0,1)N变量的平方服从21分布,于是2212()nnY(依分布收敛)二阶Deita方法设随机变量序列nY满足:()nnY依分布收敛于2(0,)N,函数g在指定的处满足g'()0,''()g存在且不为零,则221''()[()()]2ngngYg(依分布收敛)应用样本协方差1,...,nXX的样本协方差定义为2211()niiSnXX,可以表示为2(,)iXX,其中函数2(,)xyyx,为了简单,我们用的n而不是n-1,假定2S是取自那些一阶矩到四阶矩有限的分布的,并且一阶矩到四阶矩表示为1234,,,。由多元的中心极限定理可知,22121312222231420,0XnNX映射在点12,T,并且其导数12(,)'(2,1)。因此如果向量12(,)'TT服从上面的正态分布,那么212112((,),)2inXXTT上式后面的变量是正态分布,且均值为零,方差可以被1234,,,表示。如果10,方差可以简化为242。一般情况下可以变为这种情况,因为2S在样本iX替换为中心化的随机变量1iiYX的情况下不会改变。令kkiEY,表示iX的中心矩。发现22(,)SYY和122,为初始样本的方差,我们得到22242()(0,)nSN由Slutsky定理,对于无偏的样本协方差矩阵2/(1)nnS这个结果依然成立,因为(/(1)1)0nnn卡方检验的水平作为前面的例子的应用,考虑检验方差的卡方检验。正态理论规定,当2nS超过21n的上分位数2n,时拒绝原假设02:1H。如果样本观察值都来自正态分布,检验有一个精确的水平。如果最初的样本分布不是正态分布是不是仍然成立。不幸的是,答案是否定的。当n很大时,我们可以借助上面的结论。根据中心极限定理和前面的例子的陈述21(1)(0,1)22nnNn,22(1)(0,2)SnN这里242/3表示分布的峰度。第一个式子能够得到2((1))/22nnn,收敛到标准正态分布的上分位数Z。因此卡方检验的水平满足22222122(n)((1))1()2nnnZSPSPnn,,渐近的水平变为1()Z当且仅当分布的峰度等于零。这其实就是正态分布的情形。另一方面重尾分布有一个很大的峰度。如果分布的峰度是接近无穷,那么渐进水平接近1(0)1/2。我们可以得出结论卡方检验对于那些影响峰度值的参数是不稳定的。当检验的临界值在自由度n-1的卡方分不下给定时至少是对的。如果用用正态分布去近似22(1)Sn,且渐进方差2被估地准确的话这个问题就不会被提出来。在上面的例子中22()nS的渐进分布由Delta方法得到。实际上,它可以由更简便更直接方法得到。2222211()(())()niinSnXnXn上式的第二项以概率收敛到零;第一项由中心极限定理渐进正态,所以整个式子由Slutsky定理渐进正态偏度样本1,...,nXX的样本偏度定义为131123/21()(())niinniinXXlnXX意料之中的它会以概率收敛到潜在分布的偏度。定义系数33/,3,分别是三阶中心矩和标准差,对称分布的偏度,比如正态分布,是等于零的,样本的偏度可以用来检验潜在分布的正态性质的某些方面。对于大样本的情形,检验临界值可以用正态近似来定义。样本偏度可以写成23()XXX,其中表示如下323/232(,,)()cabaabcba有中心极限定理可知,序列23123(,,)nXXX为渐近正态,且均值为零。假定61EX有限。而123(,,)表示总体的精确偏度。函数在点123(,,)可微。令1()/iiYX,偏度也可以被表示成23(,,)YYY。33/表示潜在分布的的偏度,那Y满足2555623561310,2/3//YnYNY函数在点(0,1,)的导函数值为(3,3/2,1)。因此如果T服从上述正态分布,那么()nnl为渐近正态,均值为零,方差等于123var(33/2)TTT。如果潜在的分布是正态的,那么6560,0,/15。在这种情况下,样本偏度渐近(0,6)N方差变换统计量nT,满足2()(0,())nTN,对不同的的取值,的渐近置信区间为()()(,)TzTznn不幸的是,上面所说的区间是没有用的,因为区间跟未知参数有关。有一种方法是其他统计量估计其标准差(),如果这一系列的估计量都是相合的,就会有置信区间的渐近水平为12。另一个方法利用方差变换,其往往会收到比较好的结。如果()与无关,这个问题就不会被提出。受此启发得到方差变换的主意。尽管适合条件的情形会比较少,而且经常把变换为另一个不同的参数(),在这种情况下就可以应用了。自然估计的统计量为()nT。如果是可微的函数,那么22(()())(0,'()())nnTN我们可以通过选取使得'()()1,此时渐进方差就为一个常数,找到一个针对于()置信区间是简单的。微分方程的解为1()()d就为一个方差变换。相关性令11(,),...,(,)nnXYXY为来自二维正态分布且相关系数为的样本。样本相关系数可以定义为11/2221()()()()niiinniiiXXYYrXXYY利用Delta方法,它可以导出()nnr渐近零均值的正态分布,,方差由(,)XY的三阶矩和四阶矩决定。在四阶矩存在的情况下,这种方法对一般分布依然成立。在正态的假设下,渐近方差可以由,XY的相关系数表出。22()(0,(1))nnrN变换2111()logarctan121dh因此,序列(arctanarctan)nhrh对于每个都会收敛到正态分布。从而得到相关系数的置信区间为(tanh(arctan/),tanh(arctan/))hrznhrzn