第二章极大似然估计(MLE)第0节基础知识回顾:OLS一.例子假设一个基金的投资组合(“基金XXX”)的超额回报和股市指数的超额回报,有如下的数据:直觉上,该基金的beta(beta测量股票对股市指数的反应)应该是一个正数,我们希望证实这种关系。画这2个变量的散点图:0510152025303540450510152025ExcessreturnonmarketportfolioExcessreturnonfundXXX对于一条直线,可以用以下的方程,来拟合数据。y=a+bx不过这个方程(y=a+bx)是完全确定的,与实际情况不符合。要在这个方程里加入一个挠动项。yt=+xt+ut式中t=1,2,3,4,5用直线来拟合数据最常用的方法是普通最小二乘法(ordinaryleastsquares,OLS):取每个数据点到拟合直线的垂直距离,选择参数、,使得平方距离512ˆttu最小化(leastsquares)。挠动项能够反映数据的一些特征:我们经常会忽略一些影响yt的因素,不可能把影响yt的所有的的随机因素都在模型中考虑。512ˆttuL求解两个参数:tittttxyyyL22)ˆˆ()ˆ(Year,tExcessreturn=rXXX,t–rftExcessreturnonmarketindex=rmt-rft117.813.7239.023.2312.86.9424.216.8517.212.3tttxyL0)ˆˆ(2ˆttttxyxL0)ˆˆ(2ˆ这就是OLS。整理得到:xyxTxyxTyxtttˆˆandˆ22在上例中,把数据代入公式得:ttxy64.174.1ˆ根据这个结果,如果预期下一年的市场回报将会比无风险回报高20%,那么你预期基金XXX的回报将会是多少?二.概念:线性和非线性运用OLS,要求模型对参数(和)是线性的。“对参数线性”意味着参数之间不能乘、除、平方或n次方等。在实际中变量之间的关系很有可能不是线性的。某些非线性的模型可以通过变换转化为线性模型,例如指数回归模型:tttuttuXYeXeYtlnln令yt=lnYt及xt=lnXttttuxy但是,很多模型从本质上讲是非线性的,例如:tttuxy三.OLS的优良性质在OLS回归模型中,对ut(不可观测的误差项作如下假设)作如下架设:解释1.E(ut)=0误差项的均值为零2.Var(ut)=2误差项的方差是常数3.Cov(ui,uj)=0误差项相互独立的4.Cov(ut,xt)=0误差项和解释变量不相关以上假设成立时,OLS有如下三个良好性质。一致性最小二乘估计是一致的。这意味着,当样本数趋向于无穷大时,估计值将收敛于它们的真实值(需要假设E(xtut)=0和06.312064.174.1ˆiyVar(ut)=2)00ˆPrlimTFigure:DistributionofaConsistentEstimatorTrueValueAsthesamplesizeincreasestheestimatorconvergesinprobabilityonthetrueparametervalue无偏性最小二乘估计式是无偏的,意味着估计值的期望等于真实值.E(ˆ)=andE(ˆ)=为了保持无偏性需要假设E(ut)=0和Cov(ui,uj)=0。无偏性比一致性更强。有效性在所有的线性无偏的估计式中,OLS估计式的方差是最小的,即OLS估计的参数ˆ与真实值出现大的偏差的概率最小。Figure:SamplingDistributionsofEstimatorsUnbiasedBiasedEfficientInefficient(a)(b)(c)(d)四.统计推断用标准误差来度量参数估计值的可靠程度。在假设1-4成立的条件下,估计值的标准误差可以写成222)(1)ˆ(,)()ˆ(xxsSExxTxsSEttt其中s是残差ˆtu的标准误差。22ˆ1tuTs假设utN(0,2),则OLS统计量服从正态分布:ˆN(,Var())ˆN(,Var())如果挠动项不服从正态分布,最小二乘的估计式还是正态分布吗?样本数足够大时,答案是:是的。从估计式ˆ和ˆ构造标准正态分布:1,0~varˆN1,0~varˆN但是,由于不知道var()和var(),我们用下面的分布加以替代。2ˆ~ˆ()TtSE2ˆ~ˆ()TtSEt分布和标准正态分布之很相似。这2种分布都是对称的,并且均值都为零。t分布多了一个参数:自由度(样本总观测数-2)。当一个t分布的自由度是无穷大时,它等于标准正态分布。用置信区间进行假设检验在显著性检验中,下面的情况下接受零假设H0:=*,即统计量落在非拒绝域内,tSEtcritcrit$*($)normaldistributiont-distribution如果我们能够以5%(或者10%)的置信水平拒绝某个检验的零假设,则称这个检验在统计上是显著的.在这个过程中,我们可能会犯2种错误:1.当H0是正确的时候,我们拒绝了它,第一类错误.2.当H0是错误的时候,我们没有拒绝它,第二类错误.犯第一类错误的概率是.回忆显著性水平的含义:当零假设是真的情况下,统计量落在拒绝域内的概率只有。但第二类错误的概率常常不能确定。一般而言,当我们降低第一类错误概率的同时也提高了第二类错误的概率。第一节引言考虑ARMA模型:112211.......tttptpttqtqYcYYY(1)其中2~0,tWN。前面我们假定知道总体参数211,,...,,,...,,pqc,此时利用过程(1)进行预测。本章我们要研究在仅能观测到序列Y的情况下,如何估计211,,...,,,...,,pqc。估计方法为极大似然估计。令211,,...,,,...,,pqcθ表示总体参数向量。假定我们观RealityH0istrueH0isfalseResultofSignificant(rejectH0)TypeIerror=TestInsignificant(donotrejectH0)TypeIIerror=-2.086+2.0862.5%rejectionregion2.5%rejectionregionf(x)察到一个样本量为T的样本12,,...,Tyyy。写出样本的联合概率密度函数:11,,...,11,,...,TTYYYTTfyyyθ(2)这是观察到样本发生的概率。使得“概率”最大的θ值就是最优估计——这就是极大似然估计的思想。极大似然估计需要设定白噪声的分布。常常假定t是高斯白噪声,则得到的函数为高斯似然函数。极大似然估计的步骤:1)写出似然函数(2)。2)利用求极大值方法求使得函数值最大的θ值。第2节高斯1AR过程的似然函数一.计算高斯1AR过程似然函数高斯1AR过程的表达式为1tttYcY(3)其中2~0,tiidN。参数为2,,cθ。观察值1Y的均值和方差分别为1/1EYc和221/1EY。因为2~0,tiidN,因此1Y也是高斯分布。其概率密度函数为1121121222;;,,/11exp2/12/1YYfyfycyc(4)对于第二个观察值在观察到1y条件下的分布。根据(3),212YcY(5)此时22111~,YYyNcy,其概率密度函数为2122121221;exp22YYycyfyy(6)观察值1Y和2Y的联合密度函数就是(4)和(6)的乘积:21121,21211,;;;YYYYYfyyfyyfy(7)同样3213232132,23222,;;1exp22YYYYYfyyyfyyycy(8)3,2121321,321321,21,,,;,;,;YYYYYYYYfyyyfyyyfyy(9)一般地,111111,...,2122,...,;;1exp22ttttttttYYYYYttfyyyfyyycy(10)则前t个观察值的联合密度为,11111,....,111,...,11,,...,;;,....,;tttttYYYttttYYtYYfyyyfyyfyy(11)全部样本似然函数为,1111,....,11112,,...,;;;TTttTYYYTTYttYYtfyyyfyfyy(12)进行对数变换,得到对数似然函数L:11112ln;ln;ttTYttYYtLfyfyy(13)将(4)和(10)代入(13),得到21222221222111ln2ln2221111ln2ln222TtttcyLycyTT(14)二.似然函数的矩阵表示观察值写成向量形式为:121,,...,TTYyyy(15)可以看作是T为高斯分布的单个实现。其均值为12TEYEYEY(16)这里/1c。表示成向量形式为:EYμ其中μ表示(16)的右边的1T向量。Y的方差协方差矩阵为:EYYμμ(17)其中2112122122212TTTTTEYEYYEYYEYYEYEYYEYYEYYEY(18)该矩阵中的元素对应于Y的自协方差。将样本Y看作由,N分布的一个抽样,似然值可根据多元高斯密度公式直接写成:1/2/2111;2exp2TTYfyyy其对数似然值为:1111ln2ln222TTLyy这本质上和(14)是相同的。理论上,对方程(14)求导并令导数为零,就可得到参数向量θ。而在实践当中,往往得到的θ是12,,...,Tyyy的非线性方程。此时求解需要格点(grid)搜索等数值优化方法。四.条件极大似然(MLE)函数如果将1y的值看作确定性的,然后最大化以第一个值为条件的似然值,这种方法称为条件极大似然函数。此时最大化目标为:2122211ln2ln222TtttycyTTL等价于最小化:212Ttttycy这与OLS回归的结果一样。已知参数估计值ˆˆ,c,下一步L关于2求导数212421022TtttycyT得到22121ˆˆˆ1TtttycyT这也是OLS估计下的残差方差。条件极大似然估计的特点:1.易于计算。2.样本量T足够大,则第一个观测值的影响可以忽略。第三节高斯ARMA过程的条件似然函数一.ARp条件似然函数122....tttptptYcYYY其中2~0,tiidN。参数向量为212,,,.