经验似然介绍及研究状况.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

非参数统计推断非参数统计又称为非参数检验,是指在不考虑原总体分布或者不做关于参数假定的前提下,尽量从数据或样本本身获得所需要的信息,通过估计而获得分布的结构,并逐步建立对事物的数学描述和统计模型的方法,更为稳健。非参数统计方法通常称为“分布自由”的方法,即非参数数据分析方法对产生数据的总体的分布不做假设,或者仅给出很一般的假设,例如连续型分布、对称分布等一些简单的假设,结果一般有较好的稳定性。所以适用范围非常宽泛。在经典的统计框架下,正态分布一直是最引人注目的,但是对总体的分布不是随便做出来的,盲目地做出正态分布的假设有时候是起反作用的。当数据的分布不是很明确,特别当样本容量不大,几乎无法对分布作推断的时候,此时使用参数方法就有一定的风险,我们就可以考虑用非参数的方法。但要注意,非参数方法是与总体分布无关,而不是与所有分布无关!非参数统计可以处理所有类型的数据。我们知道,统计数据按照数据类型可以分为两大类:定性数据和定量数据。李金昌老师2014在《统计研究》上发表2篇有关数据及大数据等有详细的说明一般地,参数统计是处理定量数据,如果所收集到的数据不符合参数模型的假定,比如:数据只有顺序,没有大小,则很多参数模型无能为力,此时只能尝试非参数方法。例如:研究急性白血病患儿血液中血小板数与出血症状之间的关系。血小板数可用数据衡量,但出血症状则只能分为:明显、较明显、有出血点和无这4类。类似于这样的“等级资料”,参数方法没辙,可用非参数方法中的Spearman等级相关方法来做。经验似然是Owen(1988)在完全样本下提出的一种非参数统计推断方法,它有类似于bootstrap的抽样特性.这一方法与经典的或现代的统计方法比较有很多突出的优点,如:用经验似然方法构造置性区间除有域保持性、变换不变性及置信域的形状由数据自行决定等诸多优点外,还有Bartlett纠偏性及无需构造轴统计量等优点。什么是经验似然(EmpiricalLikelihood)不包含未知参数如何使用它对参数作统计推断()()()nLFRFLF非参数似然比:Owen-经验似然比检验统计量关于求极大值—Lagrange法参数似然比的对数是渐近卡方的,那经验似然比?1,()1()sup{()(),}supinipTFiRRFTFFnpip如Owen(1988,1990,1991)由对总体均值的推断提出经验似然并随后将其应用到线性回归模型的统计推断22log()dpR例总体均值的经验似然1,1()sup{()(),}supiiinippXiRRFTFFnp均值的经验对数似然111()(1())01()()2log()2log{}2log(1())iTiniTiiinTiipnXXXlRnpX满足的经验对数似然为经验似然---线性回归模型,1,...,--()TTyxinxpyygx维协变量,反映变量,p维未知参数,独立同服从均值0的随机变量误差广义线性模型21[()]=()TTTEyxxxExy使达到最小的(E())11()0,()()()sup{()0,0,1}()2log()TTiiiinniiiiiiiExyxxyxRnpppplR满足定义Z经验似然函数Z经验对数似然函数能否渐近服从卡方分布?经验似然---部分线性模型()TYgZX经验似然—半参数变系数模型()TTYZX经验似然---非参数模型(),0YgXEKolaczyk(1994)应用经验似然于广义线性模型;Wang&Jing(1999)发展了部分线性模型的经验似然;Chen与Qin(2000)发展了非参数回归的经验似然;Qin(1993)应用经验似然于偏度抽样模型的统计推断;Owen(1992)应用经验似然到投影寻综回归的研究;Zhang(1997a,b)应用经验似然于分位回归及M一泛函的统计推断;Chuang&Chan(2002)发展了自回归模型的经验似然方法;Chen&Qin(1993)及Zhong&Rao(2000)应用经验似然于抽样调查问题的研究;Kitamura(2001,2002)等应用经验似然到经济模型的研究近年来一些统计学家又将经验似然方法应用到不完全数据的统计分析,发展了所谓的被估计的经验似然、调整经验似然及bootstrap经验似然。数据被随机删失数据测量有误差数据missing一些被抽样的个体不愿提供所需要的信息;一些不可控制的因素产生数据丢失;还有一些是调研人员本身的原因不能收集完全的信息等等,总之,数据缺失普遍发生在民意调查、市场调研、邮寄问卷调查、社会经济研究、医药研究及生物遗传等其他科学实验中.在此情况下,通常回归统计分析的方法不能直接应用,一个普遍使用的方法是给每一个缺失数据一个替代值,如此得到一“完全数据集”后,再发展或使用完全数据统计分析方法分析数据并进行统计推断如何将经验似然方法推广应用到上面三种重要类型数据的统计分析是一项重要而困难的任务,正如Hall与LaScala(1990)所指出:尽管经验似然有很多突出的优点,但它很难应用到一些比较复杂数据的统计分析。这一方法的本质是在约束条件下极大化非参数似然比,感兴趣的参数由约束条件带入这一极大化似然比中.Owen(1988)将这一思想方法应用到完全独立同分布样本下总休均值这一简单而重要情形的统计推断,由于Owen(1988)使用线性约束条件,从而表明了这方法有非常一般的应用,这是因为统计中许多估计方程关于感兴趣的参数或参数的某已知函数是线性的或许多统计模型的参数可由关于该参数或它的某已知函数的线性方程决定。Wang与Jing(2001),Wang与`Vang(2001),Wang与Li(2002),Wang与Rao(2001),Wang与Rao(2002a,b,c)推广Owen在完全样本下的经验似然方法到上面所提到的三种不完全数据类型的统计推断Wang与Jing(2001),Qin与Jing(2001),Wang与Li(2002)及Li与Wang(2002)在随机删失下发展了生存分布一类泛函、处理差异、随机删失线性及部分线性模型的统计推断.至于经验似然在测量误差模型中的应用,Wang、Rao(2002)不假设任何误差模型结构而是在核实数据帮助下,推广经验似然方法到协变量有测量误差的线性模型,定义了一种渐近分布是加权卡方的被估计的经验对数似然,由于权未知因而该结果不能直接应用到统计推断,为了克服这一困难,Wang与Rao使用下面三种方法:第一种方法是通过给出未知权的相合估计使得被估计的加权卡方能通过MonteCarlo模拟计算获得,然后应用这一加权分布的近似分布构造被估计的经验似然置信区间;第二种方法是通过调整使得调整后的经验对数似然渐近标准卡方并应用这一结果构造调整的经验似然置信区间;第三种方法是定义一种部分光滑的bootstrap经验似然及部分光滑bootstrap经验似然置信区间关于数据missing时的经验似然推断,这方面王启华与合作者J.N.K.Rao的做了很多工作.Wang与Rao(2001),Wang与Rao(2002a,b,c)分别在线性imputation和非参数核回归imputation下发展了反映数据misssing时的经验似然推断.近年祝丽萍(2011)讨论了缺失数据下的经验似然的冗余性问题。谢锦瀚(2015)研究带有不可忽略缺失数据的广义线性模型的经验似然推断。杨志煌(2015)研究不可忽略缺失数据下非线性模型的经验似然推断。他将经验似然方法应用到带有不可忽略响应变量缺失的非线性模型。所有的目标参数的经验似然估计量或者经验似然函数将通过两步获得。第一步,假设缺失机制是一个参数Logistic回归模型后,应用极大似然估计方法可以得到缺失概率(倾向得分函数)的一个相合估计。一旦获得缺失概率的相合估计,基于指数倾斜模型,可获得三个渐进无偏的估计方程,近来的研究情况1.Empiricallikelihoodforhigh-dimensionallinearregressionmodels2.Highdimensionalgeneralizedempiricallikelihoodformomentrestrictionswithdependentdata3.Empiricallikelihoodinferenceinlinearregressionwithnonignorablemissingresponse什么是高维数据高维数据的概念其实不难,简单的说就是多维数据的意思。平时我们经常接触的是一维数据或者可以写成表形式的二维数据,高维数据也可以类推,不过维数较高的时候,直观表示很难。目前高维数据挖掘是研究重点,这是它的特点:高维数据挖掘是基于高维度的一种数据挖掘,它和传统的数据挖掘最主要的区别在于它的高维度。目前高维数据挖掘已成为数据挖掘的重点和难点。随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web文档、基因表达数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。什么是高维数据由于高维数据存在的普遍性,使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响,也使得高维数据挖掘变得异常地困难,必须采用一些特殊的手段进行处理。随着数据维数的升高,高维索引结构的性能迅速下降,在低维空间中,我们经常采用欧式距离作为数据之间的相似性度量,但在高维空间中很多情况下这种相似性的概念不复存在,这就给高维数据挖掘带来了很严峻的考验,一方面引起基于索引结构的数据挖掘算法的性能下降,另一方面很多基于全空间距离函数的挖掘方法也会失效。解决的方法可以有以下几种:可以通过降维将数据从高维降到低维,然后用低维数据的处理办法进行处理;对算法效率下降问题可以通过设计更为有效的索引结构、采用增量算法及并行算法等来提高算法的性能;对失效的问题通过重新定义使其获得新生。李吉妮(2014)研究单指标模型的高维惩罚经验似然,单指标模型是广义回归中一种特殊的半参数模型,是处理多元非参数回归问题的有效工具,应用非常广泛.近二十年,高维数据的变量选择问题已成为统计及其相关领域中研究的热点之一.在处理高维数据时,单指标模型的降维特性不仅有效地避免了“维数灾难(curseofdimensionality)”问题,还抓住了高维数据的稀疏特性.有关运用单指标模型讨论变量选择方法的文章层出不穷,但大部分都是针对参数维数p是固定时的情况.然而在很多高维的变量选择问题中,参数维数p一般都会随着样本容量n的增大而同时增大.因此,在本文中,我们对单指标模型提出了一种稳健的变量选择方法:基于SCAD(SmoothlyClippedAbsoluteDeviation)惩罚函数及经验似然的惩罚经验似然.在一定正则条件下,发现参数维数p随样本量n同时增大的惩罚经验似然估计仍具有Oracle性质。Agoodpenaltyfunctionshouldresultinanestimatorwiththreeproperties:1.Unbiasedness:Theresultingestimatorisnearlyunbiasedwhenthetrueunknownparameterislargetoavoidunnecessarymodelingbias.2.Sparsity:Theresultingestimatorisathresholdingrule,whichautomaticallysetssmallestimatedcoeffcientstozerotoreducemodelcomple

1 / 34
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功