Bootstrap及jackknife刀切法中文讲义

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1上节课内容总结统计推断基本概念统计模型:参数模型与非参数模型统计推断/模型估计:点估计、区间估计、假设检验估计的评价:无偏性、一致性、有效性、MSE偏差、方差、区间估计CDF估计:点估计、偏差、方差及区间估计统计函数估计点估计区间估计/标准误差影响函数BootstrapBootstrap也可用于偏差、置信区间和分布估计等计算2本节课内容重采样技术(resampling)Bootstrap刀切法(jackknife)3引言是一个统计量,或者是数据的某个函数,数据来自某个未知的分布F,我们想知道的某些性质(如偏差、方差和置信区间)假设我们想知道的方差如果的形式比较简单,可以直接用上节课学习的嵌入式估计量作为的估计例:,则,其中,其中问题:若的形式很复杂(任意统计量),如何计算/估计?()1,...,nnTgXX=nTnT()FnTV()FnTV()FnTV()ˆnnFTV11nniiTnX-==å()2FnTns=V()()()22,xdFxxdFxsmm=-=蝌()2ˆˆnnFTns=V()221ˆnniiXXns==-å()FnTV4Bootstrap简介Bootstrap是一个很通用的工具,用来估计标准误差、置信区间和偏差。由BradleyEfron于1979年提出,用于计算任意估计的标准误差术语“Bootstrap”来自短语“topulloneselfupbyone’sbootstraps”(源自西方神话故事“TheAdventuresofBaronMunchausen”,男爵掉到了深湖底,没有工具,所以他想到了拎着鞋带将自己提起来)计算机的引导程序boot也来源于此意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助/自举1980年代很流行,因为计算机被引入统计实践中来5Bootstrap简介Bootstrap:利用计算机手段进行重采样一种基于数据的模拟(simulation)方法,用于统计推断。基本思想是:利用样本数据计算统计量和估计样本分布,而不对模型做任何假设(非参数bootstrap)无需标准误差的理论计算,因此不关心估计的数学形式有多复杂Bootstrap有两种形式:非参数bootstrap和参数化的bootstrap,但基本思想都是模拟6重采样通过从原始数据进行n次有放回采样n个数据,得到bootstrap样本对原始数据进行有放回的随机采样,抽取的样本数目同原始样本数目一样如:若原始样本为则bootstrap样本可能为()1,...,nXXX=()1***,...,nbXXX=()12345,,,,XXXXXX=()*123545,,,,XXXXXX=()*213145,,,,XXXXXX=…7计算bootstrap样本重复B次,1.随机选择整数,每个整数的取值范围为[1,n],选择每个[1,n]之间的整数的概率相等,均为2.计算bootstrap样本为:Web上有matlab代码:BOOTSTRAPMATLABTOOLBOX,byAbdelhakM.ZoubirandD.RobertIskander,Matlab函数:bootstrp1n1,...,nii()*1,...,iinXXX=8Bootstrap样本在一次bootstrap采样中,某些原始样本可能没被采到,另外一些样本可能被采样多次在一个bootstrap样本集中不包含某个原始样本的概率为一个bootstrap样本集包含了大约原始样本集的1-0.368=0.632,另外0.368的样本没有包括()11,1,...10.368njiXXjnen-骣÷ç?=-换÷ç÷ç桫PiX9模拟假设我们从的分布中抽取IID样本,当时,根据大数定律,也就是说,如果我们从中抽取大量样本,我们可以用样本均值来近似当样本数目B足够大时,样本均值与期望之间的差别可以忽略不计()(),11BPnnbnnbTTtdGtTB==?åòEnT,1,,...,nnBTTnT()nTEnT()nTEnGnGB10模拟更一般地,对任意均值有限的函数h,当有则当时,有用模拟样本的方差来近似方差()()()()(),11BPnbnnbhThtdGthTB=?åòE()()()()22,11BPnbnnnnbTTTTTB=-?=åEV()nTV()()2,,nbnbnhTTT=-B11模拟怎样得到的分布?已知的只有X,但是我们可以讨论X的分布F如果我们可以从分布F中得到样本,我们可以计算怎样得到F?用代替(嵌入式估计量)怎样从中采样?因为对每个数据点的质量都为1/n所以从中抽取一个样本等价于从原始数据随机抽取一个样本也就是说:为了模拟,可以通过有放回地随机抽取n个样本(bootstrap样本)来实现1**,...,nXX()1***,...,nnTgXX=1**ˆ,...,~nnXXFnTˆnFˆnFˆnFˆnF1,...,nXX12Bootstrap:一个重采样过程重采样:通过从原始数据进行有放回采样n个数据,得到bootstrap样本模拟:为了估计我们感兴趣的统计量的方差/中值/均值,我们用bootstrap样本对应的统计量(bootstrap复制)近似,其中()1,...,nXXX=()()1,...,nnTggXX==X()**,1111BBnbootnbbbbTTgBB====邋X()(),1,,****,...,nbbnbbTgXgXX==()1,,***,...,bnbbXXX=1,...,bB=13例:中值X=(3.12,0,1.57,19.67,0.22,2.20)Mean=4.46X1=(1.57,0.22,19.67,0,0,2.2,3.12)Mean=4.13X2=(0,2.20,2.20,2.20,19.67,1.57)Mean=4.64X3=(0.22,3.12,1.57,3.12,2.20,0.22)Mean=1.74()14.134.641.743.503bootMean=++=14Bootstrap方差估计方差:其中注意:F为数据X的分布,G为统计量T的分布通过两步实现:第一步:用估计插入估计,积分符号变成求和第二步:通过从中采样来近似计算Bootstrap采样+大数定律近似()()22,TTntdGtsm=-ò()2FnTTns=V()TntdGtm=ò()()2****ˆ,,1111,nBBnnbnnnbFbbTTTTTBB===-=邋V()FnTV()ˆnnFTV()ˆnnFTVˆnF15Bootstrap:方差估计Bootstrap的步骤:1.画出2.计算3.重复步骤1和2共B次,得到4.(大数定律)2**,,1111BnbootnbnrbrvTTBB==骣÷ç=-÷ç÷ç÷桫邋(计算boostrap样本)(计算boostrap复制)µ**1,...,nnXXF:()***1,...,nnTgXX=**,1,,...,nnBTT16例:混合高斯模型:假设真实分布为现有n=100个观测样本:()()()2:0.21,20.86,1FFXNN=+5,m=()1100,...,XXX=4.997,nX=()()2221ˆnniniXXXns===-åV直接用嵌入式估计结果:0.0484=7.04114.83975.31566.77197.06165.25467.39374.33764.40105.17247.41995.36776.70286.20037.57074.12303.89145.23235.59427.14793.67900.35091.41971.7X=5852.4476-3.86352.5731-0.73670.56271.6379-0.18642.70042.14872.35131.4833-1.01384.97940.15182.86831.62696.95235.30734.71915.43744.61086.59756.34957.27625.94534.69936.15595.89505.75915.21734.99804.50104.78605.43824.88937.29405.57415.51395.88697.27565.84496.64394.52245.50284.56725.87186.09197.19126.41817.22488.41537.31995.13056.87195.26865.80555.36026.41206.07215.27407.23297.09127.07665.97506.60917.21354.95855.90425.92736.57625.37024.76546.46686.19834.34505.3261轾犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏犏臌17例:混合高斯模型(续)用Bootstrap计算统计量的方差:1.得到B=1000个bootstrap样本,其中2.计算B=1000个bootstrap样本对应的统计量的值3.()1,100,***,...,,1,...,bbbXXXbB==**11000,...,XX,,,***11nbnbibniTXXn===ånnTX=(),2****,1111,nbnBnbootnnrbrvXXXXBB===-=邋*1005.001,X=0.0489,bootv=与直接用嵌入式估计得到的结果比较:4.997,nX=2ˆ0.0484,s=µ0.221bootbootsev==µ2ˆ0.22ses==18Bootstrap:方差估计真实世界:Bootstrap世界:发生了两个近似近似的程度与原始样本数目n及bootstrap样本的数目B有关()11,...,,...,nnnnFXXTgXX揶=¶()*****11,...,,...,nnnnFXXTgXX揶=()()}¶()()}11nOnOBFnnbootFTTv=??VV19Bootstrap:方差估计在方差估计中,可为任意统计函数如均值(混合高斯模型的例子)中值(伪代码参见教材)偏度(例子参见教材)极大值(见后续例子)…除了用来计算方差外,还可以用作其他应用CDF近似、偏差估计、置信区间估计nT20CDF近似令为的CDF则的bootstrap估计为()()nnGtTt=?PnTnG()()**,11ˆBnnbbGtITtB==?å21偏差估计偏差的bootstrap估计定义为:Bootstrap偏差估计的步骤为:得到B个独立bootstrap样本计算每个bootstrap样本对应的统计量的值计算bootstrap期望:计算bootstrap偏差:()()*bootnFnnBiasTTT=-E**1,...,BXX()(),1,,****,...,nbbnbbTgXgXX==**,11nnnrrTTB==å()*nbootnnBiasTTT=-*bX22例:混合高斯模型:标准误差估计在标准误差估计中,B为50到200之间结果比较稳定偏差估计4.997nX=B1020501005001000100000.13860.21880.22450.21420.22480.22120.2187B1020501005001000100005.05874.95515.02444.98834.99455.00354.99960.0617-0.04170.0274-0.0087-0.00250.00640.0025µbootsebootBiasµ()*FXE23Bootstrap置信区间正态区间:简单,但该估计不是很准确,除非接近正态分布百分位区间:,对应的样本分位数还有其他一些计算置信区间的方法如枢轴置信区间:()**

1 / 56
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功