高级医学统计学:Bootstrap

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

BOOTSTRAP研究生《医学统计学2》课程主要内容Bootstrap简介参数和非参数Bootstrap不同资料的Bootstrap处理Bootstrap应用实例统计学的基本过程我们需要知道的是某些变量的平均和误差执行某些测量若干次误差随着测量次数的增加而减少211iiXXnXXsn中心极限定理从任意均数为μ,方差为σ2的总体中随机抽样,当样本含量n足够大时,样本均数将近似服从于均数为μ,方差为𝜎2𝑛的正态分布。有时候……R2的分布?独立性假设被违背时,回归系数的分布?某些先进方法中的指标分布?随机森林分析中的重要性得分?预测模型的AUC?BOOTSTRAPaloopedstrapsewedatthesideorthereartopofaboottohelpinpullingitonunaidedefforts—oftenusedinthephrasebyone'sownbootstrapsdesignedtofunctionindependentlyofoutsidedirection:capableofusingoneinternalfunctionorprocesstocontrolanotherabootstrapoperationtoloadacomputercarriedoutwithminimumresourcesoradvantagesbootstrapeffortstopromoteordevelopbyinitiativeandeffortwithlittleornoassistance“PULLINGONESELFUPBYONE’SBOOTSTRAPS”“Ifoundmyselfstunned,andinaholeninefathomsunderthegrass,whenIrecovered,hardlyknowinghowtogetoutagain.Lookingdown,IobservedthatIhadonapairofbootswithexceptionallysturdystraps.Graspingthemfirmly,Ipulledwithallmymight.SoonIhadhoistmyselftothetopandsteppedoutonterrafirmawithoutfurtherado.--CampaignsandAdventuresofBaronMunchausen,1786.吹牛大王历险记BOOTSTRAP一种估计抽样误差和计算可信区间的方法。1979EfronBradleyEfronB(1979).Bootstrapmethods:Anotherlookatthejackknife.Ann.Statist.71–2620世纪70年代以来统计学上“唯一的伟大进展”。KotzandJohnson,1992EFRONBRADLEYBradleyEfron博士现任斯坦福大学统计系MaxH.Stern讲席教授。Efron教授是公认的当今世界最有影响力的统计学领域的权威。他的主要贡献包括Bootstrap再抽样方法。经验贝叶斯方法,微分几何在统计推断中的应用,生存分析方法,生物芯片数据分析方法等。Efron教授是麦可阿瑟奖获得者,美国国家科学院院士,美国科学与艺术学院院士。他还获得过统计学领域几乎所有的著名奖项,包括著名的Wilks奖章,Parzen奖,Rao奖。2005年,Efron教授获得了美国国家科学奖章(美国自然科学最高奖)以表彰他在统计学领域所作出的杰出贡献。这一奖章在2007年7月27日在白宫举行的一个特别仪式上由时任美国总统乔治W.布什亲自颁发。BOOTSTRAP的前身:JACK-KNIFE(刀切法)一种特殊的Bootstrap每个Jackknife样本包括原样本-1个个体BOOTSTRAP的基本流程从一个给定的数据中有放回地重复抽样若干次数,得到若干个样本;对于某个样本,计算相应的统计量;得到这个统计量的分布是其真实分布的估计;BOOTSTRAP:RESAMPLINGWITHREPLACEMENTD、E、A、C、E、B、A、D、A、……BOOTSTRAP对资料的基本要求样本必须是总体的代表;照着苹果永远画不出一个桔子出来!一个最简单的小例子假设总体是均数为5,标准差为3的正态分布;现有样本包含100个个体;如何求中位数的方差及其95%CI?理论上1Var4MnfM手头样本data[1]3410551061349[12]6653106-17424[23]23308529648[34]877754434112[45]92447565594[56]100756634226[67]658114-283384[78]16556474686[89]4887639312104[100]2从中有放回地抽取100个个体,重复20次resamples[1][1]312653472-1-17045547347212881044011[30]731410844710546-124841212802689663[59]48645357871066316131041285421046[88]21059914864945r.median-sapply(resamples,median)5.05.05.05.05.05.05.05.05.04.04.55.05.04.05.05.05.05.05.05.0sqrt(var(r.median))0.5250313mean(r.median)4.875求95%CI利用近似正态分布的原理利用百分位数区间(4,5)0.05/2ˆˆ4.8751.960.5250BBBuSE什么时候可以用BOOTSTRAP法?当统计量的理论分布过于复杂或者难于获得时;样本含量偏小,不足以进行统计推断;当需要进行效能计算时,且手头有个小预实验时;需要一个快速的答案。BOOTSTRAP的分类参数Bootstrap假设样本来自的总体分布已知;利用手头样本估计总体参数;按照估计出的总体分布产生样本;根据样本计算统计量的分布非参数Bootstrap将手头样本当成总体,从中抽样;参数和非参数BOOTSTRAP出生体重和70-100体重间的关系708090100110120130120140160180200220BirthWeightWeightat70-100days非参数BOOTSTRAP从所有的个体中有放回地抽取n个,eg.4,5,2,4,9,10,3,3,6,2,1,6,9,8计算感兴趣的统计量重复B次,得到统计量的分布,1ˆ0.67b参数BOOTSTRAP先拟合回归方程,估计残差方差,σ2=14.1从N(0,σ2)中随机抽取n个残差根据第一步中回归方程估计,计算Y的Bootstrap样本根据Yb和X计算斜率重复得到斜率的Bootstrap分布。,,104.890.68biibiyx半参数BOOTSTRAP先拟合回归方程,估计残差对残差进行Bootstrap抽样根据第一步中回归方程估计,计算Y的Bootstrap样本根据Yb和X计算斜率重复得到斜率的Bootstrap分布。仅当残差为独立同分布时适用。,,104.890.68biibiyx如何用BOOTSTRAP进行估计令Yi,i=1,…,n为样本T(Y)为Y的函数{Y`b,1,…,Y`b,n}为第b个Bootstrap样本,b=1,..,B则Var(T)的Bootstrap估计值为T的95%CI可以根据Boostrap分布的百分位数得到。21111''BBbbbbTYTYBBBOOTSTRAP的可信区间估计非学生化枢轴法(non-studentizedpivotalmethod)Bootstrap-t法百分位数法偏倚校正法Bootstrapconfidenceintervals:when,which,what?Apracticalguideformedicalstatisticians.JCarpenterandJ.Bithell.StatisticsinMedicine,2000;19:1141-64.1999ˆˆ',...,'BOOTSTRAP的可信区间估计1999ˆˆ',...,'BOOTSTRAPT法*/2ˆˆtˆˆ**ˆ*T优点:简单,一般较可靠缺点:计算较为复杂,耗时百分位数法2.5%97.5%','优点:简单缺点:当分布不近似对称时,覆盖率可能较低偏移校正法校正因子Z校正因子ArA1及rA2作为百分位数区间的下限和上限。*11313/221/21/2/22/2ˆˆ#ˆˆ611rbbniiniiZrAZzAZAZzZzAZAZz不同资料的BOOTSTRAP处理单样本资料两样本资料回归分析Bootstrap假设检验单样本情形两样本情形两组分别Bootstrap合并组成BS样本;治疗组对照组945219710416146381099511413023402746回归与BOOTSTRAPY:应变量X:自变量β0、β1:回归系数ε:残差01YX两种BOOTSTRAP方法针对数据对的Bootstrap针对残差的Bootstrap针对残差的BOOTSTRAP先估计和:eg.最小二乘法求残差;对残差进行Bootstrap对于某一个残差Bootstrap样本,根据下式求Y的Bootstrap样本。注意X与实际样本完全相同!这是半参数Bootstrap0ˆ1ˆ,01,ˆˆbiibiYX两种BOOTSTRAP选哪一个针对残差的Bootstrap:残差和自变量是独立的!自变量最好是指定的固定取值变量!针对对子的Bootstrap:X和Y都是随机变量也取决于我们有多么信任模型是否正确!回归的BOOTSTRAPDoseSurv.PropLogSurvProp11.1750.44000-0.820980621.1750.55000-0.597837032.3500.16000-1.832581542.3500.13000-2.040220854.7000.04000-3.218875864.7000.01960-3.932225774.7000.06210-2.779009387.0500.00500-5.298317497.0500.00320-5.7446045109.4000.00110-6.8124451119.4000.00015-8.8048753129.4000.00019-8.56848651314.1000.00700-4.96184511414.1000.00006-9.7211660模型1212(.)(.)LnSurvPropDoseLnSurvPropDoseDoseEstimateSEP模型1β1-0.67640.05600.0001模型2β1-1.04860.15890.0001β20.03430.01400.0303去除离群值EstimateSEP模型1β1-0.77670.02990.0001模型2β1-0.86130.09450.0001β20.00860.00910.36502468101214-12-10-8-6-4-20DoseLn(SurvProp.)withoutlierwithoutoutlier最小中位二乘回归(LEASTMEDIANSQUAREREGREESSION,LMS)2minbmedianyXbLMS的估计结果:DOSED

1 / 62
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功