贝叶斯推理课件不错

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1Chp11:贝叶斯推断内容:贝叶斯观点和贝叶斯方法贝叶斯推断vs.频率推断2贝叶斯观点和贝叶斯方法从频率到信念3频率学派的观点到目前为止我们讲述的都是频率(经典的)统计学概率指的是相对频率,是真实世界的客观属性。参数是固定的未知常数。由于参数不会波动,因此不能对其进行概率描述。统计过程应该具有定义良好的频率稳定性。如:一个95%的置信区间应覆盖参数真实值至少95%的频率。统计学更多关注频率推断4贝叶斯学派的观点贝叶斯推断采取了另外一个不同的立场:概率描述的是主观信念的程度,而不是频率。这样除了对从随机变化产生的数据进行概率描述外,我们还可以对其他事物进行概率描述。可以对各个参数进行概率描述,即使它们是固定的常数。为参数生成一个概率分布来对它们进行推导,点估计和区间估计可以从这些分布得到机器学习和数据挖掘更偏爱贝叶斯推断5贝叶斯方法贝叶斯推断的基本步骤如下:选择一个概率密度函数,用来表示在取得数据之前我们对某个参数的信念。我们称之为先验分布。选择一个模型(在参数推断一章记为)来反映在给定参数情况下我们对x的信念。当得到数据X1,X2,…Xn后,我们更新我们的信念并且计算后验分布。从后验分布中得到点估计和区间估计。()f(|)fx(;)fx1(|,...,)nfXX6回忆贝叶斯规则亦称贝叶斯定理条件概率利用贝叶斯规则将数据和参数的分布联合起来(|)()(|)(|)()fxffxfxfd(|)()(|)(|)()fxyfyfyxfxyfydy7似然函数假设我们有n个IID观测,记为,产生的数据为,记为,我们用如下公式替代现在似然函数真正解释为给定参数下数据的概率nXnx11|,...,||nnninifxfxxfxL1,...,nXX1,...,nxx|fx8后验概率因此后验概率为其中被称为归一化常数(normalizingconstant)。该常数经常被忽略,因为我们关心的主要是参数的不同值之间的比较。所以也就是说,后验和似然函数与先验的乘积成正比|||nnnnnnfxfffxfcfxfdLL|nnfxfLnncfdL9贝叶斯点估计后验的均值是一个常用的点估计L2损失下的贝叶斯规则极大后验估计(maximumaposteriori,MAP)是使后验最大的的值:是另一个常用的点估计0-1损失下的贝叶斯规则ˆargmax|nnfx|nnnnfdfxdfdLL|nfx10贝叶斯置信区间估计为了得到贝叶斯区间估计,我们需找到a和b,使得令因此C称为后验区间。注意:在多次试验中,并不保证θ在(1−α)100%的次数会落在后验区间内。事实上,在复杂的高维模型中,当样本数很少时,覆盖概率可能接近于0。注意:是随机的,nx()()||2annbfxdfxdqqqqa+?-?==蝌(),Cab=1a-()()||1bnnaCxfxdqqqa?=-òP11例:BernoulliI令,假设先验为均匀分布,根据贝叶斯公式,后验为其中为成功的次数。()1,...,nXXBernoullip~()1fp=iisx=å()()()()()1111|11nsnsnssnfpxfpppppq--+-+-?-=-L12例:BernoulliI为了得到后验的均值,我们必须计算在这个例子中可以解析计算。后验恰好为Beta分布其中参数,,均值为()()()()()|nnnnffxdfdqqqqqqqqqq==òòòLL()()()()()11;,1fpppbaababab--G+=-GG1sa=+1nsb=-+()aab+12spn+=+()()()()()()()11112|111nssnnfpxppsns-+-+-G+=-G+G-+13例:BernoulliIp的极大似然估计为,为无偏估计。贝叶斯估计还可以写成其中为先验的均值,12p12nnnµpsn=µ()°1nnpppll=+-14例:BernoulliII现在假设先验不是均匀分布,而是则后验为Beta分布,参数为和,即后验的均值为其中为先验的均值。先验和后验为相同的分布族:共轭如例子中的Beta分布(),pBetaab:sa+nsb+-()0paab=+µ0snpppnnnaabababab骣骣++鼢珑==+鼢珑鼢鼢珑++++++桫桫()|,npxBetasnsab++-:15例:正态分布令,为简单起见,假设已知,并假设先验为()21,...,,nXXNqs~s()2,Nabq:()()()22222211|exp22111expexp2222nnninixxxnnxqqspsqqssps骣禳镲镲÷ç=--÷睚ç÷ç镲桫镲铪骣禳禳镲镲镲镲÷ç=---÷睚睚ç÷ç镲镲桫镲镲铪铪å邋L144444444444424444444444443()()()22222211exp22111expexp2222fabbaabbbqqpqqp禳镲镲=--睚镲镲铪禳禳镲镲镲镲=---睚睚镲镲镲镲铪铪åå1444444442444444443对θ而言为常数对θ而言为常数16例:正态分布将二者相乘,去掉一些常数项,最后得到一个正态分布形式的核最后,θ的后验为其中为MLE的标准误差。()2|,nXNqqt:sens=X()1wXwaq=+-2222221111,11sewsebsebt==++17例:正态分布当时,,当n很大时,后验近似为当n固定而时,对应先验趋近于均匀分布,上述结论也成立n1w®1set®b()2,Nseq$18例:正态分布计算后验区间,使得所以且因此,由于,所以最后95%的贝叶斯后验区间为由于,,也可用近似,同频率置信区间(),Ccd=()|.95nCXq?P()|.025ncXq=P()|.025ndXq=P()||.025nnccXXcZqqqqttqt骣--÷ç÷=ç÷ç÷ç桫骣-÷ç÷==ç÷ç÷ç桫PPP()1.96.025Z-=P1.96cqt-=-qq»$set»1.96seq±1.96qt±19参数的函数问题:已知的贝叶斯后验分布为,求的后验分布两种方法:利用CDF的定义,先求的CDF,然后求后验密度,其中CDF为仿真/模拟方法q()|nfxq()gtq=t()()'||nnhxHxtt=()|nHxt()()()()||nnAHxgfxdtqtqq=?òP(){}:Agqqt=?20仿真(Simulation)可以通过仿真而不是解析计算来得到点估计和区间估计。假设我们抽取样本则的直方图可以近似后验密度后验的均值近似为后验的置信区间为,其中为样本的样本分位数(quantile)一旦从中抽取样本,令则为来自。这样避免了解析计算1,...,B|nfxˆ|nnxE11BbbB|nfxbbg|nfx但仿真可能很复杂/困难1,...,~|Bnfx1,...,B1,...,B1,...,B1a-2a()212,aaqq-2aq21例:Bernoullil抽样:令则为的IID,用直方图方法可以估计1,...,~1,1BPPBetasnslog1bbbPP1,...,B|nfx|nfx22MLE和贝叶斯令为的极大似然估计,标准误差为在合适的正则条件下,后验均值的渐近分布为也就是说,另外,若为渐近频率的置信区间,则也是贝叶斯后验的区间:µ()2ˆ,nnNseqq»|1nnCXPqq»$1a-1a-nq$qµ()1nsenIq=$µµ()22,nnnCzsezseaaqq=-+$$nC23MLE和贝叶斯定义则|nnfXfL()()exploglognfqq禳镲镲镲?睚镲镲镲铪L1444444442444444443()()()()()()2'''2llllqqqqqqqq-=+-+$$$$$()()()22llIqqqq-=-$$$()''lIq-=$$分别展开24MLE和贝叶斯将先验也展开I0为先验中θ的信息m0最大化f(θ)()()()()()()00002202loglogln|log|2mmmmfmffmmmmfmmqqq==¶=+-¶-?+-¶25MLE和贝叶斯定义结合展开,得到0nIII=+$()001nnmImIIq=+$$2200|exp22nmfXII26MLE和贝叶斯后验简化为结论:当n相对参数数目很大时,如果先验符合真正的知识,则贝叶斯区间和频率区间相同。当数据越多时,先验的影响越弱。()()2|exp2nnnmfXIqq禳镲-镲镲?睚镲镲镲铪,asn蕻?nnIImq®®$$()()1|,nfXNIqq-藁$$27先验知识从哪儿来呢?我们可能在观测数据之前就有一些主观观点或真正的先验知识。但是,通常我们并没有真正的先验知识或者我们在贝叶斯估计时想更客观些,这时可以选择无信息的先验(noninformativeprior)。或者可以从数据估计先验。这被称为经验贝叶斯(empiricalBayes),有时亦称第II类的极大似然(TypeIImaximumlikelihood)。28扁平先验(FlatPriors)考虑一个扁平的先验:其中c0为常数。但是,因此这不是一个pdf。我们称之为非正常先验(improperprior)。通常非正常先验不是问题,只要后验为一个定义良好的pdf即可。扁平先验有时为病态定义的,因为一个参数的扁平先验并不意味参数的变换也是扁平先验。请参见书中的例子fd()fcqµ29通用先验一个流行的想法是使用通用先验,或在任何场合下都可用的缺省的先验分布。该先验通常从似然函数推导得到。例子包括最小描述长度(minimumdescriptionlength,MDL)和Jeffrey先验。这些通常是完全无信息的。30Jeffrey先验Jeffrey提出的创建先验的规则:其中为Fisher信息。例:对,则Jeffrey先验为,即,与均匀分布很相近。()Iq()Bernoullip()()11Ippp=-()()12fIqq轾µ臌()()()12121fpIppp--?-()12,12Beta31Jeffrey先验对于多元参数情况,Jeffrey先验为其中表示矩阵A的行列式,为Fisher信息矩阵。A()Iq()()fIqqµ32多元参数问题对于多元参数的情况,原则上同处理单个参数相同。后验密度为:问题:如何对多个参数中的一个进行推断?计算感兴趣参数的后验边缘分布例如的边缘分布为|nnfxfL1,...,K112|...,...,|...nnKKfxfxdd133多元参数问题通常计算是很困难的,可用模拟的方法近似。从后验分布随机采样:上标表示不同的采样,收集每个样本中向量的第一个成分,得到为中的样本,这样可以避免积分运算。()1,...,,1,...,bbbpbBqqq?112|...,...,|...nnKKfxfxdd1,...,~|Bnfx111,...,B()1|nfxq34贝叶斯假设检验从贝叶斯观点看假设检验时一个很复杂的问题,我们只介绍其基本思想。35贝叶斯假设检验数据和模型:检验:例:用X表示一个最近被污染区域中n个蛋中被孵出的蛋的数目,则,其中表示被孵出蛋的真正比例检验:其中0为被孵出蛋比例的经验值~(|)Xfx0010:versus:

1 / 46
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功