Binomial分布、Multinomial分布、Beta分布、Dirichlet分布

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Somecommondistributions的通俗解释directflyOutline•BernoulliandMultinoullidistributions(伯努利分布)•Binomialdistribution(二项分布)•Multinomialdistribution(多项分布)•Betadistribution(贝塔分布)•Dirichletdistribution(狄利克雷分布)BernoulliandMultinoullidistributions•Bernoulli分布名字吓人,其实就是很简单的事情,就是告诉我们:干一件事(一个实验)有两种可能的结果,其中结果1的发生的概率是θ,结果2发生的概率是1-θ•Multinoulli分布跟Bernoulli分布的区别就是:干一件事(一个实验)有n种可能的结果,其中结果i的发生的概率是θ𝑖,由于这件事只有n种可能,所以θ1+θ2+⋯+θ𝑛=1•显然Bernoulli分布只是Multinoulli分布的一个特例。BernoulliandMultinoullidistributions•Bernoullidistribution•Nowsupposewetossacoinonlyonce.LetX∈{0,1}beabinaryrandomvariable,withprobabilityof“success”or“heads”ofθ.WesaythatXhasaBernoullidistribution.ThisiswrittenasX∼Ber(θ),wherethepmf(probabilitymassfunction)isdefinedas:Ber(x|θ)=θI(x=1)(1−θ)I(x=0)•WhereI(e)istheindicatorfunction.Inotherwords,thepmfisdefinedas:Ber(x|θ)=θifx=11−θifx=0BernoulliandMultinoullidistributions•Multinoullidistributions•TheBernoullidistributioncanbeusedtomodeltheoutcomesofcointoss.TomodeltheoutcomesoftossingaK-sideddice,wecanusetheMultinoullidistributions.letx=(x1,...,xK)bearandomvector,xj∈{0,1}beabinaryrandomvariable,withprobabilityof“success”ofθj.Specifically,ifthediceshowsupasfacej,thenthexj=1andxi=0(i≠j).ThepmfofMultinoullidistributionsisdefinedas:Multinoulli(x|θ)=θ𝑗I(x𝑗=1)𝐾𝑗=1whereI(e)istheindicatorfunction.BinomialandMultinomialdistribution•Binomial分布就是做了n次Bernoulli实验。Bernoulli实验是干一件事(一个实验)有两种可能的结果,其中结果1的发生的概率是θ,结果2发生的概率是1-θ。Binomial分布就是指,这件事(一个实验)你干了n次,结果1(或者结果2)出现0次,出现1次,出现2次……出现n次的概率分别是多少。•类似的,Multinomial分布就是Multinoulli实验搞了n次,结果1(或者结果2,结果3,……)出现0次,出现1次,出现2次……出现n次的概率分别是多少。Binomialdistribution•Supposewetossacoinntimes.LetX∈{0,...,n}bethenumberofheads.Iftheprobabilityofheadsisθ,thenwesayXhasabinomialdistribution,writtenasX∼Bin(n,θ).ThepmfisgivenbyBin(k|n,θ)=𝑛𝑘θ𝑘(1−θ)𝑛−𝑘Multinomialdistribution•Supposewetossadicentimes.letx=(x1,...,xK)bearandomvector,wherexjisthenumberoftimessidejofthediceoccurs.Iftheprobabilityofdicefacejoccurredisθj.Thenxhasthefollowingpmf:Mu(x|θ)=𝑛𝑥1⋯𝑥𝐾θ𝑗x𝑗𝐾𝑗=1Betadistribution•Thebetadistributionhassupportovertheinterval[0,1]andisdefinedasfollows:Beta(x|a,b)=1B(a,b)xa−1(1−x)b−1•WhereB(a,b)isthebetafunction,B(a,b)=Γ(a)Γ(b)Γ(a+b)•HereΓ(x)isGammafunction,whichisanextensionofthefactorialfunction.Thatis,ifnisapositiveinteger,Γ(n)=(n-1)!.Forcomplexnumberswithapositiverealpart,Gammafunctionisdefinedas:Γ(x)=𝑢𝑥−1𝑒−𝑢𝑑𝑢∞0BetadistributionBetadistribution•Beta分布的应用*•在[0,1]区间随机选择n个数,第k(kn)大的数是x的概率f(x)是多少?•对于1个[0,1]区间的随机数,在[0,x]区间的概率为x,在[x,1]区间的概率为1-x,于是,第k(kn)大的数是x的概率𝑓𝑥=𝑛𝑘−1𝑛−1𝑥𝑘−1(1−𝑥)𝑛−𝑘•令a=k,b=n-k+1,则f(x)=1B(a,b)xa−1(1−x)b−1符合Beta分布Betadistribution•Beta-Binomial共轭•回到抛硬币二项分布(Binomialdistribution)的例子,我们可以根据抛硬币正面朝上的概率θ,来估计n次抛硬币实验中一种实验结果的概率p(D|θ),其中D是n次抛硬币实验中的一种可能结果,如:5次抛硬币中正、反,反,反,正。𝑝𝐷θ=θ𝑁1(1−θ)𝑁0其中,N1为正面朝上的次数,N0为反面朝上的次数•如果我们不知道抛硬币正面朝上的概率θ,而知道一组结果D,能否估计概率θ,即p(θ|D)Betadistribution•根据贝叶斯理论,后验概率p(θ|D)与先验概率p(θ)和似然函数p(D|θ)的关系为:𝑝θ|D=𝑝𝐷θ∗𝑝(θ)𝑝(𝐷)∝𝑝𝐷θ∗𝑝θ=θ𝑁1(1−θ)𝑁0∗𝑝(θ)•如果先验概率p(θ)满足Beta分布,p(θ)=Beta(a,b)即:p(θ)=1B(a,b)θa−1(1−θ)b−1•则后验概率𝑝θ|D也满足Beta分布!!!𝑝θ|D=Beta(a+N1,b+N0)如果参数的先验概率和后验概率满足同一分布,那么在先验概率中赋予参数的物理意义可以传递至后验概率中,当然还有很多其他的优点!Betadistribution•如前述Beta分布的示例图,Beta分布的表达能力还是比较强的,因此选用适合的参数a,b后,用Beta分布来描述先验概率还是可行的。但实际上参数a,b的选择可不是那么容易的。•【个人观点】我觉得Beta分布的主要作用还是Beta-Binomial共轭,也就是说作为一个先验。实际上,在a,b都是整数时来看(a=5,b=6)Beta分布p(θ)=1B(a,b)θa−1(1−θ)b−1形式上和Binomial分布极像(自行带入B(a,b)就能看出来的)。所以看起来beta分布很神秘的样子,实际上就是知道一个先验,并且跟接下来做的实验能在结果上很好的融合。Dirichletdistribution•如果将Multinomial分布看成是Binomial分布的升维,那么Dirichlet分布就是升维后的Beta分布!所以,理解了Binomial分布和Beta分布的关系之后,就理解了Multinomial分布和Dirichlet分布的关系了。•我就不写公式了,有兴趣可以参考如下两本书《patternrecognitionandmachinelearning》《MachineLearning:AProbabilisticPerspective》

1 / 15
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功