第一节三种信息第二节贝叶斯公式第三节共轭先验分布第四节超参数模型第五节多参数模型第六节充分统计量统计学中有二个主要学派:频率学派与贝叶斯学派,他们之间有共同点,又有不同点,为了说清楚他们之间的异同点,我们从统计推断所使用的三种信息说起。总体信息即总体分布或总体所属分布族给我们的信息,譬如,“总体是正态分布”这一句话就给我们带来很多信息:它的密度函数是一条钟形曲线;它的一切阶矩都存在;有关正态变量(服从正态分布的随机变量)的一些事件的概率可以计算;还有许多成熟的点估计、区间估计和假设检验方法可供我们选用。总体信息是很重要的信息,为了获取此种信息往往耗资巨大。样本信息即从总体抽取的样本给我们提供的信息。这是最“新鲜”的信息,并且愈多愈好。人们希望通过对样本的加工和处理对总体的某些特征作出较为精确的统计推断。没有样本就没有统计学可言。这是大家都理解的事实。基于上述两种信息进行的统计推断被称为经典统计学,它的基本观点是把数据(样本)看成是来自具有一定概率分布的总体,所研究的对象是这个总体而不局限于数据本身。先验信息即在抽样之前有关统计问题的一些信息,一般说来,先验信息主要来源于经验和历史资料。先验信息在日常生活和工作中也经常可见,不少人在自觉地或不自觉地使用它。对先验信息进行加工获得的分布今后称为先验分布。这个先验分布是综合了该厂过去产品的质量情况。如果这个分布的概率绝大部分集中在θ=0附近,那该产品可认为是“信得过产品”。假如以后的多次抽检结果与历史资料提供的先验分布是一致的。使用单位就可以对它作出“免检产品”的决定,或者每月抽检一、二次就足够了,这就省去了大量的人力与物力。可见历史资料在统计推断中应加以利用。基于上述三种信息(总体信息、样本信息和先验信息)进行的统计推断被称为贝叶斯统计学。它与经典统计学的主要差别在于是否利用先验信息。在使用样本信息上也是有差异的。贝叶斯学派重视已出现的样本观察值,而对尚未发生的样本观察值不予考虑,贝叶斯学派很重视先验信息的收集、挖掘和加工,使它数量化,形成先验分布,参加到统计推断中来,以提高统计推断的质量。忽视先验信息的利用,有时是一种浪费,有时还会导致不合理的结论。贝叶斯学派的最基本的观点是:任一个未知量θ都可看作一个随机变量,应该用一个概率分布去描述对θ的未知状况。这个概率分布是在抽样前就有的关于θ的先验信息的概率陈述。这个概率分布被称为先验分布。有时还简称为先验(Prior)。因为任一未知量都有不确定性,而在表述不确定性程度时,概率与概率分布是最好的语言。贝叶斯公式的密度函数形式1.设总体指标X有依赖于参数“的密度函数”在经典统计中常记为p(x;θ),它表示在参数空间中不同的θ对应不同的分布。可在贝叶斯统计中记为p(x|θ),它表示在随机变量θ给定某个值时,总体指标X的条件分布。2.根据参数θ的先验信息确定先验分布π(θ)。这是贝叶斯学派在最近几十年里重点研究的问题。已获得一大批富有成效的方法。在以后章节将介绍其中一些主要方法,本书第三章和第七章将系统地介绍。3.从贝叶斯观点看,样本的产生要分二步进行。这个联合密度函数是综合了总体信息和样本信息,常称为似然函数。4.样本x和参数θ的联合分布把三种可用的信息都综合进去了。5.我们的任务是要对未知数θ作出统计推断。在没有样本信息时,人们只能据先验分布对θ作出推断。在有样本观察值x之后,我们应该依据h(x,θ)对θ作出推断。6.在θ是离散随机变量时,先验分布可用先验分布列表示。这时后验分布也是离散形式。(),i1,2,...i(),i1,2,...i后验分布是三种信息的综合一般说来,先验分布π(θ)是反映人们在抽样前对θ的认识,后验分布π(θ|x)是反映人们在抽样后对θ的认识。之间的差异是由于样本x出现后人们对θ认识的一种调整。所以后验分布π(θ|x)可以看作是人们用总体信息和样本信息(综合称为抽样信息)对先验分布作π(θ)调整的结果。1.3.1共轭先验分布大家知道,在区间(0,1)上的均匀分布是贝塔分布Be(1,1)。这时从例1.2.1中可以看到一个有趣的现象。二项分布b(n,θ)中的成功概率θ的先验分布若取Be(1,1),则其后验分布也是贝塔分布Be(x+1,n-x+1)。其中,x为n次独立试验中成功出现次数#先验分布与后验分布同属于一个贝塔分布族,只是其参数不同而已。这一现象不是偶然的,假如把θ的先验分布换成一般的贝塔分布Be(α+β),其中α0,β0。经过类似计算可以看出,θ的后验分布仍是贝塔分布Be(α+x,β+n-x),此种先验分布被称为θ的共轭先验分布。定义1.3.1设θ是总体分布中的参数(或参数向量),π(θ)是θ的先验密度函数,假如由抽样信息算得的后验密度函数与π(θ)有相同的函数形式,则称π(θ)是θ的(自然)共轭先验分布。1.3.2后验分布的计算在给定样本分布p(x|θ)和先验分布π(θ)后可用贝叶斯公式计算θ的后验分布由于m(x)不依赖于θ,在计算θ的后验分布中仅起到一个正则化因子的作用。假如把m(x)省略,把贝叶斯公式改写为如下等价形式(|x)p(x|)()/m(x)(|x)p(x|)()其中符号“”表示两边仅差一个常数因子,一个不依赖于θ的常数因子。(1.3.5)式右端虽不是正常的密度函数,但它是后验分布π(θ|x)的核,在需要时可以利用适当方式计算出后验密度,特别当看出π(θ|x)π(θ)的核就是某常用分布的核时,不用计算m(x)就可很快恢复所缺常数因子。这样一来就可简化后验分布的计算,这在共轭先验分布与非共轭先验分布场合都可使用。1.3.3共轭先验分布的优缺点共轭先验分布在很多场合被采用,因为它有二个优点:1.计算方便,这可从上面二个例子和习题中体会。2.后验分布的一些参数可得到很好的解释。在贝叶斯统计中先验分布的选取应以合理性作为首要原则,计算上的方便与先验的合理性相比那还是第二位的。当样本均值x与先验均值相距较远时,看来后验分布应有二个峰才更为合理,可使用共轭先验分布(如在正态均值场合)逼使后验分布只有一个峰,从而会掩盖实际情况,引起误用。在考虑到先验的合理性之后,充分发挥共轭先验分布吸引人们的性质是我们采取的策略。因为,以正态分布为例,先验分布类还是足够大的,使正态分布在不少场合用来概括先验信息是合理的。2{N(,),,0}1.3.4常用的共轭先验分布共轭先验分布的选取是由似然函数L(θ)=p(x|θ)中所含θ的因式所决定的,即选与似然函数(θ的函数)具有相同核的分布作为先验分布。若此想法得以实现,那共轭先验分布就产生了。倒伽马分布先验分布中所含的未知参数称为超参数。譬如,成功概率的共轭先验分布是贝塔分布Be(α,β),它含有二个超参数,正态均值的共轭先验分布是正态分布,它也含有二个超参数。一般说来,共轭先验分布常含有超参数,而无信息先验分布(如均匀分布U(0,1))一般不含有超参数。共轭先验分布是一种有信息的先验分布,故其中所含的超参数应充分利用各种先验信息来确定它。2N(,)1.4.1利用先验矩假如根据先验信息能获得成功概率θ的若干个估计值,记为,一般它们是从历史数据整理加工获得的,由此可算得先验均值和先验方差,其中然后令其分别等于贝塔分布Be(α,β)的期望与方差,即12,,...,k2s22()(1)s解之“可得超参数α与β的估计值22(1)ˆ(1)(1)ˆ(1)(1)ss1.4.2利用先验分位数假如根据先验信息可以确定贝塔分布的二个分位数,则可用这二个分位数来确定α与β,譬如用二个上、下四分位数与(见图1.4.1来确定α与β,与分别满足如下二个方程ULUL110()(1)0.25()()Ld111()(1)0.25()()Ud1.4.3利用先验矩和先验分位数假如根据先验信息可获得先验均值和p分位数,则可列出下列方程解之,可得超参数α与β的估计值。p11()(1)()()pdp1.4.4其他方法假如根据先验信息只能获得先验均值,这时可令一个方程不能唯一确定二个参数,这时还要利用其它先验信息才能把α与β确定下来。统计中很多实际问题含有多个未知参数,譬如正态总体常含有二个未知参数μ与,又如多项分布常含有k-1个未知参数,至于多元正态分布则含有更多个未知参数。在贝叶斯方法的框架中处理多参数的方法与处理单参数方法相似,先根据先验信息给出参数的先验分布,然后按贝叶斯公式算得后验分布,为确定起见,设总体只含二个参数,总体的密度函数为,若从该总体抽取一个样本,并给出先验密度,则的后验密度为2N(,)21M(n;p,...,p)kN(,)12(,)12(x|,)p1x(x,...,x)n12(,)12(,)121212(,|x)(x|,)(,)p在多参数问题中,人们关心的常常是其中一个或少数几个参数,这时其余参数常被称为讨厌参数或多余参数,譬如在二个参数与场合,人们感兴趣的是,那么就是讨厌参数,为了获得的边缘后验密度,只要对讨厌参数积分即可。上述积分对的参数空间进行,在处理讨厌参数上,贝叶斯方法要比经典方法方便得多。1212121122(|)(,|x)dx2正态—倒伽玛分布,记为后验密度在形式上完全与先验密度同,只是用,与分别代替,与正态—倒伽玛分布是正态均值与正态方差的(联合)共轭先验分布。2000(,)NIGa2nn2nn00200经典统计中充分统计量是这样定义的:设是来自分布函数的一个样本,T=T(x)是统计量,假如在给定T(x)=t的条件下,x的条件分布与θ无关的话,则称该统计量为θ的充分统计量。在一般情况下,用上述定义直接验证一个统计量的充分性是困难的,因为需要计算条件分布,幸好有一个判别充分统计量的充要条件,它就是著名的因子分解定理,该定理说,一个统计量T(x)对参数θ是充分的充要条件是存在一个t与θ的函数g(t,θ)和一个样本x的函数h(x),使得对任一样本x和任意θ样本的密度p(x|θ)可表示为它们的乘积,即p(x|θ)=g(T(x),θ)在贝叶斯统计中,充分统计量也有一个充要条件。1(x,...,x)nxF(x|)定理1.6.1设是来自密度函数p(x|θ)的一个样本,T=T(x)是统计量,它的密度函数为p(t|θ),又设是θ的某个先验分布族,则T(x)为θ的充分统计量的充要条件是对任一先验分布,有即用样本分布p(x|θ)算得的后验分布与统计量T(x)算得的后验分布是相同的。1(x,...,x)nx{()}H()H(|T(x))(|x)关于定理1.6.1我们有二点说明:1.定理1.6.1给出的条件是充分必要的,故定理1.6.1的充要条件可作为充分统计量的贝叶斯定义,譬如在例1.6.1中把改为,同样可在给定下,算得后验分布,但没有上述等式,即按贝叶斯定义,统计量不是的充分统计量。x1x1(x,)Q1(x,)Q221(,|x,Q)(,|x)2(,)2.假如已知统计量T(x)是充分的,那么按定理1.6.1,其后验分布可用该统计量的分布算得,由于充分统计量可简化数据、降低样本维数,故定理1.6.1亦可用来简化后验分布的计算。谢谢