Bayes学习

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第3.2节贝叶斯学习内容贝叶斯理论概述Brute-Force贝叶斯分类器两种概率学习算法贝叶斯最优分类器朴素贝叶斯分类器EM算法与混合模型概述贝叶斯推理提供了一种概率手段,基于如下的假定:待考察的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以作出最优的决策。贝叶斯推理为衡量多个假设的置信度提供了定量的方法贝叶斯推理为直接操作概率的学习算法提供了基础,也为其他算法的分析提供了理论框架贝叶斯学习算法与机器学习相关的两个原因:贝叶斯学习算法能够计算显示假设概率贝叶斯方法为理解多数学习算法提供了一种有效的分析手段,而这些算法不一定直接操纵概率数据,比如决策树神经网络学习:选择使误差平方和最小化的神经网络概述贝叶斯学习方法的特性观察到的每个训练样例可以增量地降低或升高某假设的估计概率。先验知识可以与观察数据一起决定假设的最终概率,先验知识的形式是:1)每个候选假设的先验概率;2)每个可能假设在可观察数据上的概率分布贝叶斯方法允许假设做出不确定性的预测新的实例分类可由多个假设一起做出预测,用它们的概率来加权贝叶斯方法计算复杂度有时较高,它们可作为一个最优的决策标准衡量其他方法贝叶斯方法的难度难度之一:需要概率的初始知识,当概率预先未知时,可以基于背景知识、预先准备好的数据以及基准分布的假定来估计这些概率难度之二:确定贝叶斯最优假设的计算代价比较大在某些特定情形下,大多通过条件独立性假设,降低计算代价内容贝叶斯理论概述Brute-Force贝叶斯分类器介绍两种直接操作概率的学习算法贝叶斯最优分类器朴素贝叶斯分类器EM算法与混合模型贝叶斯法则机器学习与数据挖掘的任务在给定训练数据D时,确定假设空间H中的最佳假设。最佳假设一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设贝叶斯理论提供了一种计算假设概率的方法基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身先验概率和后验概率用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率机器学习中,我们关心的是P(h|D)即给定D时h的成立的概率,称为h的后验概率贝叶斯公式贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法P(h|D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少即如果D独立于h被观察到的可能性越大,那么D对h的支持度越小)()()|()|(DPhPhDPDhP极大后验假设学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP)确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下最后一步,去掉了P(D),因为它是不依赖于h的常量)()|(maxarg)()()|(maxarg)|(maxarghPhDPDPhPhDPDhPhHhHhHhMAP极大似然假设在某些情况下,可假定H中每个假设有相同的先验概率,这样式子可以进一步简化,只需考虑P(D|h)来寻找极大可能假设。P(D|h)常被称为给定h时数据D的似然度,而使P(D|h)最大的假设被称为极大似然假设只要这些命题的概率之和为1,假设空间H可扩展为任意互斥命题集合)|(maxarghDPhHhML举例:一个医疗诊断问题有先验知识:在所有人口中,癌症患病率是0.008,对确实有病的患者的化验准确率为98%,对确实无病的患者的化验准确率为97%,问题:假定有一个新病人,化验结果为+,是否应将病人断定为有癌症?贝叶斯法则和概念学习贝叶斯法则为计算给定训练数据下任一假设的后验概率提供了原则性方法,因此可以直接将其作为一个基本的学习方法:计算每个假设的概率,再输出其中概率最大的。这个方法称为Brute-Force贝叶斯概念学习算法。Brute-Force贝叶斯学习总结概念学习问题有限假设空间H定义在实例空间X上,任务是学习某个目标概念c。Brute-ForceMAP学习算法对于H中每个假设h,计算后验概率输出有最高后验概率的假设上面算法需要较大计算量因为它要计算每个假设的后验概率,对于大的假设空间显得不切实际,但是它提供了一个标准以判断其他概念学习算法的性能)()()|()|(DPhPhDPDhP)|(maxargDhPhHhMAP内容贝叶斯理论概述Brute-Force贝叶斯分类器两种概率学习算法贝叶斯最优分类器朴素贝叶斯分类器EM算法与混合模型贝叶斯最优分类器前面我们讨论的问题是:给定训练数据,最可能的假设是什么?另一个相关的更有意义的问题是:给定训练数据,对新实例的最可能的分类是什么?显然,第二个问题的解决可以将第一个问题的结果(MAP)应用到新实例上得到还存在更好的算法?贝叶斯最优分类器例子考虑一个包含三个假设h1,h2,h3的假设空间。假定已知训练数据时三个假设的后验概率分别是0.4,0.3,0.3,因此h1为MAP假设。若一新实例x被h1分类为正,被h2和h3分类为负,计算所有假设,x为正例的概率为0.4,为反例的概率为0.6。这时最可能的分类与MAP假设生成的分类不同。贝叶斯最优分类器一般而言,新实例的最可能分类可通过合并所有假设的预测得到,用后验概率来加权。如果新实例的可能分类可取某集合Y中的任一值yj,那么概率P(yj|D)表示新实例分类为yj的概率新实例的最优分类为使P(yj|D)最大的yj值,贝叶斯最优分类器为:argmax(|)(|)jijiiyYhHPyhPhD(|)(|)(|)ijjiihHPyDPyhPhD贝叶斯最优分类器贝叶斯最优分类器在给定可用数据、假设空间及这些假设的先验概率下使新实例被正确分类的可能性达到最大贝叶斯最优分类器的一个属性:它所做的分类可以对应于H中不存在的假设使用式子(上页最后一式)来分类X中的每个实例,按此定义的实例标注不一定对应于H中的任一单个假设h对实例的标注将贝叶斯分类器看成是不同于假设空间H的另一空间H’,在其上应用贝叶斯公式。H’有效地包含了一组假设,它能在H中多个假设的线性组合所作的预言中进行比较内容贝叶斯理论概述Brute-Force贝叶斯分类器两种概率学习算法贝叶斯最优分类器朴素贝叶斯分类器EM算法与混合模型朴素贝叶斯分类器*工程应用的学习任务:每个实例x可由属性值联合描述,而目标函数f(x)从某有限集Y中取值,忽略假设贝叶斯方法的新实例分类目标是在给定描述实例的属性值x1,...,xn下,得到最可能的目标值yMAP使用贝叶斯公式变化上式1argmax(|,...,)jMAPjnyyPyxx111(,...,|)()argmax(,...,)argmax(,...,|)()jjnjjMAPyVnnjjyVPxxyPyyPxxPxxyPy朴素贝叶斯分类器*基于训练数据估计式(上页)中的两个数据项的值估计P(yj)很容易:计算每个目标值yj出现在训练数据中的频率估计P(x1,...xn|yj)遇到数据稀疏问题,除非有一个非常大的训练数据集,否则无法获得可靠的估计朴素贝叶斯分类器引入一个简单的假设避免数据稀疏问题:在给定目标值时,属性值之间相互条件独立,即1(,...,|)(|)njijiPxxyPxy朴素贝叶斯分类器*朴素贝叶斯分类器的定义:从训练数据中估计不同P(xi|yj)项的数量比要估计P(x1,...,xn|yj)项所需的量小得多只要条件独立性得到满足,朴素贝叶斯分类yNB等于MAP分类,否则是近似朴素贝叶斯分类器与其他已介绍的学习方法的一个区别:没有明确地搜索可能假设空间的过程(假设的形成不需要搜索,只是简单地计算训练样例中不同数据组合的出现频率)argmax()(|)jNBjijyViyPyPxy编号天气温度湿度风是否去打球1晴天炎热高弱不去2晴天炎热高强不去3阴天炎热高弱去4下雨适中高弱去5下雨寒冷正常弱去6下雨寒冷正常强不去7阴天寒冷正常强去8晴天适中高弱不去9晴天寒冷正常弱去10下雨适中正常弱去11晴天适中正常强去12阴天适中高强去13阴天炎热正常弱去14下雨适中高强不去表-1是否去打球的数据统计—训练数据朴素贝叶斯分类器计算是否去打球举例:学习分类文本内容贝叶斯理论概述Brute-Force贝叶斯分类器两种概率学习算法贝叶斯最优分类器朴素贝叶斯分类器EM算法与混合模型EM算法与GMMs如何获得更准确的概率分布?EM算法是存在隐含变量时广泛使用的一种学习方法,可用于变量的值从来没有被直接观察到的情形,只要这些变量所遵循的概率分布的一般形式已知混合概率模型的学习用于贝叶斯网的训练GaussianMixtureModels(GMMS)高斯混合模型1(),KkkkkPxwN221()1()exp22KkkkkkxPxw/21/2111()exp()()(2)||2KTkkkdkPxwxxGMMS的参数估计当给定从一个正态分布中抽取的数据实例x1,...,xN时,很容易计算该分布的均值的极大似然假设,它是一个特例,表示如下然而,现在的问题涉及k个不同正态分布,而且不知道哪个实例是哪个分布产生的。这是一个涉及隐藏变量的典型例子对于的例子,每个实例的完整描述yi=xi,zij,其中xi是第i个实例的观测值,zij表示样本xi属于第j个正态分布,是隐藏变量2111argmin()NNMLiiiixxNGMMS的参数估计EM算法根据当前假设1...k,不断地再估计隐藏变量zij的期望值,然后用这些隐藏变量的期望值重新计算极大似然假设先将假设初始化为h=1,…,k计算每个隐藏变量zij的期望值E[zij]计算一个新的极大似然假设h’=’1,…,’k,假定每个隐藏变量zij所取值是第一步得到的期望值E[zij]。将假设替换为h’=’1,…,’k,然后循环GMMS的参数估计-EM算法E[zij]正是实例xi由第j个正态分布生成的概率第二步,使用第一步得到的P[zij]来导出新的极大似然假设22221()21()211(|)[](|)ijikxijijKKxikkkpxxeEzpxxe11[][]NijiijNijiEzxEz多项分布及其数学期望假设A1,A2,...,An是某一试验下的完备事件群,即事件两两互斥,分别以p1,p2,...,pn记为事件A1,A2,...,An发生的概率。现将试验独立重复N次,以Zi记为在N次试验中事件Ai出现的次数,Z=(Z1,Z2,...,Zn)为n维随机向量。则Z的概率分布就叫做多项分布。对于N次独立重复试验,事件A1,A2,...,An发生的次数分别为k1,k2,...,kn发生的概率是:12111212!(,...,)...!!...!NkkkNNNNNpZkZkpppkkk()iiEZNpGMMS的参数估计-EM算法第二步中表达式类似于求均值,只是变成了加权样本均值EM算法的要点:当前的假设用于估计未知变量,而这些变量的期望值再被用于改进假设可以证明算法的每一次循环中,EM算法能使似然P(D|h)增加,除非P(D|h)达到局部最大,因此算法收敛到一个局部最大似然假设GMMS的参数估计-EM算法贝叶斯问题框架要估计k个正态分布的均值=1...k观察到的数据是X={xi}隐藏变量Z={zi1,...,zik}表示k个

1 / 38
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功