贝叶斯学习岳伟超小样本下的类机器学习Sample:BigdataSample:smallmount深度学习是基于大数据通过多层网络实现机器自动识别有效的特征,显然数据越多其效果相对就会越好。在没有大数据情况下,深度学习的效果将会显著下降。对于人类来说,没有知识的积累,没有相应的专业知识,依然能够模仿学习,因为人类面对陌生环境依然能够通过学习做出适应变化。“小样本机器学习”作为机器学习的另一条途径,由相关领域内的专家人工提取出有用的特征,配合少量的数据进行机器学习。在此主要以Bayesian学习方法为核心。1、小样本机器学习频率学派VS贝叶斯学派2、Bayesian基础知识频率派把需要推断的参数Θ看做是固定的未知常数,是确定的一个值,同时样本X是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X的分布;贝叶斯派的观点则截然相反,他们认为参数Θ是随机变量,而样本X是固定的,由于样本是固定的,所以他们重点研究的是参数Θ的分布。例如:只看下面有什么牌来决策的就是频率学派除了看下面有什么牌,还考虑了这个牌是谁打出的,什么时候打出的,这个人打出所有牌友什么联系等一系列问题的就是贝叶斯学派;概率论Bayesianandprobability2.1可以根据观察到的每个训练样例能够增量地降低或升高某假设的估计概率。先验知识可以与观察数据一起决定假设的最终概率;贝叶斯方法可允许假设做出不确定性的预测;新的实例分类可由多个假设一起做出预测,用它们的概率来加权;0102030405在贝叶斯方法计算复杂度较高时,它们仍可作为一个最优的决策标准衡量其他方法;2、Bayesian基础知识2.2贝叶斯学习方法的特性2、Bayesian基础知识2.2贝叶斯学习应用领域2、Bayesian基础知识2.3贝叶斯学习方法的难度难度之一:获取先验知识需要概率的先验知识,当概率预先未知时,可以基于背景知识、预先准备好的数据以及基准分布的假定来估计这些概率;难度之二:计算复杂度一般情况下,确定贝叶斯最优假设的计算代价比较大(在某些特定情形下,这种计算代价可以大大降低)。2、Bayesian基础知识2.4理论知识—先验概率VS后验概率先验概率是指根据以往经验和分析得到的概率,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计。先验概率和后验概率是相对的。如果以后还有新的信息引入,更新了现在所谓的后验概率,得到了新的概率值,那么这个新的概率值被称为后验概率2、Bayesian基础知识2.4理论知识—贝叶斯法则(|)()(|)()()()(|)(|)PDhPhPhDPDPhhPDDPDhhDPhDDh假设的先验概率训练数据的先验概率假设成立时观察到数据的概率给定训练数据时成立的概率用P(h)表示在没有训练数据前假设h拥有的先验概率,反映了h是正确假设的机会的背景知识,如果没有P(h),可以简单地先赋予相同的先验概率类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率机器学习中,关心的是P(h|D),即给定D时h的成立的概率,称为h的后验概率2、Bayesian基础知识2.4理论知识—贝叶斯的简单应用Google基于贝叶斯方法的拼写检查P(c)表示某个正确的词的出现“概率”,它可以用“频率”代替。P(w|c)表示在试图拼写c的情况下,出现拼写错误w的概率。*/PcwPwcPcPwargmaxcPcwargmax*/cPwcPcPwargmax*cPwcPcByBayesian’Theoremthisisequivalentto:SinceP(w)isthesameforeverypossiblec,wecanignoreit,giving:朴素贝叶斯分类器2.5朴素贝叶斯分类器朴素贝叶斯分类模型(NaïveBayes或SimpleBayesian)假定特征向量的各分量间相对于决策变量是相对独立的,各分量独立地作用于决策变量。朴素贝叶斯的思想基础:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。2、Bayesian基础知识1F2F3F4FnFC2.5.1朴素贝叶斯分类器数学定义2、Bayesian基础知识1.设为一个待分类项,而为F的一个特征属性2.有类别集合3.朴素贝叶斯分类器是计算出概率最大的那个分类,即求下面算式的最大值:4.如果则12,,nFFFF12,,mCCCCiFi1212i12i,.....,...../,.....i1,nnnPCFFFPFFFCPCPFFFm12ii,.....i1,nPFFFCPCm即由于各个特征属性是条件独立:iii1,,1,mjjPCPFCmjn12max,......,k1,kmPCFPCFPCFPCFmkFC•2.5.1朴素贝叶斯分类器流程图2、Bayesian基础知识输出:特征属性和训练样本输入:特征属性和训练样本输出:分类器输入:分类器和待分类项输出:待分类项与类别的映射关系2.5.2朴素贝叶斯分类器应用——检测SNS社区中不真实账号2、Bayesian基础知识设C=0表示真实账号,C=1表示不真实账号特征属性:a1:日志数量/注册天数,a2:好友数量/注册天数,a3:是否使用真实头像。1确定特征属性及划分划分:a1:{a=0.05,0.05a0.2,a=0.2},a1:{a=0.1,0.1a0.8,a=0.8},a3:{a=0(不是),a=1(是)}使用运维人员曾经人工检测过的1万个账号作为训练样本2获取训练样本3计算训练样本中每个类别的频率用训练样本中真实账号和不真实账号数量分别除以一万,得到:P(C=0)=8900/10000=0.89;P(C=1)=110/10000=0.114计算每个类别条件下各个特征属性划分的频率5使用分类器进行鉴别P(C=0)P(x|C=0)=P(C=0)P(0.05a10.2|C=0)P0.1a20.8|C=0)P(a3=0|C=0)=0.89*0.5*0.7*0.2=0.0623P(C=1)P(x|C=1)=P(C=1)P(0.05a10.2|C=1)P0.1a20.8|C=1)P(a3=0|C=1)=0.89*0.5*0.7*0.2=0.0623上面训练得到的分类器鉴别一个账号,这个账号使用非真实头像,日志数量与注册天数的比率为0.1,好友数与注册天数的比率为0.2可以看到,虽然这个用户没有使用真实头像,但是通过分类器的鉴别,更倾向于将此账号归入真实账号类别。这个例子也展示了当特征属性充分多时,朴素贝叶斯分类对个别属性的抗干扰性。3、Bayesiannetwork3.1贝叶斯网络(Bayesiannetwork)简介父节点叶节点因果关系相互独立Bayesiannetwork又称信念网络有向无环图模型没有形成闭环3、Bayesiannetwork3.1贝叶斯网络(Bayesiannetwork)简介贝叶斯网络模型具有如下几个优势:01贝叶斯学习能够方便的处理不完全数据。例如考虑具有相关关系的多个输入变量的分类或回归问题,当变量中有某个缺值时,它们的预测结果就会出现很大的偏差。而贝叶斯则提供了较为直观的概率关联关系模型。02贝叶斯学习能够学习变量间的因果关系。因果关系是数据挖掘中极为重要的模式。在数据分析中,因果关系有利于对领域知识的理解;在干扰较多时,便于作出精确的预测。03贝叶斯网络与贝叶斯统计相结合能够充分利用领域知识和样本数据的信息。贝叶斯网络用弧表示变量间的依赖关系,用概率分布表来表示依赖关系的强弱,将先验信息与样本知识有机结合起来。ChestClinic(Data)•美国有30%的人吸烟•每10万人中就就有70人患有肺癌•每10万人中就就有10人患有肺结核•每10万人中就就有800人患有支气管炎•10%人存在呼吸困难症状,大部分人是哮喘、支气管炎和其他非肺结核、非肺癌性疾病引起3、Bayesiannetwork3.2贝叶斯网络应用实例—胸部疾病诊所(ChestClinic)构建模型根据所调研的数据可以建立如下BN模型:DiagnosemodelData、knowledgetomodelbasedBayesiannetworktheory3、Bayesiannetwork3.2贝叶斯网络应用实例—胸部疾病诊所(ChestClinic)更新模型上述的BN模型对胸部疾病诊所意义不大,因为它没有用到来胸部疾病诊所病人的案例数据,不能反映真实病人的情况。当诊所诊治了数千病人后,会发现调研中所描述的情况与实际诊所数据显示的情况是完全不同的,实际诊所数据显示:Tomodel50%的病人吸烟1%患有肺结核5.5%得了肺癌45%患有不同程度支气管炎导入新数据导入新数据导入新数据数据更新3、Bayesiannetwork3.2贝叶斯网络应用实例—胸部疾病诊所网络添加新证据针对一个具体的病人,经过医生的询问,发现病人呼吸困难,将呼吸困难概率==100%,这个信息输入到网络,更新网路数据;将新的证据加入到贝叶斯网络中,发现各个节点的概率发生相应的改变;“”支气管炎,从45%到83.4%;病人是抽烟者的几率也会随之增大,从50%到63.4%;近期访问过亚洲的几率也会增大:从1%到1.03%,显然是不重要的;X光照片不正常的几率也会上涨,从11%到16%;导入新数据数据更新数据更新数据更新数据更新3、Bayesiannetwork3.2贝叶斯网络应用实例—胸部疾病诊所(ChestClinic)继续添加证据按照流程依此问病人一些问题,如她最近是不是去过亚洲国家,如果答案是“是”。现在获得的信息就影响了BN模型,BN模型的参数会发生进一步的改变。将VisitToAsia==100%导入模型。导入新数据患肺结核的几率显然增大,从2%到9%.而患有癌症、支气管炎以及该患者是吸烟患者的几率都有所减少。为什么呢?因为此时呼吸困难的原因相对更倾向于肺结核。数据更新数据更新3、Bayesiannetwork3.2贝叶斯网络应用实例—胸部疾病诊所(ChestClinic)继续添加证据继续问患者一些问题,假设患者是个吸烟者,即Smoker==100%;则网络变为;最大假设为了确认为病人做一个X光透视,结果显示其正常,即Normal==100%。依然是最大假设通过证据的添加可以确认为BronchitisBayesiannetworkmodelParameterlearning&&structurelearning贝叶斯网络模型是由网络结构和条件概率分布表(CPT)组成的。贝叶斯网络的学习包括结构学习和参数学习两个内容。结构学习,即利用训练样本集,尽可能结合先验知识,确定最合适的贝叶斯网络模型结构。参数学习是在给定结构下,确定贝叶斯网络模型的参数,即每个结点上的CPT表。按照学习的目的以及训练样本集是否完整,可以把学习方法归为以下几类。3、Bayesiannetwork3.3贝叶斯网络的构建结构观测值方法已知完整最大似然估计法(MLE)已知部分EM算法、GreedyHill-climbingmethod未知完整搜索整个空间未知部分结构算法、EM算法、Boundconstruction3、Bayesiannetwork3.3.1结构学习Bayesiannetwork结构学习就是在给定一个数据样本集合D的前提下,尽可能结合先验知识,寻找一个与训练样本集D匹配最好的网络结构,对于含有n个变量的数据集进行网络结构学习,可能的结构数目为:(★)因此贝叶斯网络结构学习是一个NP难问题。目前贝叶斯网络结构学习的方法主要分成两类:•基于评分搜索的方法(scoreandsearc