Bayesiannetworks贝叶斯网络Frequentistvs.Bayesian客观vs.主观Frequentist(频率主义者):概率是长期的预期出现频率.P(A)=n/N,wherenisthenumberoftimeseventAoccursinNopportunities.“某事发生的概率是0.1”意味着0.1是在无穷多样本的极限条件下能够被观察到的比例但是,在许多情景下不可能进行重复试验发生第三次世界大战的概率是多少?Bayesian:degreeofbelief.Itisameasureoftheplausibility(似然性)ofaneventgivenincompleteknowledge.相信的程度,是在不确定知识的环境下对事件似然性的衡量Probability概率Probabilityisarigorousformalismforuncertainknowledge概率是对不确定知识一种严密的形式化方法Jointprobabilitydistributionspecifiesprobabilityofeveryatomicevent全联合概率分布指定了对随机变量的每种完全赋值,即每个原子事件的概率Queriescanbeansweredbysummingoveratomicevents可以通过把对应于查询命题的原子事件的条目相加的方式来回答查询Fornontrivialdomains,wemustfindawaytoreducethejointsizeIndependenceandconditionalindependenceprovidethetoolsIndependence/ConditionalIndependenceAandBareindependentiffP(A|B)=P(A)orP(B|A)=P(B)orP(A,B)=P(A)P(B)AisconditionallyindependentofBgivenC:P(A|B,C)=P(A|C)在大多数情况下,使用条件独立性能将全联合概率的表示由n的指数关系减为n的线性关系。Conditionalindependenceisourmostbasicandrobustformofknowledgeaboutuncertainenvironments.ProbabilityTheoryProbabilitytheorycanbeexpressedintermsoftwosimpleequations概率理论可使用两个简单线性方程来表达–SumRule(加法规则)•变量的概率是通过边缘化或者求和其他变量获得的–ProductRule(乘法规则)•用条件表达联合概率所有的概率推理和学习相当于不断重复加法和乘法法则大纲•Graphicalmodels(概率图模型)•Bayesiannetworks–Syntax(语法)–Semantics(语义)•Inference(推导)inBayesiannetworks什么是图模型?概率分布的图表示–概率论和图论的结合•Alsocalled概率图模型•Theyaugmentanalysisinsteadofusingpurealgebra(代数)WhatisaGraph?•Consistsofnodes(alsocalledvertices)andlinks(alsocallededgesorarcs)•在概率图模型中–每个节点表示一个随机变量(or一组随机变量)–边表示变量间的概率关系GraphicalModelsinCS•处理不确定性和复杂性的天然工具–贯穿整个应用数学和工程领域•图模型中最重要的思想是模块性概念–acomplexsystemisbuiltbycombiningsimplerparts.WhyareGraphicalModelsuseful•概率理论提供了“黏合剂”whereby–使每个部分连接起来,确保系统作为一个整体是一致的–提供模型到数据的连接方法.•图理论方面提供:–直观的接口•bywhichhumanscanmodelhighly-interactingsetsofvariables–数据结构•thatlendsitselfnaturallytodesigningefficientgeneral-purpose(通用的)algorithmsGraphicalmodels:统一的框架•考虑传统的多变量的概率系统作为一般基础形式的实例–mixturemodels(混合模型),factoranalysis(因子分析),hiddenMarkovmodels,Kalmanfilters(卡尔曼滤波器),etc.–在系统工程,信息论,模式识别和统计力学中被用到•优势:–在某一领域中的专业技术能够在该领域中相互转化并被充分利用–Providesnaturalframeworkfordesigningnewsystems图模型在机器学习中的角色1.形象化概率模型结构的简单方法2.InsightsintopropertiesofmodelConditionalindependencepropertiesbyinspectinggraph3.执行推理和学习表示为图形化操作需要复杂的计算图的方向性•有向图模型–方向取决于箭头•贝叶斯网络–随机变量间的因果关系•MorepopularinAIandstatistics•无向图模型–边没有箭头•Markovrandomfields(马尔科夫随机场)–更适合表达变量之间的软约束•MorepopularinVisionandphysicsBayesiannetworks一种简单的,图形化的数据结构,用于表示变量之间的依赖关系(条件独立性),为任何全联合概率分布提供一种简明的规范。Syntax语法:asetofnodes,onepervariableadirected(有向),acyclic(无环)graph(link≈directinfluences)aconditionaldistributionforeachnodegivenitsparents:P(Xi|Parents(Xi))—量化其父节点对该节点的影响Inthesimplestcase,conditionaldistributionrepresentedasaconditionalprobabilitytable条件概率表(CPT)givingthedistributionoverXiforeachcombinationofparentvaluesExampleTopology(拓扑结构)ofnetworkencodesconditionalindependenceassertions:Weather独立于其他变量ToothacheandCatchareconditionallyindependentgivenCavityExample我晚上在单位上班,此时邻居John给我打电话说我家警报响了,但是邻居Mary没有给打电话。有时轻微的地震也会引起警报。那么我家真正遭贼了吗?Variables:Burglary(入室行窃),Earthquake,Alarm,JohnCalls,MaryCalls网络拓扑结构反映出因果关系:–Aburglarcansetthealarmoff–Anearthquakecansetthealarmoff–ThealarmcancauseMarytocall–ThealarmcancauseJohntocallExamplecontd.Compactness(紧致性)ACPTforBooleanXiwithkBooleanparentshas2krowsforthecombinationsofparentvalues一个具有k个布尔父节点的布尔变量的条件概率表中有2k个独立的可指定概率EachrowrequiresonenumberpforXi=true(thenumberforXi=falseisjust1-p)Ifeachvariablehasnomorethankparents,thecompletenetworkrequiresO(n·2k)numbersI.e.,growslinearlywithn,vs.O(2n)forthefulljointdistributionForburglarynet,1+1+4+2+2=10numbers(vs.25-1=31)Globalsemantics(全局语义)Thefulljointdistributionisdefinedastheproductofthelocalconditionaldistributions:全联合概率分布可以表示为贝叶斯网络中的条件概率分布的乘积Globalsemantics(全局语义)Thefulljointdistributionisdefinedastheproductofthelocalconditionaldistributions:全联合概率分布可以表示为贝叶斯网络中的条件概率分布的乘积LocalsemanticsLocalsemantics:eachnodeisconditionallyindependentofitsnondescendants(非后代)givenitsparents给定父节点,一个节点与它的非后代节点是条件独立的Theorem:LocalsemanticsglobalsemanticsCausalChains因果链•一个基本形式:–IsXindependentofZgivenY?–Evidencealongthechain“blocks”theinfluenceCommonCause共同原因•另一个基础的形态:twoeffectsofthesamecause–AreXandZindependent?–AreXandZindependentgivenY?–Observingthecauseblocksinfluencebetweeneffects.CommonEffect共同影响•最后一种配置形态:twocausesofoneeffect(v-structures)–AreXandZindependent?•Yes:remembertheballgameandtheraincausingtraffic,nocorrelation?–AreXandZindependentgivenY?•No:rememberthatseeingtrafficputtherainandtheballgameincompetition?–Thisisbackwardsfromtheothercases•Observingtheeffectenablesinfluencebetweencauses.构造贝叶斯网络Needamethodsuchthataseriesoflocallytestableassertionsofconditionalindependenceguaranteestherequiredglobalsemantics需要一种方法使得局部的条件独立关系能够保证全局语义得以成立1.ChooseanorderingofvariablesX1,…,Xn2.Fori=1tonaddXitothenetworkselectparentsfromX1,…,Xi-1suchthatP(Xi|Parents(Xi))=P(Xi|X1,...Xi-1)该父亲选择保证了全局语义:构造贝叶斯网络要求网络的拓扑结构确实反映了合适的父节点集对每个变量的那些直接影响。添加节点的正确次序是首先添加“根本原因”节点,然后加入受它们直接影响的变量,以此类推。ExampleExampleExampleExampleExampleExamplecontd.在非因果方向决定条件独立性是很难的(Causalmodelsandconditionalindependenceseemhardwiredfo