马尔可夫随机域的线性和并行学习1马尔可夫随机域的线性和并行学习YarivDrorMizrahiYARIV@MATH.UBC.CAMishaDenilMISHA.DENIL@CS.OX.AC.UKNandodeFreitas1;2;3NANDO@CS.OX.AC.UK加拿大英属哥伦比亚大学英国牛津大学加拿大先进的研究所,CIFARNCAP程序摘要我们引入一个新的令人尴尬的并行参数马尔科夫随机学习算法不附带条件的参数是一种有效的字段为一大类的实用模型。我们的算法并行化自然派系以及为图的有界、其复杂性是程度的线性的在派系数目。与其竞争对手不同我们的算法是完全平行和对数它也是高效的、需要的数据模型只有数据到本地充分统计量估计参数。1.介绍马尔可夫随机场(集控)也称为无概率图模型、是无处不在的结构有显著影响的概率模型一大批领域、包括计算机视觉(李,2001年;;;;Szeliskietal.,2008年)、计算摄影和图形(etal.加尔,2004年)、计算神经科学(艾克利etal.,1985年)、生物信息学(诺华etal.,2007年)、传感器网络(刘&伊勒尔,2012年)、社会开辟(-施特劳斯池田,1990年)、马尔科夫逻辑(·理查森与多明戈斯,2006年)、自然语言处理(拉弗蒂etal.,2001年;;;;萨顿&麦卡勒姆,2012年)和统计物理(Kindermann&Snell,1980年)。正如指出在温赖特和Jordan(2008年)也有很多应用程序在统计中、约束满足与组合优化、纠错码和流行病学。不出意料、这许多的综合治疗手段重要的话题似乎在过去的四年(Kindermann-斯内尔,1980年;;;劳里岑,1996年;;;;马尔可夫随机域的线性和并行学习2布雷莫,2001年;科勒和弗里德曼,2009年;;;;墨菲,2012年).尽管巨大的成功,这些模型拟合的影响他们的数据仍然是一个艰巨的挑战。虽然对数似然是通常凸的参数,这些模型的梯度是棘手的。在许多情况下,在这些模式中的最大似然是数据高效在渐变中的数据一词可以的的感觉可以轻松地预计算,使其评价期间琐碎优化。使用最大似然的主要困难就是不高效的模型因为评估梯度涉及到在模型计算的期望分布。这就要求指数评价与一笔许多条款,其中是的顽固性甚至适度中型的模型。确切的最大似然难治性已促使许多近似的介绍参数估计的方法(Besag,1975年;辛顿,2000年;;Hyv¨arinen,2005年;;马林etal.,2010年;;瓦兰etal.,2011年;;马林和德弗雷塔斯,2011年;;斯沃etal.,2011年).一类重要的这一问题的近似解法近似的随机逼近方法从分布模型,利用样本模型术语通常通过mcmc方法。这种模拟是昂贵的和许多样品往往需要准确的估计。此外,在设置位置的参数或数据必须被分布到许多机器这种仿真造成更多困难。另一种方法是对近似极大似然目的构造的替代方案。领先在这一领域的方法是伪的可能性。在这种方法磁流变液中的所有变量的联合分布被取代按条件分布为每个产品变量。替换产品的联合分布条件句的消除模型期限从渐变拟似然目标,绕过最大似然估计模型效率低下。然而,伪似然不是高效的因为数据条件分布往往取决于实际的数据和参数的当前值。我们回到这个在一节中详细的问题2.3.采用伪似然在分布式环境中马尔可夫随机域的线性和并行学习3的也是很难,因为条件分布共享参数。几位研究者有解决这一问题建议disjointly近似的拟似然优化每个条件和参数相结合使用某种形式的平均(Ravikumaretal.,2010年;威塞尔与英雄三,2012年;;刘&伊勒尔,2012年).在本文中,我们介绍一参数估计新方法在集控不附带条件的参数,避免了模型效率低下的一个重要的最大似然类模型,同时保留其数据的效率。此外,我们的算法是令人尴尬的平行可以在未经修改的分布式环境中实现。我们的算法取代联合最大似然问题与很多规模较小的辅助的最多的集合能独立解决的可能性问题。我们证明,如果辅助问题满足一定的条件,中的辅助问题的相关参数收敛到关节中的真实参数值模型。我们的实验结果表明良好的性能在这种情况下取得和那良好的性能仍然是当不满足这些条件实现。违反牺牲理论收敛条件换取,甚至进一步计算的储蓄同时实证性能良好。下一个较强的假设,我们证明我们的算法是全面联合分布的正好等于最大可能性。虽然不直接适用,提供了这一结果额外洞察为什么我们的方法是有效的。最近,和独立,介绍一类似的方法在下高斯的图形化模型由孟etal.(2013年)。在那张纸,作者认为本地居民区的节点,而我们认为邻里派系,他们依靠凸松弛通过Schur补从中他们逆的算法协方差估计。在修订这时间纸,同一批作者已经表明,收敛性对与它们的方法参数真值率是可比性以集中最大似然估计(孟etal.,2014).虽然我们的工作和孟etal.到达分布通过不同的路径,而是他们的学习限于(成对)高斯图形模式,均它马尔可夫随机域的线性和并行学习4是能够利用图形结构的作品展示超越低树宽到设计算法数据和模型高效和展览好实证性能。2。模型规范和目标我们有兴趣评估的参数向量积极的分布p(xj)0,满足马尔可夫属性的无向图g.这是建造-的构造,可以表示为一个产品因素,每一个最大的集团,在C组最大派系的G、C(xcjC)0是势函数或因素相关变量的小团体c、Z()分区功能:、在我们学院的搜索模型一个使用指数函数代表的潜力被称为能源,我们将假设选择这样参数是可识别的。结果联合distribu-可以写成一个吉布斯分布当能量是一个线性函数的参数,即tor源自我的值变量,我们有一个最大熵或对数线性模型(瓦瑟曼,2004;布赫曼etal.,2012;墨菲,2012)。在这些特点模型也被称为地方足够的统计数据。符号:我们用x来指代所有变量的向量(节点)。当需要时,我们增加的精度符号用S来表示所有变量的设置和使用xStheMRF所有变量的向量。我们限制符号n和c,开方xn指的是观察磁流变液中所有的变量,我指的子集与集团有关的变量c。最后厦门指节点的形式观察。2.1。最大似然马尔可夫随机域的线性和并行学习5(总的来说)没有马克斯-封闭形式的解决方案imum似然(ML)估计的参数基于磁流变液,因此梯度优化是必要的。考虑遵守最大熵模型c索引最大派系的地方。按比例缩小的日志,可能是由这是一个凸函数。参数的导数的一个特定的小团体是由当方程(4)的预期功能问(x)模型分布。对于许多感兴趣的模型数量是棘手的。的导数log-likelihood对比模型期望对特性的预期值数据,在优化这两个词将平等和em-pirical分布特性将匹配模型的预处理措辞。2.2。最大Pseudo-Likelihood克服的棘手问题计算expec-界定模型分布,pseudo-likelihoodcon-横梁简单factorised目标函数,当表示所有的组件形式的数据向量,除了组件。(与稀疏模型连通性,我们只需要邻居的情况节点。)在二进制,对数线性情况下,梯度目标可以以对比的形式来表达,2.3。模型和数据效率有两个条款的梯度方程5。第一个词是一个实证的期望马尔可夫随机域的线性和并行学习6派对之前可以预先计算参数优化这学期开始,使梯度非常便宜在优化评估。ML梯度数据来看是与期望模型分布,这是一个许多配置求和成倍增长。对于大型这学期模型是棘手的。我们描述这种情况说,ML估计数据有效,因为只涉及数据条款计算效率。然而,ML不是有效率——模型字母系数,因为梯度是棘手的模型来看,和评估的困难是主要动机像伪另类的发展目标可能性。Pseudo-likelihood地址模型效率低下的从梯度ML通过消除模型来看,这使pseudo-likelihood模型有效。然而,pseudo-likelihood不是数据有效,因为计算梯度需要访问完整的条件分布因为这个外求和数据。必须为每个梯度评价计算例子。(请注意,对于二进制模式充分条件之-spond物流回归,所以任何扩展的进步逻辑回归模型和数据集将非常大在这里使用)。在接下来的部分中,我们介绍一个线性和并行(圈)算法,它使用一个特定的分解避免成本指数的图形在ML,pseudo-likelihood圈完全并行和维护数据ML估计的效率。重叠上都因此模型和数据有效。3。算法描述圈算法操作通过分裂联合pa-参数估计问题分成几个独立的子任务并行可以解决的问题。一旦子-问题已经解决,它结合了解决方案每个子问题成完整的问题提出的解决方案。我们定义其1-neighbourhood固定小团体问马尔可夫随机域的线性和并行学习7包含的所有变量问本身以及变化可以在问至少有一个邻居。重叠上创建一个为每个最大小团体的子问题。最初的问题,定义了一个辅助的MRF变量水乳型细节如何构造辅助磁流变液将讨论后,现在我们假设一个辅助在水基磁流变液,它包含一个小团体。算法1圈输入:磁流变液与最大派系C构造辅助变量水基磁流变液。估计参数^ML的辅助MRF结束参数化的变量在问一样问原来的问题。圈派生参数向量问的问题估计参数在auxiliaryMRF基地使用最大似然参数和阅读集团直接问。算法的步骤总结-算法1的存有。在对数线性模型估计参数向量的最大似然一特的辅助磁流变液的相关衍生品这种方法是数据有效,因为足够的统计数字很容易的预先计算。更多的,结束,数据向量xn可以存储在一个分布式烦恼离子,节点估计auxiliaryMRF只需要-荷兰国际集团(ing)访问sub-vectorxAqn。此外,重叠上自期望E模型有效的。水乳型的变量数量时很容易计算小。为了说明这一点,考虑所示的模型如图1所示。密集的图形,如限制博尔茨-曼机器,列举了成马尔可夫随机域的线性和并行学习8本的指数所有的变量Aq是禁止的。然而,对于其他感兴趣的实际磁流变液,包括晶格和嵌合体。(2011年Denil&deFreitas),这个成本是可以接受的。3.1。建设辅助MRF重叠上的有效性来自于适当的构造-辅助的MRF。如前所述,辅助-iliaryMRF必须包含小团体问,必须支持的联合模型中相同的方式。这从上一小节中需求是明确的,否则算法1的最后一步将是无效的。分析部分中我们将会看到,这是可取的auxiliaryMRF那样接近边缘分布xAq越好。这意味着我们必须包括所有派系从最初的MRFAq子集。-盟友,边缘化可能会引入额外的派系呈现在原始的联合分布。很明显,这些在Aqnq派系可以只涉及变量,但决定他们的确切结构一般是很困难的图1所示。左列显示了几种流行的磁流变液:(一)re-严格的玻耳兹曼机(元),(b)连锁图,2-(c)维伊辛网格,(D)嵌合体334格,和3D(e)马尔可夫随机域的线性和并行学习9伊辛晶格。右边显示的是对应的1-社区组织利益派系的(绿色)。模型(b)(e)有小1-neighborhoods和能有效地学习圈算法。我们考虑三个构造辅助策略磁流变液,这是区分他们如何促使小团体结构Aqn问。这三个策略如下。准确:在这里我们计算数量的确切结构边际分布在基地从最初的问题。我们有选择我们的测试模型的边际真正的很容易计算。密度:对于许多类模型的边际水乳型2.2图2。左:相对误差参数估计相比最大似然圈和pseudo-likelihood44伊辛网格。标准偏差的几个运行。正确的:每个算法——参数估计的方差包括一个完全支持集团对水乳型n问近问的每一个选择(例如,这是在晶格模型)。假设边际al-茂密的变体具有这种结构的方法。这有时会选择最大边际,但避免了要求显式计算其结构。成对地:创造高精确和密集的策略订单方面的辅助MRF。而高阶术语确实存在的边界离散的磁流变液,它是computa-包括他们操马尔可夫随机域的线性和并行学习10作不方便,因为增加许多参数为每个子问题。我们两两的变体使用相同的图结构致密,但这里我们在内只有一元潜力和二进制Aqn问。结果为每个子,节省大量的计算在重叠上的问题,但未能捕捉真正的边际dis-回波在许多情况下(包括问题提出——所有的例子我们考虑问题)。4。实验在本节中,我们描述了一些实验设计表明,一圈估计量有很好