河北大学2008届本科生毕业外文翻译-1-基于贝叶斯的图像检索系统,图像捕食者:理论,实现和实际试验摘要—这篇文章呈现了图像检索的理论,设计原理,实现和图像检索的表现结果,这个基于内容的图像检索的系统的模型在过去的三年里取得了一些进展。除此之外,这个文件还展现了实际试验的原理,构思和结果,这些试验被进行用来尝试解决一些在图像检索的发展中出现的关键问题。这个图像捕食者计划对基于内容的图像捕食者主要有四个贡献。首先,图像捕食者呈现了一个大体的贝叶斯架构被我们用来描述相关反馈来进行搜索的一个简单例子。有了用户要怎么做的明确模型,知道了用户想要的目标图像,图像捕食者根据用户的动作来使用贝叶斯规则来预测出用户想要的目标图像。这个过程通过分析概率分布来进行,而不是通过改善查询。其次,一个最小嫡陈列算法来描述试图把通过每次搜索从用户获得的信息最大最大化。再次,图像捕食者利用隐藏的备注而不是可能不准确的或者用户必须学习和查询的前后矛盾的备注结构。最后,图像捕食者引入了两个实验范例来从数量上评估这个系统的表现,而且实际试验也用来支持这个理论上的论述。索引词---贝叶斯搜索,基于内容的搜索,数字图书馆,图像搜索,相关反馈。I.引言对数字信息,尤其是图像,音乐,视频信息的搜索正在商业和娱乐中的作用变得越来越重要。基于内容的图像捕食者正受到研究人员更加广泛的研究兴趣。这种趋势被快速成长的图像数据库所驱动,而这种结果又反过来对高效率的搜索方案提出更高的要求。一次搜索典型的由一次问询和紧随其后的不断重复的相关反馈组成,在相关反馈中用户留下了对修复结果的词汇的评论。用户的问询提供了对需要图像或者图像类别的一种描述。这种描述可以采用多种形式:它可以是有注释的图像数据库中的一系列关键词,或者对目标图像的大致描述,或者是一个示例图像,或者是代表着例如整体亮度,特定颜色像素百分比等量化特征的数值。不幸的是,用户在说明这些描述的时候经常存在困难,而且电脑程序在理解它们的时候也存在困难。更重要的是,即便用户可以提供一个比较好了初始问询词语,如何去数据库中搜素也是是一个难题。当问询提出之后用户肯能需要补充一些额外的信息,例如哪种寻回的图像是他们的目标,哪种寻回的图像最接近他们的目标。这种相关反馈比起问询的方式更加具有交互性而且交互性更加简单。时至今日,搜索界明显偏重于使用问询词语来找到更好的图像的呈现。在图像建立中对这种趋势的强调过多以致于使得相关反馈被使用的很少甚至不存在,尤其是当需要用户修改他们的问询的时候。在这种情况下,搜索能力就完全依靠从图像中提取特征的质量和用户给出一个比较好了问询词的能力。相关反馈的效果可以比这个好的多。尤其是,用户提供的信息不必使用问询的语言表现出来,但是可能会修改特征的权重或者组建新的特征架构。图像捕食者利用贝叶斯的方法把这种思想发扬光大,把用户目标的不确定性用可能的目标上的概率分布呈现出来。这种利用贝叶斯的方法来解决问题被Coxetal倡导。在有着一个明确的用户行动的模型时候,假设一个可能的目标,图像捕食者根据用户的动作来利用贝叶斯的规则来预测目标图像。所以搜索问题就被转化为预测用户的问题。第四部分将描述怎样得到这种预测模型。利用CBIR来搜索的一个阻碍就是缺少对搜索算法表现的一个定量的比较。典型的,有关搜索的长度的统计数据要被提出,例如,在基本让人满意的与目标图像相似的图像被找到之前被访问的图像的数量。这里“相似”这个词语的使用应该引起人们的深思,很明显,搜索长度依赖于数据库的内容结构和对把一个图像认为是相似的标准的定义有多么的严河北大学2008届本科生毕业外文翻译-2-格。在这篇文章中,搜索可以被分为三个大类。1)限定目标搜索或者简单的说目标搜索:用户被要求在数据库中找到特定的图像,除此之外的任何图像都不能使得搜索终止,无论搜索到的结果与目标图像多么的相似。这种类型的搜索在检测领域很有价值,例如可以用来检查一个特定的图标是否已经被注册,或者寻找一个特定的历史图片来匹配一个文档,或者寻找一个文章和标题都被搜索着忘记的一个作品。2)目录搜索:用户搜索一个属于一个特定的类别的图像,例如,“狗,”“小鸡,”“摩天大厦,”或者“篮球比赛的场景”;某种情况下,当一个用户被要求去寻找一个跟目标图像足够相似的图像时,用户会采用目录搜索。3)开关搜索—浏览搜索:用户搜索一个专门的数据库的时候头脑中的目标非常广泛和普通。在一个典型的应用中,一个用户可能最初想搜索一个贴在壁纸上的柔和的几何图形,但是在搜索的过程中,当用户搜索数据库的时候,目标可能会几经改变。上面提到的贝叶斯的方法可以适应上述三种搜索策略。我们主要把焦点放在目标搜索,原因将在第五部分说明。有一个可预见的模型的另一个优势是我们可以模拟这个模型来评估你个特定形式的交互会有多么的有效,进而设计出最佳的交互方案。在第七部分,我们描述了一个基于最小嫡原则的新奇的陈列算法。并对这个算法进行了模拟和实际的评估。使用语义信息对在大的数据库里搜索图像有着极大的帮助。然而,现行的计算机版本的现状并不允许语义信息那么容易,自动的提取。因此,在许多的应用中,图像数据库中同样包含着文本注释。注释的文本能描述每个图像的一些语义信息。然而,基于文本搜索的有注释的图像数据库已经被证明存在诸多问题,包括用户对专业词汇的陌生和它对单一语言的严格。第六部分将在更多的细节上来探讨这个问题。这篇文章展现了信息检索的综述,信息检索是使用一个可适应的贝叶斯方案的图像搜索系统,他在1996年第一次被发现,随后又不断的被提升到现在。我们提出了一个概念连续的并且可高度表达的架构来解决图像捕食者的问题,并且用一个简单的系统和仔细的实地试验验证了这个架构。第二部分描述了图像捕食者的理论基础并给出了必要的贝叶斯升级规则。为了执行这个理论架构,有必要制定一个用户界面和一个用户的模型。这些在第三部分和第四部分进行了描述。同样在第四部分被报告的实际试验支持这用户模型。为了评估相关反馈的效率和其他一些执行问题,我们引入了两个实验,这在第五部分进行了描述。我们同样给出了评估有无相关反馈情况下的图像检测系统表现的实验结果。然后,在第六部分,我们描述了注释如何可以在隐藏在用户之外的情况下仍然可以提供有价值的语义信息来加快搜索进程。通常,陈列给用户的找到的图像是当前匹配中最接近的结果。然而,这样的方案从搜索前景考虑并不理想。在第七部分,我们描述了陈列出来的试图最大化从用户每次重复的搜索中提取的信息的策略。理论和实际的研究表明了信息最大化方法的有用性。最后,第八部分描述了图像捕食者模型可能的扩展,第四部分描述了未来搜索前景的细节,第五部分了讨论图像捕食者对CBIR的贡献和其他更加广泛的问题贝叶斯方程在每次图像捕食者的方程替换中,t=1,2…..这个程序从它的数据库中陈列出一系列Dt图像,用户则搜索At图像作为回应,这个过程在系统的监控之下进行。为方便起见,这部分的字符t用Ht来替换,并包括{D1,A1,D2,A2,…Dt,At}。数据库中的图像被命名为T1,…,Tn,然后图像捕食者用概率的方法把每一个作为假定的目标。当迭代结束之后,图像捕食者系统评估图像数据库中的图像Ti是用户的目标图河北大学2008届本科生毕业外文翻译-3-像T的概率,根据历史,把最符合的记作P(T=Ti‖Ht).系统把优先评估的对象记作P(T=Ti)。这次的迭代结束之后,程序会选择另一组的Dt+1来陈列。这是做出最相似选择的最权威的策略,但是其他的可能策略将会在接下来的文中讨论。只要它是确定的,采用的某一个特定的方法跟我们用贝叶斯的方法对P(T=Ti‖Ht)进行立即的计算是不相关的。根据贝叶斯规则,我们可以得到公式就是说,根据观测历史,Ti是目标图像的后验概率口蹄疫通过计算P得出,在事实上将目标图像假设成Ti的情况下。这里的P(T=Ti代表着一个先验概率。对P的权威处理是将P分配至每一幅图像,但是一个可以使用其他的开始功能来处理这些早期的结果。这个图像捕食者图像系统可以递增的从P(T=Ti‖Ht-1)来求出P(T=Ti\Ht),依据是下面的那个公式,在这个公式中我们可以把P(At\T=Ti,Dt,Ht-1)记作P(Dt,At\T=Ti,Ht-1),因为Dt是Ht-1的一个确定的函数。贝叶斯方法核心是字符P(At/T=Ti,Dt,Ht-1),我们把这个字符用作用户模型,因为它的目标是预测在给定了整个历史Dt,Ht-1并假设Ti就是他/她的目标的时候用户会做些什么。用户模型优先地把整个的时间空间T×Ht给出概率分布,其中T表示图像的数据库,Ht表示一系列可能的历史结果D1,A1,。。。,Dt,At。在我们的捕图者范例的实际体验中使用的特殊的用户模型在第四部分被描述。应该注意到用户模型的预测受限于Ti图像和所有到此为止已经被显示的图像。这就意味着这种模型可以自由地以不成熟的方式(例如像素点)来检查图像,或者依赖任何额外的被提到的信息。在实际操作中这个模型不直接检测像素点而是依赖一些附属的特征因素或者其他隐藏的特征,着将在下文提到。若以Nd来表示每次方程中的图像的数量,我们的实验假设为2的Nd次方+Nd+1的可能空间,这个空间与用户的陈列图像的选择自己相对应,或者她/他的迹象表明Nd的其中一个就是目标图像,或者是各自的对应的“中断”信号。但是在我们的架构中有着许多的可表达的动作集合。这样,我们工作的一个内容就把概念上的图像搜索问题的减少变成了三个具体任务:1,设计一个用户可能行为的空间,2,构造一个用户模型,3,选择一个图像显示策略。河北大学2008届本科生毕业外文翻译-4-我们的执行做了额外的使之简化的假设,假设用户有着模型P(At/T=Ti,Dt),例如,用户的行为时是不变的。应该注意到,然而,作为我们贝叶斯方程的结果,即使这种最简单的是不变模型都会使得图像捕食者以在搜索最开始的时候就体现所有用户行为的方式来升级它的可能性评估。除了是不变的用户,我们实验的模型是充分地开发了贝叶斯方程的模型并且根据整个历史来调整数据。为保持增量估值的可能性,我们引入了写有状态和升级方程的用户模型的概念,这个模型以某种初始状态S0开始,当观察到动作At时候,这个模型就会升级它的St-1来产生状态St。注意到我们认为状态的结构式不可变的。但是从它的效率考虑,有必要来把它设计得简单有效的。然而,方程一是以一种完全通用的方式来表达图像捕食者的升级,它从陈述无关重要又连续的时不变的模型里面扫描了整个频谱,通过携带少量陈述的模型来生成P,在p中状态St就是Ht并且不受限制的成长。找到有效的有表述模型对在图像捕食者的架构上的未来工作是一个很有趣的机会,我们认为陈述可以用来特征相关度,用户类型(专家还是初学者),通用模型类型(颜色还是文本)和其他方面的评估。三用户交互界面图像捕食者使用一种简单的用户界面,这种界面搜索目标时需要对用户进行最小的训练。CBIR系统的原理最终应该是被万维网的普通用户用作图像捕食者的工具,加强对他们的使用应该是容易而且自明的。用户在每次重复的搜索中产生了相关反馈。用户交互界面和用户模型是以图像中的相似相关判定为基础的,例如,“这些图像比起其他图像跟目标图像更加相似”。如果所有图像都与目标图像不相似,那用户就不能作出选择。许多的系统使用目录反馈来代替,在目录反馈中用户只能选择在相同目录下的图像作为目标。然而,这加重了用户的负担来在一个可能不熟悉的数据库中决定一个有用的图像目录,并且比起目标搜索好像更加适合目录搜索。用户界面在图像一中展示了出来。它包含了Nd图像中的一小部分;在这个特地地执行时Nd=9.最初的显示由数据显示算法决定。目标图像总是展现在这些陈列的图像当中,来避免由于存储问题导致的可能的冲突。当然,目标图像也可以以传统的打印图像的格式来呈现,但是在好多情况下,CBIR系统并不知道哪一个是目标图像。用户通过用鼠标点击图像来不选择或者选择多个与想要的目标图像相似的图像。如果用户想要改变他们的选择,他们可以通过用鼠标再次点击图像来取消他们的选择;鼠标的点击有选择或者取消选择图像的功能。