TOC2020/1/201第6章查询与用户接口如何向信息检索系统提交查询?如何针对内容、结构提交查询?如何针对文本、多媒体数据提交查询?如何针对用户的初始查询可能不确切、查询要求缺乏明确的范围和语义的问题?TOC2020/1/202第6章查询与用户接口本章的主要内容:常用的查询方式通过交互来实现相关反馈和查询扩展用户接口中涉及到的其它问题TOC2020/1/203第6章本章内容6.1查询接口设计中的问题6.2查询方式6.3查询中的交互反馈6.4用户接口6.5小结TOC2020/1/2046.1查询接口设计中的问题一、信息存取的一般过程从信息需求开始;选择操作的系统和文档集;形成一个查询;把查询提交给系统;*获得搜索到的返回结果;查看、评价和理解结果;结果是否满意?如果满意,则停止;否则继续;重新形成查询,并回到(*)。TOC2020/1/2056.1查询接口设计中的问题二、查询接口设计中的问题查询方式–有哪些查询类型?–用户向系统提交的查询类型依赖于系统采用的是哪种检索模型。–例如,全文检索系统采用的查询方式就会与基于关键词排序、超媒体模型和多媒体内容模型的查询方式不同。TOC2020/1/2066.1查询接口设计中的问题二、查询接口设计中的问题查询中的交互性–信息检索是一个交互的过程–检索系统应该提供查询的反馈,以便用户能够及时了解查询的效果,为下次查询的形成提供参考TOC2020/1/2076.1查询接口设计中的问题二、查询接口设计中的问题用户接口–用户如何提交查询?–查询结果如何表现,使得用户容易观察到相关结果?–用户查询接口的简易性和检索能力的矛盾–记录用户查询的过程–对于多媒体数据来说,要求查询接口能够提交视听查询TOC2020/1/2086.2查询方式基于关键词的查询模式匹配结构查询基于内容的查询TOC2020/1/2096.2.1基于关键词的查询一、单词查询指针对单个词的查询,是信息检索系统的基本查询形式查询的结果是包含有指定词的文档子集,并根据与查询的相似度排序。有一些系统只允许对文档集中抽取的单词集进行搜索,而有一些系统允许全文搜索。TOC2020/1/20106.2.1基于关键词的查询二、上下文查询什么是上下文?–用多个词来构造一个查询,以缩小查询的范围,增加查询的上下文联系上下文原则–对于计算与多个词表达的查询之间的相似性来说,相近出现的词所表达的相似性,要比分离得较远的词所表达的相似性高TOC2020/1/20116.2.1基于关键词的查询二、上下文查询上下文查询的实现–“词组查询”(或称为短语查询)»由一系列单词查询组成,多个词形成一组词,由此来匹配文本中与其相近的一组词。–“近似查询”»用户给出多个词,同时给定词与词之间最大允许的距离–可以要求查询结果中的词与查询中的词出现的顺序一致,或不必一致TOC2020/1/20126.2.1基于关键词的查询二、上下文查询示例:–用户提交的查询词:“红色”和“汽车”,目的是查询包含“红色汽车”的文档。–但是,可能文档中包含“…红色的汽车…”或“…红色奔驰汽车…”,它们也是用户感兴趣的文档。–前者可以用词组(短语)查询来实现匹配,因为可以忽略短语(在被匹配的文本内)中的非用词“的”。–后者需要近似查询来实现匹配TOC2020/1/20136.2.1基于关键词的查询三、布尔查询利用布尔操作符及其语法来组合基本的查询一个操作符可以作用于其它操作符的结果之上,由此可以定义一个查询语法树–叶节点对应于基本查询–内部节点对应于操作符TOC2020/1/20146.2.1基于关键词的查询三、布尔查询ANDOR计算机通信网络查询语法树的例子TOC2020/1/20156.2.1基于关键词的查询三、布尔查询给定两个基本查询或布尔子表达式e1和e2,最常使用的操作符是:–OR。查询(e1ORe2)选择所有满足e1或e2的文档,重复的部分去掉;–AND。查询(e1ANDe2)选择所有同时满足e1和e2的文档;–BUT。查询(e1BUTe2)选择所有满足e1但不满足e2的文档。TOC2020/1/20166.2.1基于关键词的查询三、布尔查询问题–没有受过数学训练的用户难以掌握布尔操作符的含义。–布尔查询说明中的一个问题是基本语法的误导。–人们常常理解的是常识中的“and”和“or”语义,而不是逻辑操作的AND和OR。TOC2020/1/20176.2.1基于关键词的查询四、自然语言把布尔模型模糊化,不特别强调AND和OR的结果,这样查询变成了枚举多词查询和上下文查询所有能匹配部分用户查询的文档都被检索出来。匹配得越多,排序的等级就越高在这种方案中,我们已经完全不用布尔操作,采取自然语言查询的思想TOC2020/1/20186.2.1基于关键词的查询四、自然语言可以把布尔查询看成是自然语言查询的简化和抽象实现方法–在用户提交一段自然语言的输入句子以后,把句子中的非用词去掉,留下主干词。–于是,把自然语言看成是一组词,然后利用这些词进行查询。–具体的查询实施可以利用词组查询或词组近似查询。TOC2020/1/20196.2.1基于关键词的查询四、自然语言有些系统还可以对自然语言做进一步的处理和分析,从中抽取一些概念,并用于匹配文档中的概念。–例如,从自然语言中可以抽取提问关键词,例如“谁…”、“什么时候…”、“什么地方…”等–搜索出与这些词相关的人物、时间和地点TOC2020/1/20206.2.2模式匹配对具有某种特性(模式)的文本片段进行检索模式匹配:从文本段中,搜索出与指定模式特征匹配的模式。模式匹配的结果(检索出来的词)可以用于构造词组查询和近似查询,构成我们前面所说的基础查询。TOC2020/1/20216.2.2模式匹配什么是模式?–模式是一组语法特征,它出现在文本段中–词模式。文本中的一个词(字符串),这是最基本的模式。–前缀模式。一个串,位于词的开始部分,例如给定前缀“comput”,所有包含如“computer”,“computation”,“computing”词的文档都被检索出来。–后缀模式。一个串,位于词的结尾部分,例如给定后缀“ters”,所有包含如“computers”,“testers”,“painters”等词的文档都被检索出来。TOC2020/1/20226.2.2模式匹配什么是模式?–子串模式。一个可能在文本词中出现的串,例如给定子串“tal”,所有包含如“coastal”,“talk”,“metallic”等的词都被检索出来。–区间模式。用一对串表示区间模式,可以用于匹配在词典顺序上位于其间的任何词。比如,由“held”和“hold”构成的区间模式包含“hoax”和“hissing”串–允许误差模式。用一个词和误差阈值表示。这种模式能够检索出所有与给定词“相似”的词(在允许的误差范围之内)。因为键入、拼写或字符识别软件等原因,文本可能有错,由此出现差错变体。查询应该能够检索出给定词和它的差错变体词。TOC2020/1/20236.2.2模式匹配什么是模式?–模式表达式。一个模式表达式是由简单串和操作符(并置、串联、重复等)组成,是用于匹配的一般模式。例如,“pro(blem|tein)”模式表达式(其中|代表“并置”操作符)将匹配“problem”和“protein”这样的词。–其它模式。使用更加友好方便的形式表达一些通用的模式,包括大小写敏感(或不敏感)的匹配模式、通配符模式、部分准确匹配、部分允许误差匹配模式、条件匹配模式等。TOC2020/1/20246.2.3结构查询文档除了内容之外,另一种重要信息线索是包含在其结构中结构查询–固定结构查询–超媒体结构查询–层次结构查询TOC2020/1/20256.2.3结构查询固定结构超媒体结构层次结构三种主要的文档结构TOC2020/1/20266.2.3结构查询固定结构查询–文档具有一组固定的域,就象一种表格。每个域都包含文本或其它对象。–例如,一个邮件文档可以看成是邮件的集合,其中每个邮件有发送者、接收者、日期、标题、信体域。–用户于是可以针对这些域来进行搜索。–例如,搜索那些发给特定人的、在标题域中含有“照片”的邮件。TOC2020/1/20276.2.3结构查询超媒体结构查询–早期,超媒体检索只是一个导航性的活动。就是说,用户必须沿着链,人工遍历超媒体节点,搜索到想要的内容。–可以在Web上把浏览和搜索能力综合起来。例如在常规浏览中,增加搜索当前节点的邻节点的功能,这里用到了节点与邻节点之间的链。TOC2020/1/20286.2.3结构查询层次结构查询–层次结构可以用链表模型或树模型来表示–超媒体结构中就包含有层次结构–层次结构可以看成是超媒体结构的简化(去掉了交叉引用链,留下层次结构链)–根源查询。这种查询主要应用到层次结构中,查询一个节点的归属,例如这幅图像属于哪章,哪本书?如果层次结构是一个分类树,那么就可以查询出一个节点的父类是什么。TOC2020/1/20296.2.3结构查询层次结构查询–关联查询。查询出与该节点相连的所有节点,这可以是该节点与邻接节点的链接关系,有些链是表示语义关系,有些链是表示时空关系。–包含(被包含)查询。查询一个节点(页面、文档)包含哪些节点,例如一个章节包含哪些部分,一个概念由哪些子概念组成,等等。反过来,又可以查询被包含的关系。–跟随(被跟随)查询。根据引用链的方向性来进行查询,由此可以查询出跟随和被跟随的结构关系。TOC2020/1/20306.2.4基于内容的查询对于多媒体来说,常用“基于内容”的查询和检索这个概念。实际上,文本信息检索也是针对文本内容的,只是“基于内容”这个术语已经习惯用于多媒体信息检索当中TOC2020/1/20316.2.4基于内容的查询一般属性查询–产生信息。表示产生、类别和其它相关资料的信息,例如产生信息有标题(文本的或图标形式的)、文本注释、创建信息(创建者、创建地点、日期)等;类别信息可以是按照风格、主题、目的、语言等方式分类的信息。–使用信息。是关于多媒体使用方面的信息,例如使用权限、可用性、使用纪录、费用等。这些信息可能会动态改变。–媒体描述信息。是有关存储媒体的信息,包括压缩、编码、存储格式等。TOC2020/1/20326.2.4基于内容的查询感知特征查询–视听特征:是颜色、纹理、形状、运动,以及听觉特征等。–全局特征:这些查询可以是针对全局的,例如针对整幅图像–局部特征:也可以是针对局部区域或对象的,例如视频对象或图像区域TOC2020/1/20336.2.4基于内容的查询时空结构查询–视听数据的时间结构、空间结构和时空结构信息–图象对象的空间位置;–视频帧、镜头、场景的时间结构;–视频中视频对象的时空结构等TOC2020/1/20346.2.4基于内容的查询概念查询–视听内容表达的概念进行查询–语义表示的是多媒体的高层抽象概念TOC2020/1/20356.2.4基于内容的查询浏览和其它存取方式等–基于内容的浏览:而不是常规的线性浏览–分解模型和媒体变体:在多媒体内容的“分解模型”和“媒体变体”表示的支持下,我们还可以进行许多新的信息查询和存取。»例如,对图象进行多分辨率的存取和渐进的查询。»概要、摘要、比例缩放、压缩、不同分辨率版本、不同语言版本、不同模态(文本、语言、图形等)版本都可以看成是视听内容的变体。TOC2020/1/20366.3查询中的交互反馈查询中的反馈问题:–第一次查询是作为一次初步的尝试–用户检查检出的文档,指定哪些是相关的文档–构造出新的或改进的查询表达式–再次进行尝试查询重构的两个基本步骤:–利用新的项来扩展原查询–在扩展的查询中重新分配项的权重TOC2020/1/20376.3查询中的交互反馈查询扩展和重新分配权重的三个策略–利用用户的相关反馈»基于用户的反馈信息–利用聚类算法,自动进行查询的调整»基于返回文档子集的信息»基于文档集的全局信息TOC2020