第四讲查询与界面(6章)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第四讲:查询与界面(6章)主讲人:朱征宇联系电话:13452321656Email:zhu_zhengyu@cqu.edu.cn课程名称:智能信息检索2一、信息需求与查询查询界面的重要性尽管索引和排序是搜索引擎的核心但从用户角度看,搜索引擎主要是提供查询输入和查看结果用户不能改变算法工作方式但用户能通过构造查询、浏览结果、重写查询与系统交互交互是信息检索的关键,决定了搜索引擎是否提供有效服务如何看待查询查询能够表达各种完全/截然不同的信息需求,比如通过复杂的布尔表达式/结构化查询(如Galago系统)。(需要不同排序算法和模型来产生最好的排序)-第7章讨论查询仅仅是对信息需求的粗略表达(当需求难以表达时),尤其是用户喜欢用短词,搜索引擎也鼓励输入短查询-本章讨论查询界面研究内容提炼查询的一系列技术(拼写纠错,查询扩展,相关反馈等)---by交互式结果显示的一系列技术(页面摘要,检索结果聚类,文档高亮显示等)最常用的查询形式短查询(2-3个词)。为什么?(原因分析)搜索引擎的查询界面重要?第6章“这是信息检索,不是信息分布。”------JackLint查询能够表达信息需求?查询界面研究什么?常用的查询界面是什么?3不愿使用长查询的原因历史原因过去,搜索引擎是为专家或搜索中介设计的!例子:用户查询描述自然语言描述的一段话,搜索中介特征项和操作描述的查询语言-表达式(p.114)现在原因一些查询语言操作符也可出现在搜索引擎界面上(“”---短语,+---必须包含词)但搜索引擎通常侧重于使用简单关键词查询(自然语言查询),方便普通用户!虽然,一些协作式问答系统(社区问答),查询平均长度30词但当前搜索技术不能很好处理长查询(大多搜索引擎仅能对含有少量查询词的文档排序)搜索引擎采用的排序算法,主要是基于将文本看着词集合的统计学方法而一般不是基于句法和语义特征操作符和语法格式,一般用户难以正确使用,偏向输入短词或短语#4疏于保养未能维持航标浮标助航标志疏忽粗心大意用户查询&搜索中介查询装备5二、查询转换与提炼2.1停用词去除和词干提取查询预处理-停用词本节假设:查询只是简单的文本文本查询最初的处理过程,应该对应于文档的处理步骤查询文本中的词,应转换为文本处理时产生的同样词项之前提到,索引时可不去除停用词,而在查询时处理(允许对含停用词的查询进行搜索,增加了灵活性)可以去除查询中的停用词,也可保留(当使用“”或+操作特别指明时)查询预处理-词干可能文档处理时对词干进行了处理(增加查询灵活性),查询时也应对词干进行处理但一定要采用恰当的词变形来扩展查询,才能获得更好查询效果注意:词干处理有时会影响结果的精确性(如fishvillage,fishingvillage可能是不同短语),词干处理不能仅归为词干,而应基于词干进行扩展!这时,需根据特殊因素做查询决定(如判定词是否是短语的部分)词干提取与词干类别查询也需要处理停用词吗?查询也需处理词干?如何处理词干?渔村6词干提取与词干类别自动提取,在所难免?弥补方法!警察政策7利用词共现区分词干类别82.2拼写检查和改写建议拼写检查的重要性它是查询处理过程中极为重要的部分网络搜索中,10%-15%的查询含有拼写错误!拼写错误的检查方法基本方法:对于在拼写词典中没有的词,就建议(用户)更正它们将没有的词与词典中词进行相似比较,以便提出更正建议词相似度的衡量标准:编辑距离!比如,‘Damerau-Levenshtein距离’---计算转换为同一单词所需最少操作次数Damerau-Levenshtein距离计算更优化的计算方法噪声通道模型为什么要检查拼写?如何检查拼写?如何计算单词距离?距离为一距离为二docerationdecoration:9棉花糖伯明翰更优化的计算方法:Soundex编码E23-522--52E23–52--52E235252E235P--5-6P56P560注意:拼写错误可能有多种校正方式:lawerslowers,lawyers,layers?可:将所有词显示给用户,也可:按照语言出现频率的次序呈现!(更正提示信息可用:didyoumean?)元音辅音10噪声通道模型(用于拼写校正)是一种能够处理更改词排序、上下文和语义连贯等错误的通用结构理论基础:香农(shannon&Weaver,1963)的通信理论(通俗地讲)一个人以概率分布p(w)想要输入词w,但却以概率P(e/w)误输入了词e这里,P(w)---称为语言模型(第7章讲),用来获取词在一个文本中出现频率P(e/w)---称为错误模型,表示在文本中不同类型拼写错误发生的频率一般地,与词w的编辑距离为1的词概率非常高(随距离增大概率依次降低)当然,同音词的概率也很高理论的用途:注意,正确的词也有概率P(w/w).不过,如果最高概率更正的词是(与当前词)相同的词,则不对用户提出更正建议如果,上下文(语言模型)提示了另一词可能更恰当,就对用户提出更正建议并且,可按照校正概率大小排序显示多个可能的更正词建议这就是为何:对“golfcurse”查询,将给出用course替代curse(诅咒)的校正建议校正概率的估计(计算校正概率P(w/e)即错写为e时,正确的是w的概率)Cucerzan和Bill(2004)估计法#如:ultimatwarcade或mainscourcebank,都遗漏了边界“空格”11校正概率的估计基本思路:因某人写的词是e,所以需计算P(w/e)。校正概率!错写为e时,正确的是w的概率简单的估计法:若只想找到具有最大概率的更正词(或对多个词排序),则可计算:P(e/w)*P(w)。---错误概率和语言概率的乘积!更科学的估计法:为能处理语义连贯性方面的错误和上下文,语言模型还需要考虑‘词对’信息比如,一个词的语言模型概率采用:λp(w)+(1-λ)P(w/wp)(这里,p(w)-词出现概率,P(w/wp)-词w在词wp之后出现的概率)例子:对查询输入’fishtink’,虽然,tank和think与tink都有”很高的错误模型概率(编辑距离1)”,并有相似的P(w)但是,P(tank/fish)比P(think/fish)大很多,故tank(贮水池)更可能是校正词!语言模型所需信息的获取方法#乘法公式:P(we)=P(w)*P(e/w)=P(e)*P(w/e)所以:P(w/e)=P(w)*P(e/w)/P(e)因为对不同的w,P(e)值相同故要使P(w/e)最大,只需使P(w)*P(e/w)最大!12语言模型所需信息的获取方法“词对”模型获取途径:---采用能搜集到的文档集合!比如,查询日志(包含了大量提交到搜索引擎的查询)查询日志可能是最好的资源(语言模型需要记录成对的词的信息)与分析一个大规模的文档集合相比,分析查询日志会减少这些词对的数量此外,对于这个应用,如果有一个可信的字典,也应使用该字典“错误模型”概率的估计简单的方法:假定所有具有相同编辑距离(一般取1-2即可)的错误有相等的概率复杂的方法:对一些确定类型的错误发生可能性进行概率估计如对‘想输e输入a’(通过对大规模的文本集中,或查询日志,查找正确拼写和不正确拼写的词对,来估计)13小型的Cucerzan和Bill(2004)估计法142.3查询扩展查询扩展:搜索引擎将用户的初始查询用一个或多个词去扩展,或替换查询中的一些词,并将修改后的查询建议提交给用户,可帮助改善检索效果基本思路通常是基于对指定文档集中词或词项共现的分析(文档集可以是全部文档集、大规模的查询集合、排序结果中最高的部分)查询的词干提取,也可看着是一种查询扩展技术(基于词的变形)采用常规叙词表的自动扩展技术(但效果往往未必好)关键技术有效扩展的关键,是选择适合查询上下文或主题的词汇!例如,对‘tropicalfishtanks’,aquarium(水族馆)是对词tank一个好的扩展对‘armor装甲兵/部队oftank’,aquarium对词tank扩展则不好!另外,直接用叙词表来扩展词未必会有用(因它列出了不同上下文的词,很难自动使用它!),但若结合使用查询中全部词(而非分别地),效果会好很多相关性衡量衡量词项的相关性,是一些查询扩展方法的重要部分!基本方法:戴斯系数(Dice),互信息(MIM),期望互信息(EMIM),x2实验比较(图6-3…图6-5)与评价&改进利用查询日志#什么是查询扩展,需要吗?如何进行查询扩展?查询扩展采用什么技术?几种扩展技术效果如何?15叙词表颈部痛树编号16戴斯系数(Dice’coefficient)法-Dice(P.116)已介绍过:17互信息法(mutualinformationmeasuer)-MIM大小而两种情形的戴斯系数nab/(na+nb)则均为1/4。上式上式上式18期望互信息法(Expectedmutualinformationmeasure)-EMIM变小变大19皮尔森(person)检验法-x2nab20效果比较1:图6-3完全相同,低频词低频词(前面的)常规词注:aquarium未出现!21效果比较2:图6-4仍然是低频词,排序也不同有11个完全相关的词,但排序不同注:aquarium未出现!22效果比较3:图6-5仍然是低频词,但绝大部分已与图6-4不同与图6-4相比,相关性约有改善与图6-4比较,有9个相同词注:aquarium未出现!23实验评价&改进问题:上述表格中(都是仅根据一个单个词计算相关性),最好的排序也几乎未有包含能用作扩展‘tropicalfish’的词一种解决方法:找到与短语‘tropicalfish’(而非单个词)密切相关的词!例如,使用Dice方法在TREC上可找到(更好地与上下文相关的)排前10的词:新问题:需要对查询中每组词分析关联性,不现实(检索时动态分析,太慢)新的解决方法:法1:对查询检索出的文档进行词共现的分析(见下节的伪相关反馈法):法2:根据与指定词共现的其他词的分析:1)对文档集中每个词,用Dice法取得前M(如35)个相关词(如aquarium的相关词),用这些词构成表示该词(aquarium)的虚文档;2)对全部虚文档,按照与正规文档相同的方式,建立倒排索引(一次性预先建好)和排序;3)判定查询的扩展词时,利用上倒排索引,计算哪一词与查询最相关;(aquatium的虚文档以很高的权重包含词tropical和fish,故它对查询‘tropicalfish’应有更高排序)4)这样,该词(aquarium)将是具有更高排序的扩展项(理想的扩展词)。注意:词jungle的虚文档,尽管以很高权重包含词tropical,但不太可能包含词fish,从而排序将低于词aquarium#24利用查询日志的扩展方法查询日志的好处前面指出,不应是整个文档集,而是基于搜索结果或查询日志(更高效,有效)查询日志是短文本,容易分析,且还包含检索过程数据(如用户点击的文档的信息)扩展方法例示分析下面是从一流行网站查询日志获得的含‘tropicalfish’的查询相关的10高频词:这些词指出与‘tropicalfish’相关查询的类型(销售、图片、供应等方面)其中的大部分适合作为查询扩展(针对不同用户类,可能不同)通常,以完整查询的形式给出查询扩展建议(而非仅建议单个扩展查询词)例如,‘tropicalfishsupplies’是比‘suppliestropicalfish’更好的扩展建议发现相似查询上例分析看出,查询扩展能够被看着发现相似查询的问题(而非扩展查询项)特别,相似查询不总是包含相同的词例如,‘petfishsales’也可以看作为对‘tropicalfish’的一个合理的候选扩展语义相似性:查询不仅可以根据词,还可以根据他们具有相关内容的相关文档组合!点

1 / 54
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功