个性化元搜索引擎的研究与设计摘要随着元搜索引擎越来越得到注视,原有的元搜索引擎的功能已经无法充分满足用户的需求了。各行各业的用户在搜索时,都想在搜索结果完成时,能够得到更多的和自己专业有关的搜索结果,而不是在成千上万的搜索结果中不停的手动的寻找自己想要的结果。个性化元搜索系统由此应运而生。本文针对个性化元搜索引擎的工作原理和关键技术的研究,并在此基础上设计并实现了一个个性化元搜索系统。不同的用户可以通过搜索关键字的设置、主题的选择、结果显示方式的选择,对搜索方式加以设定。当用户输入搜索关键字时,系统将对用户选择的搜索引擎发出搜索请求,然后再将搜索结果经过处理后,按照用户选择的结果显示方式返回给用户。这样,避免了用户获得大量与自己感兴趣的主题无关的结果,从而提高了用户的检索效率。关键词:信息检索,元搜索引擎,个性化ABSTRACTAsthemeta-searchenginestobefocusedmoreandmore,normalmeta-searchenginealreadycouldn’tbesatisfiedwiththeneedofuser.Whilesearching,allkindsofuserrespecttogetmoreresultswhicharerelevanttotheirspeciality.Theydon’twanttofindtheinformationbymanualwork.Thepersonalizedmeta-searchenginecomesintobeingnaturally.Workingtheoryandcriticaltechnologyisanalyzedinthepaper.Basedontheresearch,apersonalizedmeta-searchsystemisdesignedandrealized.Differentusersetsearchingmodeaccordingtothefollowing:setsearchingkeys,selecttopicandthestylesoftheresults.Aftertheuserenteringthekeys,thesystemwillsendoutasearchingrequesttothemembersearchengines.Thenthesystemwillreceivetheresultfromtheserver.Next,systemreturnstheresulttotheuserwithsomestyleafterprocessingtheresult.Sotheuseravoidsacquiringsomuchresultwhichirrelevanttotheirdemands.Theefficiencyofsearchingisraised.Keywords:Informationretrieval,meta-searchengine,personalized目录1引言1.1课题背景随着Internet以及相关技术的发展和成熟,人们已经进入了信息量极大丰富的时代。自从1991的Internet诞生以来[1],它已经发展成为拥有约上亿用户和几千万个站点、十几亿个网页的巨大分布式信息空间,而且这数字仍以每四个月以第六个月翻一番的速度迅猛增长。由InternetDomainSurvey统计,从1996年到2001年,Internet上的主机数量从两千万增长到一亿四千万。Internet作为一个信息平台在人们的生活和工作中发挥越来越重要的作用,人们越来越多地通过Internet获取信息。然而在信息极大丰富的同时,用户也面临着信息过载和资源迷向的问题。Internet上的信息过于庞杂,而且具有不稳定和变动快的特点,没有也不可能有一个权威机构能对这些信息进行全面的整理和归类,因此,往往用户面对五花八门、扑面而来的各种信息显得无所适从,不知道如何去获取自己需要的内容。如何在浩瀚如海的信息空间里,快速查找并获取所需的信息己成为信息时代最根本的问题之一。网络搜索引擎在网络信息资源检索中起到了重要的作用,它可以帮助用户从数以亿计的网络信息库中找到自己所需要的信息。搜索引擎是Internet上的一种在线服务方式,是一种用于帮助用户查询网络信息的检索工具。它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,然后为用户提供检索服务,从而起到了信息导航的目的。然而,任何一个搜索引擎都不可能100%覆盖网上信息资源,即使一些著名品牌的搜索引擎的信息覆盖率也很少有超过45%[2];同时,不同搜索引擎的检索结果的重复率仅仅在30%左右。因而一个搜索引擎通常不能找到用户需要的所有信息,用户在进行检索时需要在多个搜索引擎之间进行切换,在多个检索结果列表之中挑选对自己有用的内容。另外网络用户对搜索引擎不满意的地方还集中在搜索速度慢、无效太多,重复或不相关的信息较多,搜索结果不具有个性化不能因人而异的问题上。出于以上原因,一个能集成不同搜索引擎检索结果非常适合于人们使用的个性化的检索工具——智能元搜索引擎出现了。1.2研究的目的和意义因特网上的信息浩如烟海,优劣混杂,缺乏统一的组织和管理,给人们有效地查询和利用信息带来了很大的不便,搜索引擎就是为了开发和利用这些网络信息资源而产生的网络信息查询工具,它己经成为因特网中最重要的部分,是目前网络用户获取网上丰富信息资源的一个重要途径,但传统的独立搜索引擎存在着信息资源覆盖率低、检索效率较低等问题。因为任何一个独立的搜索引擎都无法穷尽所有的Web信息资源,而且对于同一个查询请求,不同的搜索引擎因其工作机制不同,得到的结果中重复率也较低。因此在很多情况下人们为了获得更高的查全率,需要同时使用具有不同数据搜索范围的搜索引擎,这就增长加了检索的不便,元搜索引擎就是在这种情况下诞生并发展起来的。现在己经出现了一大批元搜索引擎,其中以英文元搜索引擎较多,发展较好,而中文搜索引擎发展缓慢。目前运营的元搜索引擎各具特色,功能各有侧重,完全“理想”的尚不多见。另外很多主流的搜索引擎提供的服务没有考虑每个个体用户的需求,没有考虑用户的差异。本文就是要在研究现有元搜索引擎存在的局限性的基础上,设计出一个结构较合理,功能较优越,同时能够融合很多相关领域技术,体现个性查询的元搜索引擎结构模型,为查询效率更高的检索工具的早日实现做出贡献。1.3国内外现状1.3.1搜索引擎搜索引擎是指能够自动地对资源进行分析处理,并通过查询为用户返回匹配资源的系统。它一般是Internet上的一个网站,它的主要任务是将互连网资源存储于可供查询的大型数据库中。当用户输入关键字查询时,搜索引擎依据此关键子在索引数据库中查找相关信息,若索引数据库中有这方面的信息,则将信息反馈给用户;若没有则调用搜索方法进行搜索,并在一定时间界限内向用户反馈信息。搜索引擎的工作机制从搜索引擎的定义(AwebrobotisaprogramthattraversestheWeb'shypertextstructurebyretrievingadocument,andrecursivelyretrievingalldocumentsthatarereferenced)[3]来看,一般搜索引擎主要由网络蜘蛛、索引与检索三大模块构成。网络蜘蛛是一个可以浏览网页的程序,它会定期地自动地在网上漫游,首先打开一个网页,然后再通过网页上的链接去浏览其他不同的网页,如此往复。索引网络蜘蛛将遍历得到的页面和地址存放在网页数据库中。为了提高检索的效率,需要建立索引。对于英文搜索引擎,由于是以单词为语言的基本单位,因此一般建立索引采用的都是词表法,即首先建立一个词表,然后将对应单词的出现位置记录下来,而检索的时候,就是以这些词语作为检索入口,并通过位置匹配可以实现多个词语的组合检索。但对于中文搜索引擎来说,由于语言的基本单位是汉字,在最底层往往采用的是字表法。和词表法相似,先建立一个汉字字表,然后对于网页中出现的汉字均记录在相应的字表项内,当检索的时候,采取字索引之间的位置匹配完成词语的检索,为了提高检索速度,一般还会在字索引的基础上建立一些词索引,有的是根据用户的提问动态生成已检索词的词索引,有的则是建立一个常用词表,然后生成这些词的索引。另外,无论是中文系统还是英文系统都还会建立一个停用词表,以提高检索效率。检索该软件用来筛选索引中无数的网页信息,挑出符合查询要求的网页并将它们分级排序,与查询关键字关联越大的排得越前,然后将分级排序后的结果显示给查询用户。1.3.2元搜索引擎元搜索引擎是将现有的多个搜索引擎看成一个整体,为用户提供一个统一的查询界面,用户的查询请求由元搜索引擎根据知识库中的信息,转换为多个搜索引擎所能识别的格式,然后分别发送给各个调用的搜索引擎,由这些搜索引擎完成实际的信息检索,最后元搜索引擎再把从各个搜索引擎返回的结果收集起来,进行比较分析,合并冗余信息,去除重复信息,以一定的格式返回给用户。一般元搜索引擎技术主要有三部分构成[4]:查询请求机制、检索接口代理机制、检索结果处理机制。查询请求机制:实现用户的个性化检索设置的要求、成员搜索引擎的调度方案、检索时间的限制、返回结果量的限制;检索接口代理机制:实现将用户的个性化查询请求转化为可被成员搜索引擎识别的固定格式;检索结果处理机制:实现把调用的成员搜索引擎检索到的结果去重、合并、排序和按一定的格式返回给用户。1.3.3元搜索引擎的分类元搜索引擎是一种基于搜索引擎的搜索引擎,又称为多元搜索引擎或集合式搜索引擎。它可以把多个搜索引擎集合在一起,提供一个统一的检索界面,将查询表达式同时提交给多个搜索引擎,并行检索多个数据库,再对返回的结果进行去重、排序等二次加工后向用户输出搜索结果。元搜索引擎根据不同的标准可以划分为不同的类型[5]。根据检索机制可以划分为集中罗列式元搜索引擎和统一入口式元搜索引擎,以下对这两种类型的元搜索引擎作详细介绍。集中罗列式元搜索引擎集中罗列式元搜索引擎按照一定的形式将所有的独立搜索引擎集中呈现在页面上,并提供了一个公共的检索入口,但实际上用户一次只进入一个独立搜索引擎。这种类型元搜索引擎的结果反馈页面多直接引用原始搜索引擎的结果页面。从表面上看,这类元搜索引擎与独立搜索引擎具有更多的相似点,它们的特点是:一次检索一个搜索引擎。检索结果直接调用原始独立搜索引擎的结果页面。只支持原始独立搜索引擎支持的检索语法统一入口式元搜索引擎统一入口式元搜索引擎为收录的独立搜索引擎建立了一个公共查询入口,用户发出检索请求后,提问表达式被分别提交给多个独立搜索引擎,最终反馈的结果是多个独立搜索引擎查询结果的融合。根据结果显示的不同,这类元搜索引擎又可以分为直接调用原始页面型、混合综合型和分散综合型。直接调用原始页面型元搜索引擎,检索结果直接来自原始搜索引擎站点的结果页面。混合综合型元搜索引擎,将各个独立搜索引擎中查找的结果进行融合,结果显示以记录为单位,记录描述包括该记录被检出的来源。分散综合型元搜索引擎,这种类型与混合综合型元搜索引擎在结果显示上有所不同,它以独立搜索引擎为单位进行结果显示,在同一个独立搜索引擎得到的结果被集中列在该搜索引擎之下。1.3.4元搜索引擎的性能评价指标体系作为一种搜索引擎,元搜索引擎也有搜索引擎的一些基本指标,如查全率、查准率、召回率、响应速度、响应时间、用户负担等。但是元搜索引擎个体差异很大,很难进行精确的评价。元搜索引擎性能评价指标体系主要包含四个部分[6]:独立搜索引擎的调度策略有些元搜索引擎固定地调用几个独立搜索引擎,用户不能修改。有些元搜索引擎的高级特性中让用户选择调用哪些搜索引擎。这两种策略都有不足之处,前一种将跟不上搜索引擎的发展潮流。后一种,对于不熟悉搜索引擎的用户来说可能选择不到适合自己需要的搜索引擎。一些学者提出了通过遗传算法实现独立搜索引擎的自动调度方法。这种算法如能融入到元搜索引擎系统中,必会大大提高系统的