搜索技术在人工智能领域的实际应用摘要:介绍了搜索引擎的分类、工作原理,并具体分析了搜索引擎的体系结构,包括信息的搜集系统、索引系统以及查询接口。基于现在人工智能技术的迅速发展,对于在搜索引擎中运用的人工智能技术进行了研究,且着重分析了搜索引擎重要模块:Robot的智能化、智能代理技术以及查询接口的智能化,有力地描述了搜索引擎发展的智能化方向与方法,对智能型搜索引擎所面临的挑战以及未来发展进行了展望。关键字:人工智能;搜索技术;应用;ThepracticalapplicationofsearchtechnologyinartificialintelligencefieldLiaoYongqi(institutionofMechanicalEngineeringandshanghaiinstitutionoftechnologyandshanghai)Abstracts:Theclassificationandoperatingprinciplesofthesearchengineareintroducedinthispaper,anditssystematicstructureisanalyzedconcretely,includingthesystemsofcollectionandindexandtheinputofinquiries.TheapplicationofArtificialIntelligence(AI)technologytosearchengineisstudied,especiallytheintelligentizationoftheimportantmodulesofthesearchenginesuchasRobot,agents,andtheinputofinquires,andthedirectionandmeansoftheintelligentizationaredescribed.Thefuturedevelopmentoftheintelligentsearchengineandthechallengesarealsodiscussed.KeyWords:Artificialintelligence;searchtechnology;application;0引言随着Internet的发展,网络已经是信息发布和传输的重要方式,Web已经发展成为拥有几亿页面的分布式信息空间,而且仍以每120~240d翻一倍的速度增加。虽然Internet上蕴藏着巨大的信息资源,但是要从这个信息海洋中准确快速地找到并获得自己所需的信息,往往比较困难。为了解决这个问题,人们开发了各种检索工具,以期望能提供这种信息服务。随着各种技术的日渐成熟,网络搜索引擎开始迅速发展起来。网络搜索引擎是以一定的策略在互联网中搜集和发现信息,并对信息进行理解、提取、组织和处理,为用户提供检索服务,从而起到信息导航的作用。1搜索引擎技术1.1搜索引擎的分类1.1.1目录式搜索引擎目录式搜索引擎的特点是以人工方式或半自动方式搜集信息,编辑人员在访问了某个Web站点后形成信息摘要,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描述放在这个类别中,当用户查询某个关键词时,搜索软件只在这些描述中进行搜索。很多目录也接受用户提交的网站和描述,当目录的编辑人员认可该网站及描述后,就会将之添加到合适的类别中。目录式搜索引擎的优点是信息准确、导航质量高。以Yahoo为主要代表。这类搜索引擎的缺点也是显而易见的,由于人工的介入,使得费用增加,而且维护量大、信息量少、信息更新不及时。1.1.2基于Robot的搜索引擎这类搜索引擎的特点是由一个称为Robot(也叫做Spider、WebCrawler或WebWanderer)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引系统为搜集到的信息建立索引,由查询接口根据用户的查询输入检索索引库,并将查询结果返回给用户。它的一个重要特征是,搜索引擎要定期访问大多数以前搜集的网页,刷新索引,以反映出网页的更新情况,去除一些死链接,网页的部分内容和变化情况将会反映到用户查询的结果中。基于Robot的搜索引擎的优点是信息量大、更新及时、毋需人工干预。现在的许多搜索引擎都属于此类,例如Google,AltaVista等。它的缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。1.1.3Meta搜索引擎Meta搜索引擎也叫做元搜索引擎(MultipleSearchEngine),它的特点是本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其它搜索引擎能够接受的命令格式,并行地访问数个搜索引擎来查询这个关键词,并把搜索引擎返回的结果进行重复排除、重新排序等处理后再返回给用户。在目前所存在的搜索引擎中,没有一个搜索引擎能够覆盖所有的资源,大部分的搜索引擎都只能涉及到整个资源的一小部分,并且各类搜索引擎的信息来源差异较大,因此集成多个搜索引擎而产生的Meta搜索引擎具有比传统引擎覆盖面大,搜索效果更好且具有可扩展性等优点。它的缺点是有一定的局限性,不能够充分使用所使用搜索引擎的功能。1.2搜索引擎的工作原理与主要技术搜索引擎的工作原理是:由一个Robot尽可能多地收集上的网页,按照每个网页的文本内容建立单词到网页的反向索引,用户在查询感兴趣的主题时,输入该主题的关键字作为查询条件,搜索引擎利用事先建立好的网页库和单词索引,检索出符合条件的网页返回给用户。搜索引擎一般由3个部分组成,如图1所示。图1搜索引擎组成示意图1.2.1信息搜集系统信息搜集系统是通过Robot来自动完成的,Robot在Internet中漫游,尽可能多、尽可能快地搜集各种类型的新信息。由于Internet上的信息量十分巨大,而且更新很快,因此,为了保证搜索引擎上的信息的完整性和时效性,就要求Robot具有理想的搜索策略和很高的搜索效率。目前主要有2种搜集信息的策略:(1)从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。(2)将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。1.2.2索引系统Robot搜集信息后,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。一个搜索引擎的有效性在很大程度上取决于索引的质量。1.2.3查询接口当用户提出查询要求时,搜索引擎根据用户的查询在索引数据库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。查询接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。2人工智能技术的应用研究Internet迅速的发展,使得网上的信息呈现指数级增长,Internet的问题已经从“提供信息”客户索引数据库查询接口转到“如何从浩如烟海的信息中提取对自己有用的信息资源”。现有的搜索引擎存在着返回的无用信息太多、搜索效率低下、信息组织混乱等缺陷。起源于20世纪50年代的人工智能(AI)技术,可以在Internet中导引用户,不仅在用户进行搜索、浏览时给予直接的支持,而且能够提供具有独立搜索功能的智能体的幕后支持。因此人工智能已经在Internet中扮演越来越重要的角色。2.1Robot的智能化2.1.1人工智能技术基于Robot的搜索引擎中已经使用了大量人工智能的技术。Robot的核心目的是获取Internet上的信息资源,它是利用主页中的超文本链接遍历Web,通过URL引用从一个HTML文档爬行到另一个HTML文档。一般步骤如下:(1)Robot从起始URL列表中取出URL并从网上读取其内容。(2)从每一个文档中提取某些信息并放入索引数据库中。(3)从文档中提取指向其它文档的URL,并加入到URL列表中。(4)重复上述3个步骤,直到再没有新的URL发现或超出了某些限制(时间或磁盘空间)。(5)给索引数据库加上查询接口,向网上用户发布。其算法一般采用人工智能的搜索策略中的深度优先和广度优先2种基本的策略。广度优先策略可以跟踪当前页面中的每一个URL,所以能覆盖尽可能多的网页。而深度优先策略则能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。两种算法都是通过对网页的内容的分析判断与用户查询是否符合来检索出用户需要的网页,缺乏对检索后的网页进行进一步分析的能力,而且一次遍历往往需要花费很长的时间,检索到的信息存在大量的冗余和噪音。因此,为了提高搜索效率,运用启发式搜索策略来进行对网页的搜集,即Robot通过启发式学习采取最有效的搜索策略,选择最佳时机获取从Internet上自动收集、整理的信息。2.1.2启发式搜索算法常用有2种启发式搜索算法:(1)加权的启发式搜索算法:用加权的启发式搜索算法控制信息资源的搜集,系统根据用户配置的领域导向词和资源服务器所在的地域信息,以启发式函数计算每个URL的权值,并选择权值高的URL优先访问。(2)用相关度及用户兴趣作为评价函数的启发式搜索算法,对于系统中维护的一个超链队列,根据评价函数值,按照由小到大的顺序将超链队排序,然后选择具有最小评价函数值的超链作为下一个要扩展的结点。2.2智能代理技术智能代理又称智能体,是人工智能研究的新成果,近几年的发展非常迅速。它使用自动获得的领域模型、用户知识进行信息搜集、索引、过滤,并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理的特点是具有不断学习、适应信息和适应用户兴趣动态变化的能力,从而能够提供个性化的服务。2.2.1智能代理的优势(1)智能性。具有丰富的知识和一定的推理能力,能分析用户的需求和揣测用户的意图,以便能完成较复杂的任务,而且它可以从经验中不断学习,以提高自己处理问题的能力。(2)代理性。顾名思义智能代理是用户的某种代理,它可以代替用户完成一些任务,并主动将结果反馈给用户。(3)主动性。它能根据用户的需求和环境的变化,主动向用户报告并提供服务。(4)协作性。它能通过各种通信协议和其他智能代理进行信息交流,并可以相互协调共同完成复杂的任务。2.2.2客户端智能代理和服务器端智能代理(1)客户端智能代理技术以智能搜索代理技术为主,结合搜索引擎“面向主题”的检索模式,在密切关注个体需求、提高信息与用户需求相关系统,彼此间可以通过统一的传输协议进行沟通,交换信息,从而使更多的信息得以挖掘,以弥补智能代理信息搜索范围有限的缺陷。(2)服务器端智能代理引入用户反馈机制来完善检索机制,提高检索命中率,同时也可以提供面向个人的特殊检索服务。这种方式是记录该用户的查询踪迹,从而在用户再次登录时结合以往的用户检索记录来配合提供相关的检索服务。并且可以通过对用户的反馈意见进行跟踪,获取用户对结果的评价,以便提高检索质量。2.3查询接口的智能化2.3.1基于关键词匹配搜索技术当用户提出查询请求时,用户最关心的是搜索结果是否能够满足自己的需要。目前采取的一种常见的策略是将用户的查询请求分解成若干关键词,根据这些关键词计算Web文档跟用户请求的匹配程度,从而挑出若干匹配的文档。匹配程度的衡量准则很多:一种是根据关键词在文档中出现的频率确定它对用户请求的匹配程度;一种是计算关键词出现次数和页面总词数之比。但是基于关键词匹配的搜索技术有较大的局限性。它不能区分同形异义,也不能联想到关键词的同义词。2.3.2自然语言查询为了提高