重庆大学硕士学位论文自动问答系统中的问题理解与信息检索研究姓名:曹志娟申请学位级别:硕士专业:模式识别与智能系统指导教师:李祖枢20050501重庆大学硕士学位论文中文摘要I摘要随着互联网的普及,互联网上的信息越来越多,为人们提供了丰富的信息资源。而另一方面,人们却很难在杂乱无章的网络中快速、准确地获得自己想要的信息。虽然现在互联网上有很多搜索引擎可以帮助人们搜索自己想要的信息,但是目前的搜索引擎还有很多缺点,并不能满足人们方便、快速、准确地获取信息的需要。自动问答技术正是为了满足人们的这种愿望而发展起来的。搜索引擎,要求输入的是一些关键字的组合,而自动问答系统允许用户输入一个问句;搜索引擎返回给用户的是一堆相关的网页,而自动问答系统返回给用户的是一个简短而准确的答案。这样用户就可以通过自动问答系统方便、快速、准确地获得自己想要的信息。自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。目前,国内外有很多的科研机构参与了英文自动问答技术的研究,甚至已经有相对成熟的英文自动问答系统,但是参与中文自动问答技术研究的科研机构并不是很多,而且基本没有成型的中文自动问答系统。本文正是对中文自动问答技术研究的一个探索。本文中提出的中文自动问答系统称为“虚拟信息顾问”(VirtualInformationConsultant),包括五个主要组成部分:问题理解、信息检索、信息处理、答案抽取、FAQ模块五个子系统。问题理解阶段是自动问答系统执行的开始,分析的结果对后面的处理,以至找到问题的正确答案都有很大的影响。同时它也是智能咨询系统,机器对话等研究的重要方面。本文充分结合了汉语语言的特点以及计算语言学的技术,对自动问答系统中问题理解部分进行了深入的分析。在问句分析时,不仅更加细化了对疑问词的分类,同时提出了问题标准型的方法,使系统能够对表达形式不同,但语义相同的问句采用相同的分析算法,提高了系统处理多种表达形式问句的能力。通过识别问句中主题词的方法,确定搜索的知识源,明确和缩小了搜索范围,减少了对无用信息的搜索。同时,本文结合问题理解模块的特点提出了后一阶段——信息检索的设计方法。最后针对问题理解阶段采用的主要方法进行了测试及评价,验证了本文所提出的方法的可行性和可靠性。关键词:自动问答系统,虚拟信息顾问,问题理解,信息检索,问句分析(QA)technologyisdevelopedtomeetpeople’sdemand.Theinputsofsearchenginesarecombinationsofkeywords,whileQAsystemsenableuserstoinputaquestioninnaturallanguages.Theoutputsofsearchenginesaresomerelatedwebpages,whileQAsystemscangiveusersconciseandaccurateanswers.ByusingQAsystems,userscanfindtheinformationtheyneedconveniently,quicklyandaccurately.QAtechnologyisaveryhotresearchdirectioninthefieldofnaturallanguageprocessing(NLP).ItcombinesalargevarietyofNLPtechnologies.Presently,manyresearchinstituteshavebeeninvestigatingEnglishQAtechnologies.SomematureEnglishQAsystemshavebeenwidelyrecognized.ButfewinstitutesaredoingresearchonChineseQAsystems.NoChineseQAsystemshavebeenproposeduptonow.Inthispaper,wetrytoinvestigatesometechnologiesforChineseQAsystems.OurChineseQAsystemcalledVirtualInformationConsultant.TheVICsystemhasfivemainparts:QuestionAnalysis,InformationRetrieval,InformationProcessing,AnswerExtraction,andFrequentlyAskedQuestionsModule.QuestionAnalysisistheprimarytaskofVICSystem.TheresultofQuestionAnalysishasagreateffectonfollowingprocessingwork,evenonfindingthecorrectanswer.It‘salsothemostimportantresearchaspectonIntelligentconsultingSystem,Man-machinedialogue,andsoon.Inthispaper,weresearchdeeplyonQuestionAnalysis,consideringthecharacterofChineseandtechniqueofcomputationallinguistics.Weclassifyquerywordsdetailed,andpresentstandardquerysentencethatenableVICsystemusethesamealgorithmtoprocessthequeryindifferentformat.Viaidentifyingtopicword,thedestinationsourcecanbefoundthatcandecreasesearchingofnouseinformation.Thepaperalsogivesthedesignofthenextphase,InformationRetrieval,combiningwiththetraitofQuestionAnalysis.Finally,wedothetestsandevaluationsofthetechniqueappliedtoQuestion重庆大学硕士学位论文英文摘要IIIAnalysis.Theresultsindicatetherationalityandreliabilityofthetheoriesinthispaper.Keywords:QuestionAnsweringSystem,VirtualInformationConsultant,QuestionUnderstanding,InformationRetrieval,QueryAnalysis绪论[本章摘要]本章简述了目前网络搜索引擎不能很好满足用户需求的现状,指出了搜索引擎的发展方向——把自然语言处理引入搜索引擎中来,进而提出了自动问答系统的概念。通过分析自动问答系统在信息检索中应用的地位,明确了进行本课题研究的重要性。之后通过对国内外相关研究现状综述,指出本课题研究的意义。最后提出了本文所要研究的主要课题并介绍了所完成的工作。1.1引言20世纪90年代以来,Internet在世界范围内得到了迅猛的发展。网上的信息越来越多,极大地推动了自然语言处理技术的发展。同时也对自然语言处理技术提出了更高的要求:人们希望在杂乱无章的网络世界中快速、准确地获得自己想要的信息。自动问答技术正是为了满足人们的这种愿望而发展起来的。人们可以用普通的问句对自动问答系统提问,自动问答系统将从知识库或者互联网中搜索相应的答案,然后把答案直接返回给用户。这样用户就可以通过自动问答系统方便地获得自己想要的信息。[1][2][3]1.2自动问答系统的研究意义随着互联网的迅速发展和广泛普及,导致网上信息爆炸性增长。如何在庞大的互联网上获得有价值的信息已成为网民日益关注的问题。随着搜索引擎技术的发展和普及,现在人们能够通过搜索引擎方便的得到自己想要的各种信息。比较有名的搜索引擎有Google、Sohu、Yahoo等。无论哪方面的内容,这些搜索引擎都能帮助人们快速地找到相关的网页。用户只需输入一些关键字,它们马上就会搜索出相关的网页。但是,2001年,RoperStarch的调查指出,36%的互联网用户一个星期花了超过2个小时时间在网上搜索;71%的用户在使用搜索引擎的时候遇到过麻烦;平均搜索12分钟以后发现搜索受挫;搜索受挫中46%都是因为链接错误;绝大部分(86%)的互联网用户感到应当出现更有效的、准确的信息搜索技术。另一项由Keen所做的调查显示,人们平均每天有四个问题需要从外界获取答案;其中31%的人使用搜索引擎寻找答案;平均每周花费8.75个小时找寻答案;53.3%时间花在从旁人那里获得答案,29%的时间花在亲戚朋友身上,24.3%的是时间花在销售商那里;网上查找答案的,半数以上都不成功;他们每周将花费14.5美元以上,以获取正确的信息。[4]从这些调查数据中不难看出,尽管搜索服务提供者在研发搜索技术方面已经重庆大学硕士学位论文1绪论2花费了大量的时间和精力,但是目前的搜索引擎仍然存在很多不足的地方。其中主要有三个方面:(1)相关性信息太多。传统的搜索引擎返回的相关网页太多,用户很难快速准确地定位到所需的信息。例如,用户在Google上输入几个关键字,它有可能返回成千上万个网页,用户将浪费很多时间在这些网页中查找自己所需要的信息。(2)无法以几个关键词的简单组合来表达检索需求。因为人们的检索需求往往是非常复杂而特殊的,通过简单的几个关键词组合用户都没有将自己的检索意图表达清楚,搜索引擎自然也就没有办法找出令用户满意的答案了。(3)检索效果差强人意。以关键词为基础的索引、匹配算法尽管简单易行,毕竟停留在语言的表层,而没有触及语义,因此检索效果很难进一步提高。为了克服传统搜索引擎的弊端,国外一些有实力的科研机构和大公司正在探索新的检索技术,在这方面最成功的检索系统是美国AskJeeves公司的检索系统()。AskJeeves最突出的特点是允许用户用自然语言句子提问,检索系统会自动分析用户的提问,然后通过反问,即人机交互方式,准确地辨识用户的意图,这样用户就能够充分表达他的检索需求,这比Yahoo的关键词检索方式有了明显的进步。香港科技大学参考AskJeeves的思路正在做中文的提问式搜索引擎Weniwen()。100多个学生被组织起来对Internet上的各个网页进行提问,这些提问被记录下来作为网页的索引,在实际使用时,如果用户的某个提问与作为索引的某些提问在语义上非常接近,那么就把与这些提问相连的网页返还给用户。As