Web问答系统随着互联网技术的飞速发展,Web网络逐渐深入到生活的方方面面。如今Web2.0(Web2.0是相对Web1.0的新的一类互联网应用的统称)的提出,使得Web的发展更加广泛与深层次。与Web1.0相比,Web2.0更加注重交互性,是互联网的一次理念和思想体系的升级换代,由原来的自上而下的由少数资源控制者集中控制主导的互联网体系,转变为自下而上的由广大用户集体智慧和力量主导的互联网体系。这些发展使得Web问答系统变得更加被需要,并且被赋予更多新内涵。问答系统(QuestionAnsweringSystem,QA)是信息检索系统的一种高级形式。它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。而WebQA利用互联网作为问答信息的来源,与传统的封闭文本集相比有许多优点及长处。Web问答系统的优势1、数据量接近无限。由于WebQA基于网络,加上云技术等的发展,使得WebQA的数据量无比浩瀚。2、数据处于时刻更新的过程中,不断涌现的新数据最大程度的减少了因为信息过时引起的偏差以及错误。3、由于Web问答系统的超大数据量,可以利用问题答案的冗余性提高答案精确度。WebQA可以对多个备选答案进行筛选,得到一些简单的、易于分析的、和问题密切关联的句子或段落类型,从而避免对复杂自然语言处理,提高答案的精确度。Web问答系统的难点1、Web的噪声干扰问题。返回过多的无用信息,对正确答案的抽取产生影响。2、查询字符的生成问题。大多数Web搜索引擎只支持关键字及逻辑组合的查询字串,对自然语言的处理困难。3、错误断言的困扰问题。对错误的问题无法判别,从而错误断言,提供矛盾的答案。4、系统效率问题。由于WebQA的搜索量巨大,对系统的要求很高,必须考虑系统的高效性。5、相对于英文的几个方面的难点而中文问答系统更是面临更多的问题,中文问答系统需要在现有的中文信息处理技术基础上,充分研究和利用问答的特性与需求,通过各种方法解决和克服难点和困难,设计和开发问答系统。例如:1、连写:中文是连续书写,分词是汉语言处理的基础。中文问答系统由于是句子级别的信息检索,要分析句子,首先要分词。2、形态:汉语缺乏狭义的形态变化,如英文中的主动被动语态,完成时进行时等,形态对于计算机就是标记,有利于计算机的处理。3、语法:汉语语法灵活,句子各成分之间的关系靠词序、“意合”、虚词,变化较多。4、语义:一词多义、同音词、同义词、近义词等,以及丰富的表达方式,上下文依赖度高,省略语等都是计算机处理的难点。5、语法研究:面向计算机处理的中文语法研究不足,如中文问答系统需要的关于中文句型形式化、不同句型之间的转换的研究资料极少。6、相关资源:缺乏包括语法、语义词典等中文语言学资源和相关生熟语料。这些问题都障碍着WebQA的发展,在研究和设计信息抽取模板的时候,可以有两种不同的思路。一是,仅仅从问题的类型出发,推断答案的词性,并以词性,配合简单的启发式作为信息抽取模板。二是,进一步考虑问题的语法甚至语义结构,进而推断答案的句法结构并把这个结构表达成抽取模板,从而设计出相应的抽取模板。目前,以第一种思路为理念开发的WebQA较多。对于WebQA的思考对WebQA的自然语言的分析处理模块我认为可以做一些改进。首先,建立对常用词汇和语句做分析处理的结果数据库,将常用词汇和语句在日常生活中的出现频率做统计分析,这必须包含多个项目。对于词汇进行统计分析,如:多义词,在生活中常用语境里每个意义的出现频率,按照由大到小的顺序排列,反馈结果时将与出现频率排在前三位的意义相关的信息抽取出来,每个意义通过特定算法选择三条或多条信息,再与这个词汇整块存储;近义词,找出近义词的可替换词汇有哪些,并且对这些可以被替换的词汇,按其解释的精确度排序,同时将这些高精确度的可替换词汇的前三个与这个词汇整块存储;同义词,将所有同义词收集,将其中拥有最精确解释的词汇作为反馈时的优先对象,再与这个词汇整块存储;同音字,将所有同音字按照在日常生活中的出现频率排序,排在前几位的词汇与这个词汇整块存储。其他模块对结果数据库调用时,结果数据库直接反馈整块信息。对于语句,可以将常用语句进行解析提取更多的关键字等信息,并且将相关的结果合并,如:“中国在哪里?”、“东亚最大的国家”、“中国领土面积”,答案为“亚洲”、“中国”,对应的问题答案合并为“中国是东亚最大的国家,领土面积世界第四...”并将合并后的答案作为多个提问的答案。此外,还可以根据每天的新闻、科学杂志等,通过特定算法将其中的信息做为结果,动态更新到结果数据库中。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。目前没有十分完善的WebQA,但是各个国家都在积极研发,并且不断有新的方法、思路和成果问世,相信完备成熟的WebQA一定会在不久的将来,成为人们最得力的工具。