全文检索系统技术方案

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

全文检索系统技术方案北京中威佰特科技有限公司2009-7文检索系统技术方案第1页目录第1章背景..............................................................................................................................................1第2章系统设计......................................................................................................................................22.1技术架构图...................................................................................................................................22.2系统架构图...................................................................................................................................3第3章系统功能......................................................................................................................................43.1信息采集.......................................................................................................................................43.2中文自然语言处理.......................................................................................................................43.3全文检索功能...............................................................................................................................43.4格式文件检索...............................................................................................................................53.5性能指标.......................................................................................................................................5第4章搭建全文检索平台......................................................................................................................74.1信息查询.......................................................................................................................................74.1.1查询方式...............................................................................................................................74.1.2查询结果.................................................................................................................................94.1.3简单查询.................................................................................................................................94.1.4业务查询...............................................................................................................................104.1.5组合查询...............................................................................................................................104.1.6批量查询.............................................................................................................................124.2信息检索.....................................................................................................................................134.2.1关键词检索.........................................................................................................................134.2.2递进检索...............................................................................................................................134.2.3网文检索...............................................................................................................................144.2.4检索技术...............................................................................................................................15文检索系统技术方案第1页第第11章章背背景景据统计,内部网上的信息每年以200%的速度增长,其中发布到互联网上的信息只占到信息量的1%-2%,而98%以上的信息是发布在内部网上的。内部网上的信息既有网页形式的,也包含其他Word、PDF、XML等多种格式的数据。因此,面对内部网中海量异构的信息资源,如何帮助用户快速找到他们所需要的信息是一个主要的技术挑战。搜索引擎能帮助用户方便、快捷、安全地获取内部网上的信息,在满足高效的同时,更重要的是保证了较高的查全率和查准率,能提供智能化的概念扩展搜索,极大的提高工作效率。内部网搜索引擎将组织中分散管理的信息整合在一起,在组织层面上实现新的增值与共享,从而有效实现组织内容利用的最优目标。搜索引擎的目标是实现内部网全文检索。系统可对实施了内部网站资源进行爬行,无论内部网上的数据源在何地、以何种形式存在,都能够对其快速地访问,通过准确的分词建立索引,从而实现高质量的搜索查询。搜索引擎的主要目标包括:(1)较高的查准率。搜索系统支持按词索引、按字索引,同时实现中文自动分词。(2)较高的查全率。搜索系统可搜索各类异构的信息资源,包括传统的网页信息、Word、PDF、XML等不同格式的文档以及各类主流数据库的表中记录。(3)智能化的检索结果排序。安全搜索系统应采用相关度分析技术,将用户需要的信息排在结果列表的前面,屏蔽无用和错误的信息。文检索系统技术方案第2页第第22章章系系统统设设计计22..11技技术术架架构构图图搜索引擎的系统体系架构如图所示:引擎实现了下列主要功能:(1)爬行器:爬行器根据资源描述信息对内部网中各种异构的资源信息进行爬行,获取所有能够获得的资源信息,资源信息的格式应包括:Web网页、Word、PDF、Excel、PPT等格式的办公文档、各类主流数据库的表中记录。(2)索引器:通过中文分词技术,对爬行到的资源信息进行解析,建立索引文件。(3)搜索:用户提交其搜索条件,搜索条件经过特定处理后,在索引文件中检索出所有满足搜索条件的资源。图系统体系结构图索引模块索引库···爬行器搜索结果排序数据源注册、资源描述、策略描述用户提交搜索、安全过滤数据库爬行控制内部数据库Web页面数据库表数据库数据源2电子文档文件系统数据源3电子邮件邮件系统数据源n。。。搜索请求返回结果内部网用户内部网站数据源1文检索系统技术方案第3页22..22系系统统架架构构图图全文检索系统统一搜索平台的总体架构采用三层(数据层、应用层和表现层)可扩展的设计,使整个系统不受硬件平台的限制,具有良好的扩展性和可管理性。文检索系统技术方案第4页第第33章章系系统统功功能能33..11信信息息采采集集1、采用多线程并发搜索技术。2、提供多种采集范围控制方式,包括在指定网站内,在指定域内,以及在指定IP地址范围等方式。3、可以设置多种网站采集控制方式,包括采集的网页大小、超时限制等。4、提供高效更新功能,对于已经采集过的网站,更新时只采集发生变化和新加入的资源。5、可以灵活设定采集结果的存储方式,具有开放性。33..22中中文文自自然然语语言言处处理理1、内嵌自动分词系统,有效提高了分词准确性。2、在应用层上,提供自动分类和摘要功能;3、支持按词索引、按字索引、按关键词索引,适应不同应用环境的需求;4、内嵌相似性检索技术,提供文章的相似性检索和聚类功能。33..33全全文文检检索索功功能能1.支持WebBrowser/WebServer检索方式;2.智能中文分词:采用先进的自动分词系统,根据大量的语料统计和分析,建立了上万条的歧义排除规则,因此检索“华人”不会把仅仅包含“中华人民共和国”的文章检索出来。3.支持结构化数据和非结构化数据的混合检索;4.允许使用文中的任意字、词、句和片段进行检索;5.全方位检索手段:与、或、非、异或;6.对数值、日期等特征字段可以进行比较和范围检索;7.支持任意一致的通配符检索(模糊检索);文检索系统技术方案第5页8.支持多网站的全文检索9.具备中文自动分词系统,能有效提高分词准确性10.采用智能中文分词技术,建立高效索引库11.支持实时索引(1分钟内)12.支持增量式实时索引13.多线程设计,支持大量并发用户访问,每秒并发达到50个

1 / 18
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功