政务公众网全文检索系统技术方案浙江天宇信息技术有限公司浙江天宇信息技术有限公司第一部分对系统需求的理解1.1前言互联网作为“第四媒体”已成为人们生活或工作中不可或缺的信息获取的手段。各级政府机关纷纷构建了内容丰富的政府门户网站与内部办公网,方便公众网上办事,提高了政府机关的办事效率。但是,随着网站内容的不断丰富,网页数量也呈几何式增长,由此也带来了一个问题:政府门户网站或网站群信息量巨大,缺乏一条有效的信息快速获取的途径,导致公众在相关的政府门户网站上不知道如何在短时间内找到自己需要或最感兴趣的内容,查询所需要的信息却变得越来越困难,于是很快就失去耐心,离开这个网站。借鉴门户网站的经验,通过搜索引擎的方式,建立基于网站内部页面的导航系统——网站全文检索系统,就成为解决以上问题的主要措施。然而,政务公众网全文检索系统还不同于一般的搜索引擎系统,它需要对网站上几乎所有的内容都需要采集下来,包括各种格式的页面信息,采全率越高就越能体现导航系统的优势。目前常用的互联网搜索引擎系统,考虑到应用的需要,没有对动态数据库中的内容进行采集(是否具备此类功能是未知的)。而许多政府网站的页面,很多是通过程序动态生成的,或者是存储在后台数据库中的,格式多样。浙江天宇的采集系统考虑到实际的应用需要,除了具备搜索引擎系统具备的采集功能外,还实现了对动态数据库里的页面及由程序动态生成的页面进行实时采集。本方案中采用浙江天宇信息技术有限公司开发的新一代智能化的互联网天信息采集系统作为应用核心,海量非结构化全文数据库系统作为后台WEB页面的管理平台,提供一站式的全文检索服务。这将有效地解决上述问题。浙江天宇信息技术有限公司1.2需求分析1.2.1应用目标通过建立政务公众网全文检索系统,实现对以XX市政务网为核心,涉及到所有XX各级政府部门的门户网站WEB页面内容的批量采集,建立搜索引擎库,在XX政务网门户网站上建立政务网站导航功能的政务公众网全文检索系统,公众只需要登录到XX政务网,通过检索系统,便可以查询到所有XX各级政府部门的门户网站上所需要的政务信息,提高公众的查询与使用政务信息的效率,从而真正体现XX市政府部门便民服务的核心与宗旨。1.2.2功能需求根据应用目标和招标书建设内容的要求,在认真阅读分析招标书和了解XX市政务网应用现状基础上,我们理解,XX市政务公众网全文检索系统的建设的核心可以分解为三个子系统的建设:采集子系统、管理子系统、检索子系统。采集子系统:实现对各级政务网站WEB页面的批量采集的系统工具,支持对各类格式信息的采集。管理子系统:实现对采集的内容的管理、采集管理、各类词典与词表的管理、用户管理、日志管理、检索管理等应用功能。检索子系统:实现对采集的WEB页面的智能化全文检索,支持各类检索方式。另外,系统应具备良好的稳定性与安全性,保证系统与采集的数据内容的安全。浙江天宇信息技术有限公司1.3方案综述1.3.1内容安排与概要首先,对政务公众网全文检索系统的需求进行了分析,明确了建设目标和内容;然后进行了总体技术方案的功能设计,从应用软件的选择、系统功能模块等方面进行了设计;在系统功能模块的设计和实现方面,对采集子系统、管理子系统与检索子系统等关键点进行了详细的功能描述及技术特点描述。再次,就应用系统的安全方面进行了详细的描述及功能设计。最后,就招标书中应用系统功能需求条款进行逐个应答。1.3.2方案特点采用了业界主流和开放的技术标准和设计模式,提供开放的、平台级的应用编程接口和管理工具,可根据业务需要进行扩展;系统采用国内领先的智能化互联网采集系统与非结构化海量全文数据库系统作为政务公众网全文检索系统的采集、管理与检索平台,保证了系统具备了先进性与良好的开放性。智能化采集系统具备强大的采集功能,能够采集几乎所有类型的数据内容,支持ROBOTS协议。采用统一身份认证、权限控制、用户操作审计等安全措施,使得整个系统具有较强的安全性。浙江天宇信息技术有限公司第二部分技术方案2.1方案设计2.1.1软件平台选择浙江天宇信息技术有限公司凭借在信息服务、网站建设等建设领域多年的项目实施经验及1000多家成功应用案例,针对XX市政府政务公众网全文检索系统的实际需求及未来的发展需要,提供一整套解决方案与成熟的具有自主知识产权的系列软件产品——政务公众网全文检索系统。从应用实现的角度,政务公众网全文检索系统选择基于:浏览器与客户端相结合来实现目标系统的应用功能。基于用户方的硬件环境及操作系统环境,我们的方案选择相应数据库平台及应用系统软件来具体实现政务公众网全文检索系统的建设目标。应用软件平台全文检索系统CGRS5.1网站搜索引擎系统智能互联网信息采集系统数据库平台操作系统CGRS全文数据库UNIX/LINUX/WINDOWS2000/2003……CGRS搜索引擎库XX市政务公众网全文检索系统浙江天宇信息技术有限公司2.1.2系统功能结构政务公众网全文检索系统主要是以CGRS全文数据库为应用支撑平台,以智能化网络机器人技术及全文检索技术作为应用核心,通过政务公众网全文检索系统将采集到搜索引擎库中的WEB页面信息对公众提供智能化的高效的全文检索服务。系统围绕政务门户网站上各种信息资源的采集与聚类、信息过滤和管理、信息的智能检索,构建XX市政务公众网全文检索系统。2.2系统功能及技术指标2.2.1采集子系统功能及技术指标2.2.1.1采集子系统工作流程采集子系统主要完成对目标网站或网站群上WEB页面及其他附件信息的批量采集,通过内容过滤,加载到CGRS搜索引擎库,进行管理与提供网站全文检索服务。采集子系统的工作流程主要包含以下几个部分:1、确定采集目标网站,建立采集工程;2、对采集工程进行搜索策略的定义及过滤条件等内容的设定;3、根据URL特征进行网站频道的分类采集、过滤及内容自动去重;4、采集的内容自动加载到CGRS搜索引擎库,交由CGRS全文数据库管理系统进行统一管理。浙江天宇信息技术有限公司采集子系统工作流程图2.2.1.2功能描述((11))建建立立采采集集工工程程在本方案中以“XX政务网”为实例进行采集子系统的功能介绍及采集子系统界面描述。确定需要采集的目标对象:“XX政务网(),建立页面批量采集工程。政务网采集工程定义采集的入口,可以自行根据需要进行设定。完成采集工程新建工作后,可以立即进入工程的参数配置浙江天宇信息技术有限公司起始URL中可以含有日期通配符,如${year}、${month}、${day}或是循环变量loop,对于带有日期信息的入口网站地址URL,可以使用日期通配符;对于一些数字或字符串的URL,则可以使用LOOP循环变量进行设置。通过这些通配符,可以方便地设定具有一定规则的URL的多个采集入口,方便地进行多入口分类进行采集。提高采集效率与采集质量。对于“XX政务网”网站,需要分频道分栏目检索功能,系统采用建立多个采集工程的方式,实现分栏目分频道采集,统一的全文检索的目标。对于一些不需要分频道检索的其他网站,则可以通过建立一个采集工程的方式实现整个网站信息的的全部采集。((22))采采集集工工程程参参数数设设置置URL选项对于主机地址的限定,系统提供四种参数设置规则:①地址不限。用户选浙江天宇信息技术有限公司中后,系统会无限制进行采集,可以通过XX政务网内的所有链接,进行WEB页面的采集。②本站内。对本站内搜索的WEB页面进行批量采集,对于其他网站上的友情连接网站,则不进行采集。③本站内限定的目录。通过对采集路径进行限定,实现了分栏目分频道进行采集,为分频道进行全文检索奠定基础。通过这个参数的设定,可以定位到某个栏目或某几个栏目的批量采集。④自定义。用户可以根据需要,自己定义采集的范围,这个设置的灵活性非常高,自由度大。对于“XX政务网”自身的页面内容的采集,则选择通过限定目录的方式进行采集,便于进行分频道检索;对于采集其他网站群,则选择自定义方式在目标网站群中进行无限制采集。URL过滤。对于采集的页面,可以允许采集那些带有一定URL规则的页面,也可以排除某些带有一定URL规则的页面,提高采集的效率。采集“XX政务网”自身,需要考虑使用URL过滤方式,便于精确采集频道内容,其他的网站采集则无须考虑URL过滤。搜索限定搜索限定主要是设置定义采集目标网站的深度和文件类型。采集目标网站的深度设置,通过层的方式进行控制。采集“XX政务网”支持脚本语言解析,采集通过程序动态生成的页面。支持robots协议,另外,系统也可以不遵循此协议浙江天宇信息技术有限公司时,根据前面URL采集规则的设定,需要进行分频道分栏目进行采集,那么在这里层数设置为“1”,也就是对目标URL下面的页面进行采集,这样就可以精确的采集到某个或某些频道或栏目下的页面了,不会出现采集其他信息的可能。对于采集其他网站群,则选择“-1”,表示无限制采集URL规则下面的所有WEB页面。当然,用户可以根据实际需要,采集需要的层数。对于有些网站的层数是通过脚本语言控制动态生成的,我们可以选择本系统中“脚本语言解析器”进行脚本解析,这将有效地解决通过脚本语言动态生成的页面,做到100%的目标网页内容的采集。采集的文件类型。系统支持对页面内容(htm、html、xml、shtml、asp、php、jsp、notes等)、网页附件(doc、xls、ppt、txt、pdf等)、图片(jpg、gif、jpeg、bmp等)、音频(MP3等)、视频(AVI、RM、MPEG等)、JAVA(由JAVASCRIPT程序生成的页面)等内容的采集。对于页面内联图片的采集,可以做到保持原样不变的进行采集。根据本项目的实际需要,我们选择“总是下载内联图片、全部格式”进行页面内容的批量采集,这样就能有效地保证采集各类静、动态网页、网页附件、由JAVASCRIPT生成的页面等内容的采集,实现用户方的功能需求,其他设置参数可以不需要考虑。数据处理数据处理主要是执行下载的网页数据上载到数据库,并在网页入库前做一些预处理的操作流程:选择数据库、数据预处理、网页内容提取。浙江天宇信息技术有限公司发送数据库,是将采集下来的页面分类分频道地发送到指定的CGRS搜索引擎数据库中进行统一的管理。数据预备处理,可以支持各类字符集编码,如GBK、GB2312、BIG5等,并可以实现采集页面内容的时候,自动进行识别,将BIG5码集的内容转换为GB2312码集。自动分类,主要是实现对采集的内容按需要进行分频道分类采集,便于用户分频道进行检索。排除URL是根据分频道采集的时候进行URL上载到数据库前的二次过滤,提高分频道采集的准确性(后面进行如何进行分类进行详细的描述)。网页内容过滤是在采集的时候,可以设置过滤条件,将含有黄色信息的页面进行采集过滤。在本项目中,数据预处理各类参数我们都需要进行细致的设置,便可达到用户的功能需求。网页内容提取,是实现对采集的WEB页面进行内容的过滤提取,并进行格式化。在本项目中根据实际情况,可以不需对这项参数进行具体的设置。支持各类码集及各类码集的转换可以设定过滤条件,过滤含有黄色信息的页面浙江天宇信息技术有限公司分类规则及实现对于搜索引擎库的各个字段,采集子系统根据采集的需要均可进行个性化的设定。高级属性设置配置网页下载的一些高级属性,主要包括建库方式、是否启用代理、下载的配置以及对要身份验证的网站,可以预先填入用户名和密码来访问该网站等功能。根据青岛政务网的栏目,设置分类规则分类采集主要是根据网站栏目的URL特征进行采集的分类分析青岛政务网的栏目的URL特征,生成匹配规则只要采集的页面URL满足匹配规则,则归到相关的分类浙江天宇信息技术有限公司建库方式:选择脱机浏览还是上载入库方式。应选择上载入库的方式。支持采集客户端通过代理服务器进行采集,选中进行通用配置支持对需要身份校验的网站进行采集配置代理服务器支持对硬盘进行管理,用户可以设定硬盘资源不足停止下载及警告根据目标网站的实际情况,用