TRS垂直搜索引擎白皮书北京拓尔思(TRS)信息技术有限公司2006年8月TRS垂直搜索引擎白皮书第2页一什么是垂直搜索引擎?----------------------------------------------------------------------------------3政府相关的垂直搜索引擎-----------------------------------------------------------------------------3企业相关的垂直搜索引擎-----------------------------------------------------------------------------3行业门户相关的垂直搜索引擎-----------------------------------------------------------------------3生活相关的垂直搜索引擎-----------------------------------------------------------------------------4二垂直搜索、企业搜索、互联网搜索的区别----------------------------------------------------------4信息采集:融合了互联网搜索和企业搜索的特点-----------------------------------------------4信息加工:非结构化信息结构化是垂直搜索的特色--------------------------------------------5信息检索:结构化和非结构化相结合的检索方式-----------------------------------------------5三垂直搜索引擎的应用价值-----------------------------------------------------------------------------6垂直搜索引擎在政府门户中的应用价值-----------------------------------------------------------6垂直搜索引擎在企业中的应用价值-----------------------------------------------------------------6垂直搜索引擎在行业门户中的应用价值-----------------------------------------------------------7三TRS搜索引擎解决方案----------------------------------------------------------------------------------8TRS搜索引擎架构--------------------------------------------------------------------------------------8TRS搜索引擎的功能简介------------------------------------------------------------------------------9TRS搜索引擎的优势特点----------------------------------------------------------------------------11TRS搜索引擎的应用模式----------------------------------------------------------------------------12TRS搜索引擎运行环境-------------------------------------------------------------------------------12四TRS搜索引擎解决了垂直搜索的那些问题?------------------------------------------------------13提供模版技术,实现网络元数据的采集----------------------------------------------------------13中文智能信息处理技术,提供完善的信息加工手段-------------------------------------------13提供结构化和非结构化信息统一存储管理、检索服务----------------------------------------13五TRS垂直搜索引擎案例介绍---------------------------------------------------------------------------14解密中央人民政府门户搜索引擎-------------------------------------------------------------------14政府某部:行业垂直搜索引擎的成功应用-------------------------------------------------------18其他相关案例--------------------------------------------------------------------------------------------21TRS垂直搜索引擎白皮书第3页一什么是垂直搜索引擎?搜索引擎的出现,整合了互联网上众多的网页资源,并提供信息导航和信息查询服务,使信息的价值得到了网民和厂商的普遍认可。但是,搜索引擎的发展格局是多方面的,市场需求的多元化也导致了搜索引擎的行业化和细分化,从而“垂直搜索引擎”成为了搜索引擎发展的必然趋势之一。TRS认为:垂直搜索引擎是针对某一个行业或组织,满足行业专业需求、或者组织某项业务需求的专业搜索引擎,是搜索引擎的细分和延伸,是对某类网页资源和结构化资源的深度整合,并为用户提供符合专业用户操作行为的信息服务方式。政府相关的垂直搜索引擎主要表现为面向内部的垂直搜索和面向外部的垂直搜索,面向内部的垂直搜索主要是指政府内部专网网站群的搜索,同时集成数据库搜索功能,为政府工作人员和领导提供快速定位信息的方式,为日常工作和领导决策提供支持;面向外部的垂直搜索主要是指政府门户网站群搜索,同时集成法律法规等数据库搜索功能,整合政务服务资源,为民众和企业提供更好的服务,最大的发挥政务资源的效用。企业相关的垂直搜索引擎主要表现为企业借助互联网信息为其某项企业业务提供信息服务的支持,如:用于公关负面信息的预警、客户对产品的满意度监测等等。但是,这些信息搜索往往由第三方来运营,为企业提供信息增值服务。行业门户相关的垂直搜索引擎行业门户垂直搜索引擎最早表现为门户网站站内信息的搜索,但随着行业门户在行业中地位和影响力的提高,会逐步整合行业内其他网页资源,以及行业企业库、供求信息库等结构化资源,为行业内企业提供全面的信息搜索服务,使其成为行业产业链中不可缺少的一TRS垂直搜索引擎白皮书第4页部分。生活相关的垂直搜索引擎生活相关的垂直搜索主要是指以搜索为手段,为人们日常生活提供的信息服务,如:票务信息搜索、房产信息搜索等,与生活相关的垂直搜索以结构化资源整合为主,对信息的及时性和准确性要求较高。二垂直搜索、企业搜索、互联网搜索的区别互联网搜索企业搜索垂直搜索信息采集采集方式:被动方式为主采集深度:要求不高动态网页采集的优先级:低结构化数据库信息采集:要求不高采集方式:主动方式为主采集深度:要求较高动态网页采集的优先级:较高结构化数据库信息采集:要求高采集方式:被动方式和主动方式相结合采集深度:要求高动态网页采集的优先级别:高结构化数据库信息采集:要求高信息加工网页元数据提取:要求不高结构化信息提取:要求不高排重、分类:要求不高网页元数据提取:要求较高结构化信息提取:要求不高排重、分类:要求高网页元数据提取:要求高结构化信息提取:要求高排重、分类:要求高信息检索检索方式:非结构化信息为主结果排序:PageRank算法检索方式:结构化信息和非结构化信息相结合结果排序:相关度排序为主检索方式:结构化信息和非结构化信息相结合结果排序:需求多样化信息采集:融合了互联网搜索和企业搜索的特点从采集方式看,互联网搜索以被动方式为主,搜索引擎和被采集的网页没有约定的、标准的格式;企业搜索以主动方式为主,被采集的办公文档、CRM和ERP中的数据等都和企业搜索引擎有着约定好的采集接口和安全接口;垂直搜索则采用被动和主动想结合的方式,通过主动方式,有效采集网页中标引的元数据,整合上下游网页资源或者商业数据库,提供更加准确的搜索服务。如:中华人民共和国中央人民政府网站垂直搜索引擎,它通过规范副省级政府门户网站网页的表达方式,达到有效采集网页元数据的目的,为企业和个人提供更精准的政务信息搜索服务。从采集深度、动态网页采集的优先级、结构化数据库信息采集来看,互联网搜索采用TRS垂直搜索引擎白皮书第5页广度为先的策略,所以对采集深度要求不高,而垂直搜索和企业搜索需要挖掘出行业内所有相关的网页信息,所以往往采用深度为先的策略,同时由于行业内的一些有商业价值的信息采用动态发布的方式,如:企业数据库、供求信息等,所以垂直搜索对动态网页的采集优先级别较高。在实际应用中,垂直搜索和企业搜索都需要集成和采集关系数据库中的结构化信息,如:垂直搜索中政府需要集成法律法规库、企业搜索中需要采集ERP、CRM中的信息等。信息加工:非结构化信息结构化是垂直搜索的特色垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取加工,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,而垂直搜索是以结构化数据为最小单位。垂直搜索的结构化信息提取和加工主要包括两种:网页元数据的提取,包括标题、作者、发表时间、版权所有等等;内容中结构化实体信息的提取,包括人名、地名、组织机构名、电话号码等等。这些数据存储到数据库中,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。目前,从垂直搜索的应用情况看,大部分垂直搜索的结构化信息提取都是依靠手工、半手工的方式来完成的,面对互联网的海量信息,很难保证信息的实时性和有效性,对智能化的结构化信息提取技术的需求非常迫切。但因目前国内非结构化信息的智能提取技术取得了重大进展,在一些领域得到了有效应用,因此智能化成为了垂直搜索引擎的发展趋势。信息检索:结构化和非结构化相结合的检索方式从信息检索看,垂直搜索引擎不但能够对网页信息中的结构化信息进行检索,而且能够提供结构化和非结构化信息相结合的检索方式。比如我们找工作关注的:职位信息:软件工程师;公司名称:软件公司;地点:北京海淀。从检索结果的排序方式看,互联网搜索主要通过PageRank算法来实现;企业搜索大多采用检索内容和检索词的相关度来实现;而垂直搜索的排序需求更加多样化,如:按时间排序、按相关度排序、按某个结构化字段排序(如:购物搜索中的按价格排序等等)。TRS垂直搜索引擎白皮书第6页三垂直搜索引擎的应用价值垂直搜索引擎在政府门户中的应用价值整合政务资源,有效提升政务资源价值门户技术中的“网站群技术”和“全文检索技术“有效的整合了行政领导关系比较紧密地部门内部的信息资源,垂直搜索技术则有效整合了行政领导关系比较松散地机构间的信息资源,使得政务信息资源的聚拢和整合得以最大化,政务资源的可挖掘能力得到提高,从而有效地提升了政务资源的价值。一站式检索和导航服务,提高政府门户的公众服务水平面对多如繁星的政府门户网站,用户查询信息和网上办事时往往无所适从,政务垂直搜索引擎的建设恰恰解决了这个问题,用户可以通过搜索引擎的各种检索方式,方便的获取过去需要访问多个网站才能查全的信息,同时也可以通过检索获取网上办事的入口,例如:在央网搜索引擎的规划中