服务电信行业打造生活搜索TRS电信114企业搜索引擎解决方案TRS公司结合电信企业建设114搜索引擎的需求,应用多年来自主开发的TRSDatabaseServer作为企业搜索引擎服务的平台,配套TRS文本挖掘基础件、TRS网络信息雷达和数据内容分发服务模块,向电信行业推出智能、安全、跨平台、个性化的电信行业114企业搜索引擎解决方案。此方案已经在中国电信全国中心114企业搜索引擎项目和上海电信号码百事通搜索引擎项目中获得了成功应用。第2页共29页目录1.概述..................................................................................................................31.1方案背景...................................................................................................31.2企业搜索引擎与互联网搜索引擎的区别...............................................41.3电信114企业搜索引擎建设需求分析...................................................81.4电信114企业搜索引擎建设目标.........................................................112TRS电信114企业搜索引擎解决方案架构..................................................112.1系统整合电信多种信息来源,支持内容实时增量索引....................132.2集群架构支撑大规模部署应用,支持内容海量安全管理................142.3应用垂直搜索实现内容挖掘分析利用,支持电信企业开发特色搜索服务.......................................................................................................162.4搜索高效、准确,向用户提供智能个性搜索体验.............................173方案特点和优势..........................................................................................183.1“安全”的搜索引擎..............................................................................183.2更高的搜索准确性和智能性.................................................................183.3个性化的搜索体验.................................................................................193.4强大的异构资源整合搜索.....................................................................193.5标准、开放的系统,提供强大的系统扩展能力.................................193.6具有充分满足需求的自主核心技术和产品.........................................203.7采用先进的搜索引擎技术.....................................................................203.8基于内容的自动分类和聚类技术.........................................................213.9基于内容的信息去重技术.....................................................................223.10优异的全文检索性能...........................................................................233.11成功的应用模式和丰富的应用经验...................................................263.12专注的服务...........................................................................................264联系方式..................................................................................................................285版权声明..................................................................................................................29第3页共29页1.概述1.1方案背景2006年,随着中国互联网搜索市场的迅猛发展,百度、Google、雅虎、搜狐搜狗、新浪爱问、中国搜索等国内外搜索引擎在中国市场展开了空前激烈的竞争。在搜索市场的巨大市场价值的吸引下,国内电信运营商纷纷推出向综合信息服务提供商转型的战略举措,加入争夺搜索市场份额的行列。2006年6月,中国电信全面升级114查号业务,推出了全新的号码百事通业务,为将近8亿的电话用户提供方便、快捷的综合信息服务。号码百事通立足于百姓的衣、食、住、用、行、乐,着眼于生活的便利、便捷,致力于为公众提供综合信息服务。在中国电信瞄准这一巨大的潜力市场的同时,国内另一固网运营巨头中国网通,也开始在其北方10省推广类似的电话搜索引擎服务。重量级的电信运营商加入搜索引擎市场的争夺,预示着2007年搜索市场将产生风起云涌的变化。目前用户对互联网服务的使用、获取方式的变化以及服务商为此进行的技术创新,是搜索形态变迁的关键,也是不同搜索服务商竞争的核心。作为互联网产业发展最重要的方向之一,以Google、百度为代表的第二代搜索服务实际上与互联网服务整体发展的第二个阶段是相互对应的。第一阶段是网站呈现,目录分类;第二阶段是内容交互,网络搜索;第三阶段是任意聚合,个性搜索;第四阶段是自由交互,智能发布与搜索。第三代互联网搜索引擎将在个性化、语义智能分析、搜索结果优化等方面取得明显进步。虽然电信运营商推出搜索引擎有其本身的品牌和资源优势,但是常规的互联网搜索模式已经被成熟的搜索引擎深度挖掘,百度、google等搜索巨头长期积累的竞争优势却不是短时间就能赶超。那么电信运营商的新搜索引擎如何才能立足搜索市场并在局部胜出呢?其关键在于深入整合挖掘电信运营商的企业内第4页共29页部网络资源和信息资源优势,侧重于特定关键领域提供特色搜索服务,为用户提供真正有价值的信息。对于中国电信和中国网通而言,114巨大的品牌资源、庞大的用户群、广泛的知名度是电信运营商实现信息服务平台的最佳载体。通过114平台的发展,刻意逐步将基于语音的增值服务嫁接到统一的平台上来,并为客户提供提供衣、食、住、用、行、乐等方面便利快捷的综合信息。目前,中国电信的号码百事通业务和中国网通的114电话导航业务,在国内各省区陆续展开。而作为该业务核心的114企业搜索引擎更是2007年各省市电信公司建设的重中之重。北京拓尔思(TRS)信息技术有限公司是国内企业搜索引擎和内容管理软件的领导厂商,公司在企业搜索引擎领域占据着国内企业级搜索引擎市场的70%。TRS公司结合电信企业建设114搜索引擎的需求,应用多年来自主开发的TRSDatabaseServer作为企业搜索引擎服务的平台,配套TRS文本挖掘基础件、TRS网络信息雷达和数据内容分发服务模块,向电信行业推出智能、安全、跨平台、个性化的电信行业114企业搜索引擎解决方案。此方案已经在中国电信全国中心114企业搜索引擎项目和上海电信号码百事通搜索引擎项目中获得了成功应用。1.2企业搜索引擎与互联网搜索引擎的区别搜索引擎的出现,整合了互联网上众多的网页资源,并提供信息导航和信息查询服务,使信息的价值得到了网民和厂商的普遍认可。一提到搜索引擎,就自然联想到互联网搜索引擎,再加上一些厂商刻意的推波助澜,造成了互联网搜索引擎取代所有搜索引擎的概念。而实际上我们可以看到不同搜索引擎之间的差别很大。TRS电信114搜索引擎是以TRS的企业级搜索引擎为基础的。TRS所说的企业搜索引擎(EnterpriseSearchEngine,简称ESE)中的企业并非..指单纯的企业,政府、教育、科研、媒体、医疗、军队、安全部门都有类似的应用需求,这里的“企业”可以理解为“企业级...”,即企业级搜索引擎。那么,对于企业级搜索,我们对“搜索”的诉求又是什么呢?和互联网搜索引擎相比,它又有哪些不同呢?实际上,搜索引擎服务是内容管理技术的一个典型应用。我们不妨从内容管理的框架来看搜索引擎的各个环节,即从信息内容的采集,加工,管理,到服务,以至到信息内容的“发现”来比对一下企业级搜索引擎的不同。*SEO:搜索引擎优化,利用工具或其他手法夺取较好的网络排名。1、复杂结构数据的搜索互联网上搜索的数据一般都是网页形式的,尽管这几年网上丰富起来的图片、MP3等信息形式,但其组织形式仍是基于HTML组成的网页。而企业级用户需要搜索的数据既有互联网站上的,也有内部网站上的;既有网页形式的,又有各种数据库形式的,如SQLServer、Oracle数据库等;既有结构化数据,又更多的是各种电子文件格式的非结构化及半结构化数据,如Word、Excel、LotusNotes、PDF、XML等;既有文本形式的数据,又有多媒体形式的数据;而且,同一机构的数据还可能分布在不同介质的载体上。第5页共29页第6页共29页然而,不管数据的形式、来源、位置、平台如何不同,企业用户总是希望内外数据能无缝结合,用一个搜索工具和统一的界面,发出几个简单的检索请求就能对所有资源进行检索,并很快就能有满意的结果。并且,互联网搜索内容对于用户来说都是未知的,而企业级搜索的对象基本上是已知信息源,其中包括企业资料库、目录、帮助文本、源代码信息库、新闻组等,在对这些信息进行索引时,用户需要按照内容而不是通过比较源链接来进行排列。2、严格的安全搜索在企业内部,安全的问题是无法回避的。因为企业内部的信息不象“人人平等”的互联网信息,其信息内容带有明显的“等级”安全特性。所以,当搜索技术变得无所不能,人们反而开始担心,如果搜索的结果泄漏了企业的机密怎么办?如果企业原有的安全架构对新的搜索技术失效了怎么办?这些疑问都让用户感到如鲠在喉,岌岌小心。很多业内人士在谈到搜索安全的话题就忧心忡忡,他们普遍认为搜索环境并没有为企业级应用做好足够的准备,未来充满太多的变数。而在一些实际的应用中,我们看到,即便为数据定义了文档级和数据库级的双重安全保障,搜索引擎的魔爪还能透过授权的索引文档来搜索它们。因此,针对企业网中不同的用户对不同的资源,其使用权限都可能不一样,需要企业搜索引擎能够对用户、资源、权限分级管理和控制,确保系统的安全。3、高可靠的查全和查准作为专业用户,企业用户需要查找的信息专业性强、概念复杂,而对查询的查全率和查准率有着非常高的要求。因此,需要利用各种手段来提高搜索引擎的查准率和查全率