超音速搜索引擎产品手册2009/08/301.站内检索的重要性站内搜索是提供网站内部内容的检索和搜索功能。随着网站内容的增长,站内结构也越来越复杂,用户很难准确浏览全部内容,查找所需信息也越来越难。站内检索的需求也逐渐显露出来。1.1.站内搜索的特点站内搜索有几方面的特点:1)增强用户体验•信息量总在不断增长,而访问者的耐心却逐渐下降。据统计,每需要多点击一次鼠标,就有三分之一的用户选择放弃。•如果提供站内搜索,用户仅仅根据查询词就可以尽快找到所需内容。•通过站内搜索提供用户最想要的结果,成为提升用户体验的重要工具之一。2)了解访问者的意图•通过站内搜索技术,除了能够满足尽快提供用户所需内容,还能通过查询日志分析出用户的意图和需求。•客户的需求永远都是最重要的,分析用户的需求对于每个网站改善自身都是非常重要的。•通过分析用户需求,改善网站结构,能够有效的提升网站价值。3)适应网民习惯•根据调查表明,68.3%的上网者经常使用搜索引擎。大部分人已经习惯通过检索来找到他们想要的东西,而不是按照某个栏目一级一级往下找。•在网站内访问者要是没看见那熟悉的按钮会多少有些不习惯。在心理学角度讲,人们如果对某个事物不习惯很容易产生厌烦情绪。4)方便用户查找网站信息•我们经常会发生这样的事情:只记得某个网站上说了关于某一事件的新闻,但不知道具体的链接在哪里。•另外,要是隐藏在目录很深的html文档可能自从网站建立到整个网站关闭也没有一个人看过。•同时,按照一个主题把所有相关文档提供给访问者,可以让访问者更全面的了解他所想要的东西,这增加了网站信息间的组织性和逻辑性,方便了访问者的使用,提升用户体验度。5)提升网站身份•有没有站内检索其实已经不只是用户体验度的问题了,还是一个网站专业身份的象征。•浏览国内外知名公司的网站,会发现几乎所有网站都在首页最明显的区域放置了一个搜索框,这传达的信息是:专业的网站都有站内检索。•网民的心态是:我用不用,你管不着,你要是没有就说明你不够专业。为了树立专业的形象,也需要使用站内检索。6)提供编辑使用•网站上一定规模后,内部编辑管理庞杂的数据,迫切需要站内搜索来帮出他们从容应对,更好的编辑网站信息内容,避免重复等。1.2.一组数据•当用户访问一个新的网站时,如果在一开始不能很快地寻找到他所想要的信息,那么50%的用户将会很快离开网站。•其中60%将不再光顾这个网站。•这意味着网站将因为站内检索的缺陷而彻底流失30%的潜在客户。2.新闻搜索引擎与主流搜索引擎的区别以关键字“上海世博会”为例GOOGLE提供的是世博会官方网站等最相关的资料信息,而不是最新的新闻内容。新闻搜索引擎,提供给用户的是最新与“上海世博会”有关的新闻,并且按照出处和时间排序,让用户最直观最快速的了解事件情况。2.1.搜索结果,精确与精准以关键字“上海世博会”为例Google——精准出现“上海世博会官方网站”,但随着时间推移并不会改变,需要体现的是最精准的结果内容。新闻搜索——精确以最新为原则,始终出现最新的新闻内容,每次搜索都找到更新的新闻内容。2.2.结果数量,巨大与无穷大以关键字“上”为例Google——海量获得大约1,290,000,000条查询结果,但实际上能查阅的只有不到1000条(Google为所有查询的结果数都不会超过1000个),因为GOOGLE不区分内容的时间,所以一般用户看不完(也不需要)1000条以上的内容。新闻搜索——无穷可以获得全部结果,能查阅的可以达到无穷多,因为新闻内容可以有时间标签,可能需要查阅不同年份的新闻,比如30年前的新闻内容。2.3.预搜索库,漫长与实时Google——漫长由于包含海量互联网数据,所以需要大约1个月才能整体更新一次数据,每次更新需要大量服务器同时处理6到8天。新闻搜索——实时在没有预处理的情况下,第一次查询大约需要花费1秒左右时间,此后查询相同关键字,只需要0.01秒,在服务器空闲时候进行对高频关键字的预处理。3.报业内容资源搜索面临的问题由于报业数据量庞大,同时多业务部门使用各不相同的业务系统,形成了多数据库,多种业务数据系统,多种格式内容的格局,由此产生了种种问题,例如:1)多个各类数据库并存,无法实现资源内部共享按照目前报业集团的情况,一般报社集团均存在多个数据库。报社编辑如果查阅资料,则需在多个数据库中多次搜索,直接导致时间和人力的浪费。2)检索系统无法整合,重复投资一般报社集团都拥有多套系统,且系统的资源分布于不同的数据库中,对每种数据库,如SQLserver、Oracle、TRS等均有检索要求,造成检索系统无法整合,重复投资。3)报社网站资源优质,网上用户无法获取报社网站上沉淀了大量极其丰富的优质信息资源,包括了用户论坛,博客,数字报纸,网站新闻等等,用户无法统一搜出需要了解的信息。4)新增系统,检索无法整合,扩张性差报业集团与时俱进,不断新增系统。新增系统势必导致新数据库的增加,于是又为报业集团内部的数据整合增加了难度。4.新一代搜索需要解决的问题1)整合多个数据库搜索一般报社都拥有多个系统,例如采编、新媒体、网站等,每个系统都拥有其独立数据库。如何一次性将这些数据搜索出来,减少人员的重复操作?新一代搜索引擎支持跨数据库搜索,可一次性将所需的各库的内容均搜索齐全。充分有效的利用报社资源。2)搜索引擎对互联网的帮助报社网站拥有海量新闻内容,却没有优秀的搜索引擎,用户无法获取需要信息。通过新一代搜索引擎,可以挖掘报社网站深层的信息,随时向用户提供GOOGLE和百度也搜索不到的内容。3)内容搜索精确报社拥有极其丰富的优质信息资源,如何准确的找到需要的内容?通过新一代搜索引擎的多种检索技术,能够快速准确的找到需要的内容。4)呈现方式符合需求搜索到的内容,如何将其以最符合报社人员的需求呈现出来,满足报社人员的需要?新一代搜索引擎的界面设计完全按照报社的需求。5.搜索引擎简介超音速搜素是专为报业新媒体定制的整合搜索引擎:•可以做到整合报业所有数据库供报社编辑记者使用;•同时整合网站的各种应用数据,包括论坛,博客等等提供服务给互联网用户;•并且提供联想功能、智能纠错、搜索结果分类呈现、时光隧道、联合搜索、相关搜索等各种搜索功能。6.超音速搜索引擎的特色6.1.海量数据支持支持数据量达到1亿条,相当于十份报纸五十年的数据量(按照每版10篇新闻,每天30版来计算,每份报纸每年大约10×30×365=109500)6.2.强劲处理性能一台专有检索设备可满足大部分需求,支持10万在线用户,1000个并发搜索请求,服务器可简单叠加,扩展更多用户和并发数。6.3.个性化功能拼音搜索:输入“shanghai”,可以搜索“上海”。联想功能:输入“上海”,可以联想“上海世博会”、“上海国际电影节”等等智能纠错:输入“姚敏”或者“yaoming”,会提示你是否想要搜索“姚明”?分词功能:若搜索一句较长的话分,无搜索结果,系统将自动成若干个词组来搜索。相关搜索:将关键字内容有关联的一些搜索关键字罗列出来,给予用户搜索参考。例如,搜索关键字“上海”,获得如下相关搜索。6.4.无缝式嵌入简便,与原数据库无关不管你原来数据使用的是什么类型的数据库,都可以方便的安装超音速搜索引擎,并且不需要改变原来的数据库和程序。只需要把原内容导出为普通的文本文件,超音速搜索会自动接入。安全,与原服务器无关不管你原来网站服务器使用什么操作系统,超音速搜索引擎只需要1台我们专有的独立检索设备,完全不影响原来的网站架构系统。通过标准的XML规范,可以兼容任何系统。6.5.搜索结果分类呈现不同结果根据其归属分别呈现。新闻:方便用户阅读数字报:提供版面供选博客:提供用户评论论坛:促进用户讨论6.6.时光隧道可以快速了解并检索不同年代的新闻内容。6.7.整合多个数据库搜索报社的资源分部在不同的数据库中,超音速搜索能够一次性在各数据库中将需要的资料准确快速的搜索到,并且根据资料出处归类显示,更利于报社内部资料查阅。7.公司主要成就7.1.2008年,烟台日报报业全媒体数字复合出版系统工程2008年,上海阿耳法信息技术有限公司开发的“烟台日报报业全媒体数字复合出版系统工程”,顺利通过新闻出版总署和数字出版司的验收。——做到了新闻素材的整合(待编稿库)获奖情况此系统已经获得2009年“中国新闻技术工作者联合会【第四届】王选科技进步奖”一等奖。7.2.2009年,解放日报报业全媒体多通道数字出版系统2009年,上海阿耳法信息技术有限公司开发的“解放日报报业全媒体多通道数字出版系统”,顺利通过新闻出版总署和数字出版司的验收。——做到了对新闻成品的二次加工及数据整合。(成品库)获奖情况此系统已经获得2009年“中国新闻技术工作者联合会【第四届】王选科技进步奖”一等奖。