微软--FAST企业搜索平台

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

微软FAST企业搜索平台简介微软(中国)有限公司2010/2/23目录第一章FAST简介.......................................................................................................2第二章FAST系统概述...............................................................................................32.2主要模块概述...............................................................................................32.2.1FASTESP(互联网和企业海量信息智能搜索平台).....................32.2.2FASTUnity(联合搜索解决方案)..................................................42.2.3FASTRecommendations(个性化推荐平台).................................4第三章FAST搜索引擎功能概述...............................................................................53.1信息采集和索引...........................................................................................53.1.1采集多种数据源的信息...................................................................53.1.2信息索引机制...................................................................................73.2信息加工处理...............................................................................................83.2.1信息加工处理流水线.......................................................................83.2.2语言学处理及分词断句....................................................................93.2.3实体提炼.........................................................................................113.2.4分类引擎.........................................................................................123.2.5人工关联.........................................................................................123.3确保内容相关性.........................................................................................123.4搜索结果处理.............................................................................................133.5用户体验.....................................................................................................153.6管理和监测.................................................................................................20微软FAST企业搜索平台简介2/24第一章FAST简介FAST是新一代企业搜索技术与资讯革命的中心,我们的创新将继续推进市场的转变,改变组织营运的方法与策略,将企业搜索转变成IT架构里的重要组件,并让搜索成为每个重要应用的核心引擎。FAST的客户群分布于各个行业,以搜索科技领先竞争对手。*FAST目前是微软的子公司。研究表明,企事业单位的数据量以每年两倍的速度成长,数据格式种类也不断地多元发展,除了透过关系数据库存取的结构化数据,非结构化数据更是大幅增加,如:文件、日志、邮件、网页等。对于企事业单位内部应用来说,多已完成办公、管理等系统的建设,但这些系统其实仅处理了占数据总量20%的结构化数据,占80%之非结构化数据的管理与搜索仍然缺乏妥善的解决方案,若要同时搜索结构化与非结构化数据更是加倍困难,而这却是组织取得正确、完整数据以进行有利决策的必要条件。对于企事业单位外部应用来说,为客户群提供更好的服务,吸引新客户、留住老客户,将获取自数以百计的数据源的信息进行整合、统一展现,让访问量最大限度的转化为盈利都成为日渐紧迫的任务。因此,要真正将所有数据转化成为帮助企业提高生产力与获利的资产,关键下一步就是“企业搜索-EnterpriseSearch”。透过企业搜索,组织内部的用户得以快速从庞大而多元的数据集中获得有用的解答,组织外部的用户更因优异的使用体验,进而提高忠诚度与贡献,而真正的企业搜索平台必须具备:提高生产力——高效能搜索平台要能以最低成本,在最短时间内搜索最大量且精确数据。FAST透过单一平台即可搜索结构与非结构化等各类型数据,并藉由语言学技术,建立索引,提供精准、符合企业背景与特性的搜索结果,而非一般无差别的搜索方式,FASTESP更具备比数据库快数十倍的查询效能,大幅降低机器和数据库软件购买的成本,并减轻DBA(数据库管理员)的维护工作,同时FASTESP带来的准确、快速、更佳的用户体验都能提高企业的运作效率。提供盈利方案——搜索要转化为广告点击率、交易金额与促销成功率,才能带来实质获利,透过FASTESP,您可结合客户搜索数据、浏览网页的习惯以及其个人配置(profile)数据,提供更符合需求的推荐商品或更能引起兴趣的广告呈现,使搜索与获利得以紧密结合。根据Gartner于2009年9月对企业搜索市场的研究报告指出,微软凭借FASTESP在企业搜索需求的前瞻性、涵盖度和实现能力,已成为该行业的全球领导者。微软FAST企业搜索平台简介3/24第二章FAST系统概述微软FAST提供搜索引擎的应用方案,将不同来源的所有信息内容整合在一起并以易用的形式再现给用户,为用户提供高度相关的搜索结果和个性化的搜索体验。微软FAST致力于为每个接入终端(PC、手机等)都提供最好的用户体验。从功能上描述,主要实现以下功能:信息采集和索引:从多种资源获取信息内容,包括数据库,文本文件和现有的网站,并对所有内容建立索引。信息加工处理:提供语言学和其他文本分析工具,这些工具不仅能分析数据库数据还能分析现有的网页信息,并将信息以易用的形式再现给用户。个性化搜索及推荐:提供先进的移动搜索方式,可以帮助终端用户简单准确直观的获取内容和信息。管理和统计:提供丰富的基于Web的管理界面,用于创建、配置和管理搜索集合,监测和控制系统的组成部分。系统对用户的搜索行为作详细和全面的日志记录,以日志文件的形式存在,也可以将日志信息转存到数据库作进一步分析使用,便于进行全面的业务统计。2.2主要模块概述微软FAST不仅仅是一个搜索解决方案,它涵盖了搜索、推荐、联合检索、上下文相关广告、电子商务应用等众多方面,能够为用户带来整套的盈利方案。在这里,我们先介绍一些能够实现这些功能的主要模块。2.2.1FASTESP(互联网和企业海量信息智能搜索平台)FASTESP是FAST整套解决方案中的核心模块,可以为您提供一个海量信息的智能搜索平台,包括对组织内部及外部互联网信息的搜索。FASTESP主要实现信息采集、信息处理和信息搜索等功能。FASTESP通过独具特色的高级语言学处理(同义词、去除无用词、歧义纠正、实体提炼等)、智能化搜索(智能纠错、下拉提示、个性化搜索等)、搜索结果分类导航及动态钻取等功能为用户提供体验更好、相关性和准确度更高的结果,从而大大提升用户的搜索满意度。在提供强大功能的同时,FASTESP还具有优异的性能特性,可支持上亿级的文档数量实现毫秒级的响应,它支持线性扩展,支持负载均衡的分布式体系结构,使低成本的硬件仍然能实现高性能,能够处理每秒数以百计的更新,每秒数以千计的查询,同时仍能保持亚秒级的响应速度。微软FAST企业搜索平台简介4/242.2.2FASTUnity(联合搜索解决方案)FASTUnity是一个联合搜索的解决方案,能够将由FAST构成的本站搜索引擎和外部流行的搜索引擎,如12580、Google、Yahoo、Baidu等联合实现对用户的全方位搜索体验。图FASTUnity——联合搜索平台2.2.3FASTRecommendations(个性化推荐平台)FASTRecommendations是一个全方位的基于用户行为和喜好的个性化推荐解决方案,包括相关产品、信息、新闻推荐和社交推荐(推荐有同样喜好的人)。FASTRecommendations由三个核心产品组件组成:一个配置引擎,一个数据挖掘引擎和一个推荐引擎。它通过跟踪多种具体的和不具体的客户喜好事件(即搜索,页面浏览,内容预览,购买,点击率等)产生唯一的客户配置文件,然后再对这些配置文件进行数据挖掘,建立起内容间的联系、内容与人的联系及人与人的联系,从而根据这些联系实现丰富多样的推荐特性。FAST推荐平台使在线服务提供更个性化的用户体验,从而促进产品销售、增加广告收入和建立客户忠诚度。微软FAST企业搜索平台简介5/24第三章FAST搜索引擎功能概述3.1信息采集和索引3.1.1采集多种数据源的信息对于一个规模较大的企事业单位来说,搜索业务中所涉及的数据源多种多样,如站内数据库、第三方提供的数据及其他网站等。微软FAST可以采集多种数据源的信息,对搜索结果进行逻辑集合,形成索引。结果集可以来自一个或多个信息源,多种信息源可以存在于独立的物理索引中。在搜索端,可以同时搜索一个或几个位于一台或更多机器上的物理索引。为处理不同的内部或者外部信息源,微软FAST提供了各种结构数据的采集工具,能够抓取结构化、非结构化及富媒体的数据源。微软FAST为文件系统、网页(http、ftp、https等协议访问的)、关系型数据库(Oracle、DB2、SQLServer及其它类型的jdbc数据库)、MSExchange、LotusNotes、SAP、MSSharePoint等几百种系统提供连接器。并且,还提供了一个定制连接器的API,可以定制连接器,如果用户需要哪些连接器,可以被快速而有效的创建。微软FAST提供了数据库连接器、网络爬虫(WebCrawler)、文件遍历器等工具来实现多种数据源信息内容的采集。3.1.1.1文件系统遍历器文件系统遍历器的特点:支持超过370种格式的文档,包括常见的MicrosoftOffice,text和AdobePDF支持XML文件,并根据XML文件的定义将其中的条目以可搜索的条目对待提供图形方式和命令行行方式运行支持本地文件夹和网络文件夹的访问支持以登录

1 / 24
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功