基于MicrosoftOfficeSharePointServer2007的微软企业级网站搜索解决方案2解决方案综述微软企业级网站搜索解决方案,基于SharePoint强大的搜索引擎,支持对各种形态的Web站点内容的搜索爬取基于Form认证的网站爬取基于图片数字认证的网站爬取使用Ajax技术的网站大量通过Javascript生成链接的网站适用场景企业内外门户的搜索引擎竞争情报分析系统的搜索引擎内容提要客户面临的挑战解决方案介绍应用场景解决方案架构实现流程关键技术解决方案的商业价值企业级Web站点搜索引擎面临的问题形态多样的Web站点给爬网带来的困难现在很多网站都是基于各自的Forms验证,该如何爬取?有很多网站在基于Forms基础上还提供了数字图片认证方式,由该如何爬取?有很多网站为了提供各种动态效果使用了Ajax技术,这又该如何爬取?网站有大量链接都是通过JavaScript生成的,如何爬取呢?应用场景举例基于Forms认证及图片数字认证的网站基于Ajax技术的网站解决方案架构CrawlingResultCrawlingResultSearchCenterContent解决方案实现流程WebPartCrawlingConfigCrawledLogSearchResultsSharePointDocumentLibDBWeb.ConfigTaskQueueCrawlerConnectStringin“crawlconfig.xml”MOSS2007SharePointSearchServiceTargetsitesforCrawlingFormauthenticationenabledDigitalimageauthentication1234CrawlingResultsList56关键技术爬网模块WinForm+.NET2.0WebbrowserControl+MSHTMLControl使用基于WinForm能充分利用windows的消息循环及其多线程机制。使用.NET2.0WebbrowserControl获取网页,可以利用IE内核快速实现高效爬网网页分析基于IE内核的MSHTML控件数字图片认证模块采用“Otsu阈值算法”二值化图片预处理采用“欧氏最小距离法”聚类分析识别图片数字爬网配置模块WebPart开发及数据库的读取使用WebPart开发模板控件,快速开发WebPart使用MenuTemplate、SPGridView类实现与SharePointSearchService的无缝集成在wss_minimaltrust.config文件中添加节点SecurityClassName=SqlClientPermissionDescription=System.Data.SqlClient.SqlClientPermission,System.Data,Version=1.0.5000.0,Culture=neutral,PublicKeyToken=b77a5c561934e089/实现对数据库的读写模板控件下载地址::小型部署一台搜索服务器同时提供搜索引擎所需的各项功能搜索用户搜索服务器(Web+检索+索引+数据库)部署场景:中型部署3台搜索服务器分别提供搜索引擎所需的各项功能支持更多并发用户Web服务器+检索服务器搜索用户索引服务器数据库(单机/群集)部署场景:大型部署多台搜索服务器分别提供搜索引擎所需的各项功能横向扩展的性能支持更多并发用户Web服务器+检索服务器搜索用户索引服务器数据库服务器解决方案的优势及商业价值高效省时安装方便,提供安装程序,傻瓜式的安装步骤。类似MicrosoftSharePoint2007内置爬网配置界面,使得配置操作简单明了。基于WindowsService的爬网引擎,控制管理变得非常容易。IT优势通过WePart与SharePointDocumentLibrary的良好支持,实现了与MicrosoftSharePoint2007无缝结合。源代码开放完全开放源代码,可以方便扩展及完善。信息资源增加通过本解决方案可以获取Internet上更多的有价值信息快速实现企业内异架构系统的信息发现企业内不同平台架构的信息可以通过本解决方案快速的集中到SharePoint搜索中心©2006MicrosoftCorporation.Allrightsreserved.Thispresentationisforinformationalpurposesonly.Microsoftmakesnowarranties,expressorimplied,inthissummary.