中科院网站站内搜索引擎课程设计报告需求分析与项目设计报告1.封面及个人贡献的分解a)第一页i.课程名称高级软件工程ii.项目名称中科院网站站内搜索引擎iii.提交日期2010年1月22日iv.项目组成员列表小组成员均来自软件研究所学号姓名手机号邮箱200928015029038许利杰15210909647csxulijie@gmail.com200928015029047赵占平15001270254zhaozhanping09@mails.gucas.ac.cn200928015029041张灿15210631362canzhanghys@163.com200928015029012高蕾15210902177gaolei09@mails.gucas.ac.cn200928015029046赵鑫15210902170zhaoxin155001@163.com200928015029017李奇原15210909712liqiyuan312@gmail.comb)第二页i.个人贡献分解表成员职责小组成员姓名许利杰高蕾赵占平赵鑫张灿李奇原项目管理(10)60%10%20%10%4:用户需求说明(7)20%20%20%20%20%5:术语表(3)100%6:功能需求详述(10)25%15%30%30%7:非功能需求(2)50%50%8:领域分析(5)50%50%9:交互图(协作图)(10)20%10%50%20%10:类图和接口规范(20)20%20%20%25%15%11:系统体系结构和系统设计(10)30%30%10%10%20%12:算法和数据结构(10)20%10%20%20%30%13:用户界面设计(10)20%50%30%14:工作历史(2)100%16:参考文献(1)100%2.目录中科院网站站内搜索引擎课程设计报告.......................................................................................1需求分析与项目设计报告.......................................................................................................11.封面及个人贡献的分解...................................................................................12.目录...................................................................................................................33.更改说明...........................................................................................................44.用户需求说明...................................................................................................44.1.项目背景.................................................................................................44.2.项目目的.................................................................................................44.3.已有的解决方法.....................................................................................54.4.具体用户需求.........................................................................................55.术语表...............................................................................................................66.功能需求详述...................................................................................................67.非功能需求.....................................................................................................128.领域分析.........................................................................................................139.交互图(协作图).........................................................................................1510.类图和接口规范.............................................................................................1911.系统体系结构和系统设计.............................................................................2512.算法和数据结构.............................................................................................2713.用户界面设计.................................................................................................3114.工作历史.........................................................................................................3715.结论和未来工作.............................................................................................3916.参考文献.........................................................................................................413.更改说明需求方面变更:1、将分类检索从可选功能改为比做功能。2、增加了搜索建议功能。3、支持中文语句搜索,不仅能够进行中文解析,还要能处理用户输入的中文语句。4、增加了站点查询功能。用例图变更:除了用户分类检索图以外,其他的用例图重新进行了分析与绘制。序列图变更:绘制了系统序列图,除了用户分类检索图以外,其他的用例图重新进行了分析与绘制。4.用户需求说明4.1.项目背景目前高校网站或者一般网站中使用的站内搜索引擎基本有三大类:一种是使用Google的站内搜索引擎服务(由GoogleSearchAppliance驱动)。例如:清华大学、上海交大、浙江大学等等,Google提供这种搜索服务是要收费的。一种是使用原始的文件索引技术,类似于在word中查找关键字的方法对文档进行搜索,因此只能搜索一些办公通知(如:中科院研究生院)。最后一种是只能搜索校内各个下属网站主页(如:武汉大学,相当于查询一个主页名字和网站地址的映射表)。后两种不能称之为真正意义上的站内搜索引擎。比较特殊的是北京大学的站内搜索使用了自己开发的天网搜索引擎,属于真正意义上的站内搜索引擎。4.2.项目目的针对中科院旗下网站,部署一个类似Google站内搜索和北大天网搜索引擎的站内式搜索引擎。用户通过输入关键字能够检索到内容相关的站内网页、文档等多种文件,并能够对搜索结果进行排序、分类和整理,最终通过浏览器将结果返回给用户。另外,根据中科院的特点,站内搜索引擎提供分类检索功能,用户可以选择对人员、科研、招生等信息进行专题搜索。4.3.已有的解决方法从目前调查结果来看,北大天网搜索引擎返回结果中不能直接提供MSword、pdf等文件的直接链接,也就是不能对这些文件进行有效解析和搜索。Google站内搜索可以(通过点击返回的结果标题,可以直接下载doc、pdf等文件)。但Google站内搜索没有提供网页快照功能,天网提供了。其他高校如华中科技大学的站内搜索也能够对站内的网页进行搜索,但是也只能处理网页,不能处理其他类型的文件。中科院目前的站内搜索也是同样的情况。除了Google的站内搜索服务,目前另一位比较优秀的站内搜索引擎是基于开源检索工具改造和搭建的。如:美国俄勒冈州立大学的站内搜索引擎()。,不仅能够对校内网页进行索引,而且能够对内容进行分类检索,支持多种格式文件的检索。其检索界面如下图:4.4.具体用户需求1)站内搜索引擎是一个大型网站提供的一种网络服务,是为了方便用户快速检索到自己想要访问的网页或文件。因此在网站首页应包含简洁、醒目的搜索框,用户直接在搜索框中键入查询关键字,点击确认或回车后,网站应能够快速响应请求,并将符合用户搜索的结果通过网页形式反馈给用户。2)用户希望返回结果中,除了相应结果的链接,还要有对网页的简单摘要,如商业搜索引擎中一般有3到4行对搜索结果的描述,便于用户鉴别是否是自己想要访问的链接。另外,返回的结果应该按照查询关键词的相关度排序,越符合查询要求的应该放的越靠前。第一页显示10条左右的查询结果,如果过多的查询结果放在同一页,会令用户感觉复杂繁多。如果查询结果多于10条,可以让用户通过点击下一页等方式来访问。3)搜索引擎要能够定期自动更新,因为不断地有新的网页或者文件加入到网站中,定期更新搜索结果,能够保证用户能够及时地通过站内搜索引擎访问到新加入的资源。最好还能够提供网页快照功能,便于用户快速访问已经关闭或者暂时不能访问的网页。4)能够提供基于内容分类的检索服务。例如:商业搜索引擎可以为用户提供不同内容的检索服务(如:图片、mp3、视频、博客等等)。由于本项目针对中科院内部网站,用户可能需要检索中科院内人员、科研、招生等相关信息,所以本项目应能够提供这些分类检索服务。5)搜索框内相关搜索结果提示。为了方面搜索引擎与用户之间的交互,当用户在搜索框中键入关键字时,搜索引擎最好能够提供搜索提示。如当用户在搜索框中键入“科”时,搜索框能够动提示以“科”为前缀的短语及包含该短语的搜索结果个数。6)良好的语言识别能力。由于用户可能在搜索框中键入中文或英文,而中文在自然语言处理领域是比较难以处理的语言。搜索引擎应该能够正确地理解用户输入,在理解的基础上进行检索,并能够根据词语的相关性对搜索结果进行有效地排序输出。5.术语表爬虫:将web网页自动下载到本地的网络程序。URL:统一资源定位符(英语UniformResourceLocator的缩写)也被称为网