WBIA项目初步计划报告TomorrowActivity1项目初步计划书项目名称基于时间的活动分类搜索项目单位北京大学计算机科学技术系项目成员欧阳锦林罗庆军叶萍胡雅杰WBIA项目初步计划报告TomorrowActivity2目录第1章项目综述........................................................................................................................31.1项目背景.........................................................................................................................................31.2系统简介.........................................................................................................................................41.2.1功能概况...................................................................................................................................41.2.2目标与意义...............................................................................................................................4第2章项目分析........................................................................................................................52.1技术分析........................................................................................................................................52.1.1系统基本架构...........................................................................................................................52.1.2基本技术分析...........................................................................................................................62.1.3技术难点分析...........................................................................................................................62.2商业分析........................................................................................................................................72.2.1活动与搜索的当前状况...........................................................................................................72.2.2商业模型.................................................................................................................................7第3章项目实施........................................................................................................................83.1实施阶段........................................................................................................................................83.2任务安排........................................................................................................................................8WBIA项目初步计划报告TomorrowActivity3第1章项目综述1.1项目背景“当这个世界正在慢慢的改变,世界不再是圆的,网络让世界变成平的,所有的资讯来源非常方便”,托马斯·弗里德曼在《世界是平的》这样写道。爆炸性发展的网络信息、越来越便捷的通讯与交通方式,似乎加快了地球的旋转,也加快了人们的生活节奏。然而,Web是一个庞大的信息资源库。自从Web产生以来,其承载的信息量急剧的增长,使得Web的使用者找到对自己有用的信息的难度越来越大。在这样的环境下,搜索引擎应运而生。它就像网络信息资源的过滤与组织者,将用户需要的信息返回,屏蔽掉用户不关心的信息。同时,快节奏的生活要求人们努力提高时间的利用效率,但是,随着世界变得越来越平,人们社会关系网也日趋复杂,人们对于未来活动的安排和选择也越来越多的与别人甚至陌生人相关,在这样的背景下,如何在复杂的活动中选择了有效的安排,成了当今时代的又一个课题。我们正是在上述两个大的背景下,产生了我们这个项目最初的想法。我们的系统基于如下理念:立足于Web的海量数据,以搜索分类为核心技术,对以时间为基准,以活动为主要内容的信息进行搜索、分类,最后提供给用户一个统一、清晰的活动信息,让人们更快捷的找到自己感兴趣的活动,以高效安排自己的日程。我们的信念是:抓住世界的明天!WBIA项目初步计划报告TomorrowActivity41.2系统简介1.2.1功能概况本系统分两期工程,第一期实现一个基于Web信息的活动搜索、分类与查询;第二期建立网络日历日程安排平台,并建立平台内部活动的搜索。计划在WBIA项目安排的时间内,务必完成第一期工程。第二期工程视第一期工程的时间、效果和需求再做安排。第一期工程的功能有:简单搜索:只需要给出一个时间段,便可得到此时间段的所有活动情况。条件搜索:提供活动内容的分类的条件搜索:如报告、通知。提供活动范围的分类的条件搜索:如北京大学、信息科学技术学院高级搜索:提供关键字查询搜索。并对关键字进行语义分析,确定关键字所属类别(可能是多个),对关键字匹配结果做选择、加权排序并输出。1.2.2目标与意义“明天是可以抓住的,世界的明天就在你手中。”这是所有人的梦想。而让用户实现这个梦想,正是我们团队和项目所有的目标与意义所在。WBIA项目初步计划报告TomorrowActivity5第2章项目分析2.1技术分析2.1.1系统基本架构下面是第一项目第一期工程系统模块图:图表1:TomorrowActivity第一期项目模块图数据抓取Crawler信息过滤Filter逻辑处理Plan界面、交互Interface分析后数据存储、索引信息分析与分类Analyzer信息检索Searcher原数据存储WebWBIA项目初步计划报告TomorrowActivity62.1.2基本技术分析数据抓取Crawler实际上是一个爬虫,先计划在北京大学校内搜索。主要针对新闻发布、报告转会BBS等几个主要的版面进行搜索。信息过滤Filter网页信息过虑器,过虑一些无关网页与模板。并将其存储在原始数据库中。原数据存储存储过虑和规整后的信息。信息分析与分类Analyzer使用恰当的分类算法对规整化的网页进行分类分析分析后的数据存储存储和索引分类好的信息信息检索Searcher执行查询命令,并根据查询结果对不同分类,不同的条件进行加权排序输出。逻辑处理Plan根据界面搜索条件与查询语句生成逻辑查询计划界面、交互WebInterface提供简单、条件与高级搜索,供用户查询搜索。2.1.3技术难点分析在上述的基本模块中,比较复杂的是:信息分析与分类Analyzer和信息检索Searcher。对于信息的分类,我们的设想是先人工的定义好几个分类,以及这几个分类的关键词,然后对文本进行分析后自动聚类到某个分类中去。这是整个项目搜索准确度与效率的关键。另外,我们还考虑未来系统的可扩充性,计划提供一个机制,以应对分类的增加。基本的想法是定义一个接口和数据结构,以增加分类和这个分类的关键词,同时也可以提供一个训练集来描述和增加新的分类。对于信息检索Searcher,主要涉及对结果的排序算法。这也是提高系统准确性和可用性的关键技术。WBIA项目初步计划报告TomorrowActivity72.2商业分析2.2.1活动与搜索的当前状况活动安排的重要性在现代人生活中显而易见,从手机日历、Google日历和各位日程安排软件的盛行便可略见一斑。而Google的生活搜索和酷讯搜索只是针对某一行业信息的内容搜索。而基于时间的活动搜索却没有见到一个市面上的产品来提供此服务。因此,基于时间的活动搜索还具有巨大的市场潜力。2.2.2商业模型在第一期工程结束后,如果有了一定的用户群,我们便可以推出形如Google日历平台,让用户注册并将搜索到的活动便易的加入日历当中,这样平台数据的准确性与Web数据的海量性便可以相互补充,以提供人们更多的、更准确的活动选择。除了利用两期工程相互配合以吸引用户的模型之外,还可以对搜索结果进行竞价排名的赢利模式。比如,我们将某付过费的商场的打折活动信息加权排序。另外,此系统还有结伴活动、交友等市场潜力,当然,这一切的基础是,有足够的用户认可和使用我们的产品。WBIA项目初步计划报告TomorrowActivity8第3章项目实施3.1实施阶段项目预计在一个月内完成基本模型系统的实现,以周为单位大致可分为三个阶段:第一阶段11.26-12.3(一周)系统分析,产生各个模块、分配任务。第二阶段12.3-12.17各模块详细分析和实现。第三阶段12.17-12.23系统整合与发布系统测试3.2任务安排还未定,在第一个阶段系统分析之后再分配决定。