JIANGXINORMALUNIVERSITY学士学位论文THESISOFBACHELOR(2010—2014年)比赛信息集成系统——后台网络爬虫与信息处理Platformgameinformationintegrationsystem——Thenetworkandinformationprocessing指导老师:__彭雅丽(讲师)姓名:_____何亚婷___学号:__201067001335_学院:____软件学院___专业:____软件工程___完成时间:___2014年3月___声明本人郑重声明:所呈交的毕业设计(论文)是本人在指导教师指导下进行的研究工作及取得的研究成果。其中除加以标注和致谢的地方,以及法律规定允许的之外,不包含其他人已经发表或撰写完成并以某种方式公开过的研究成果,也不包含为获得其他教育机构的学位或证书而作的材料。其他同志对本研究所做的任何贡献均已在文中作了明确的说明并表示谢意。本毕业设计(论文)成果是本人在江西师范大学读书期间在指导教师指导下取得的,成果归江西师范大学所有。特此声明。声明人(毕业设计(论文)作者)学号:声明人(毕业设计(论文)作者)签名:签名日期:年月日摘要I摘要针对当前网络中对于比赛信息整合的缺乏,人们难以方便地寻找到当前某一阶段所举办的全部比赛信息的现状。为此,全力打造一个服务于在校学生和在职人员等轻松、便捷、互动地参与各类竞赛活动的竞赛门户网站迫在眉睫。因此,该系统致力于系统地收集和整理各个领域的各类赛事,为参赛者提供最优质的信息服务,使得来自全国各地的参赛选手可以相互学习可以分享心得,并且通过各种有意义的比赛不断提升自己。为了提供最全面的大学生赛事信息,比赛信息平台通过设计赛事的爬虫系统,整合所有的赛事信息,并经过筛选后呈现在用户面前。系统主要功能模块包括前台网站的实现,网络爬虫的制作,论坛的开发,后台开发与管理以及会员空间的开发与实现。系统使用了heritrix、htmlparser和java相结合的技术开发。后台使用heritrix和htmlparser技术实现比赛信息的抓取和筛选等工作,同时使用java技术录入信息,并管理前台的会员信息、论坛信息及赛事信息等,前台运用java技术js特效等实现赛事呈现、论坛运行、会员赛事发布等功能。论文首先叙述了系统的开发背景和研究内容,接着简单介绍了系统的开发平台及相关技术,然后对系统做了一个整体的系统规划和交互数据的设计,最后对网络爬虫模块和后台信息筛选调度模块的设计与具体实现做了重点阐述。关键词:网络爬虫技术;页面解析技术;数据流技术;js特效。AbstractIIAbstractInviewofthecurrentnetworkforlackofcompetitioninformationintegration,itisdifficulttoconvenientlyfindcurrentsituationofonestageheldbyallthegameinformation.Therefore,tobuildaservicetostudentsandstaff,easy,convenient,interactiveparticipationinvariouscompetitionscontestportalimminent,therefore,thissystemaimstosystematicallycollectandcollateallareasofvariousevents,toprovidethebestqualityinformationservicefortheparticipantsfromalloverthecountry,thecontestantsyoucanlearnfromeachothertoshareexperiences,andthroughvariousmeaningfulgamescontinuetoimprovetheirown.Inordertoprovidestudentsthemostcomprehensiveeventinformation,competitioninformationplatformthroughthedesigneventcrawlersystem,integratingalltheeventinformation,andafterscreeningappearinfrontofusers.Themainfunctionmodulesofthesystemincludingtherealizationofthewebsite,makingwebcrawler,theforum'sdevelopment,thedevelopmentandimplementationofthedevelopmentandmanagementaswellasmembersofspace.Systemdevelopmentusingheritrix,HtmlparserandJavacombination.Grabandscreening,thebackgroundusingheritrixandHtmlparsertechnologytorealizethegameinformation,Javatechnologyisusedtoinputinformation,andmanagethemembershipinformation,foruminformationandeventinformation,frontusingJavatechnologyJSeffectssuchasrealizationoftheeventshow,running,MembersForumeventdisseminationfunctions.Thispaperfirstdescribesthedevelopmentbackgroundofthesystemandthecontentoftheresearch,andthenintroducesthesystemdevelopmentplatformandrelatedtechnologies,andthendesignedawholesystemplanningandinteractivedataonthesystem,thedesignofnetworkcrawlermoduleandbackgroundinformationscreeninghimselfresponsiblefortheschedulingmoduleandimplementationtomakethekeyexposition.Keywords:Webcrawlertechnology;pageanalysistechnology;datastream;JSeffects.目录III目录第1章引言..............................................11.1系统开发的背景..............................................11.2系统开发的目标、意义........................................11.3本文的组织..................................................2第2章相关技术简介......................................42.1系统开发平台及开发工具......................................42.2工具和编程语言..............................................42.2.1HERITRIX技术....................................................52.2.2HTMLPARSER技术..................................................62.2.3JAVA语言.......................................................62.2.4JAVAIO流技术...................................................72.2.5JDBC技术......................................................8第3章系统分析与设计....................................93.1功能需求....................................................93.1.1系统数据流图...................................................93.1.2系统状态图....................................................113.2功能介绍...................................................123.3概念结构...................................................133.3.1概念结构设计..................................................133.3.2逻辑结构设计..................................................14第4章模块实现.........................................174.1爬虫模块...................................................174.1.1设计事项......................................................174.1.2操作界面......................................................174.1.3核心代码......................................................234.2页面解析文本信息入库模块(HTMLPARSER).......................29目录IV4.2.1设计思想......................................................294.2.2操作界面......................................................294.2.3核心代码......................................................314.3信息筛选上传、信息查看删除的模块...........................344.3.1设计思想......................................................344.3.2操作界面......................................................354.3.3核心代码......................................................37总结....................................................40参考文献................................................42第1章引言1第1章引言1.1系统开发的背景信息