基于RSSBus的社交媒体信息收集分析系统

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

提交论文日期论文类型工程领域企业指导教师姓名职称学校指导教师姓名职称作者姓名题(中、英文)目基于RSSBus的社交媒体信息收集分析系统张羽辰计算机技术应用软件技术马建峰教授夏凯明高工ASocialMediaHarvesterBasedonRSSBus代号分类号学号密级10701G354.4公开0951490246UDC编号二○一二年二月声明西安电子科技大学学位论文独创性声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。(保密的论文在解密后遵守此规定)本学位论文属于保密,在年解密后适用本授权书。本人签名:导师签名:日期:日期:摘要摘要互联网从诞生到现在已经经历了近30年的发展,随着技术的不断更新以及移动互联网的发展,越来越多的人们开始使用互联网作为信息来源。社交网络就是在21世纪初兴起的新一代网络信息交互平台。相对于传统的门户网站、电子邮件、IM等信息传播应用,社交网络通过建立类似于真实社会的信息网络作为基础,使用者在社交网络中的身份与社会人的身份十分类似,在社交网络中,使用者可以发布、消费、评论、传播消息,是社交网络信息传播的核心。由于社交网络的社会性,传播方式也类似于在真实社会中信息的传播,其中的信息能够反映当前的社会情况,人们的普遍关注点以及对焦点事件的看法。目前人们可以使用各种方式接入社交网络,随时随地的发表自己的看法,得益于互联网技术的发展,社交网络中的信息也在爆炸性的增长。如何在大量的信息中挖掘出其中蕴含的价值,是目前对社交网络信息研究中的热点。在研究这些大量的信息前,最重要的就是完成一个科学、准确的信息收集系统。收集系统通过定制就可以为信息使用者提供相应的数据,并且保证收集数据的准确性与时效性。在获取到准确的信息后,就可以使用分析技术对其进行分析处理,由于社交网络的社会性,可以通过社会统计学的思想来确立一套基本的分析思想,进行数据挖掘,从而获取正确的结果。本文首先分析了目前各大社交网络中的信息情况,根据不同社交网络中信息的特点,提出了使用Twitter作为信息收集源的收集方法。相对于其他社交网络中的信息情况,Twitter中的信息符合互联网信息传播的理想方式,信息不会有衰减、消耗以及损失。用户通过设定关键字对某信息进行收集,设定收集逻辑。通过系统收集到的信息,本文建立了一个多元线性回归模型来预测某部电影的票房收入,通过MATLAB提供的统计学工具进行详细计算。该信息收集处理平台是一个基于RSSBus的应用,可以按照分布式的方式部署在网络中,通过RSSBus所提供的WebService接口来暴露服务,系统之间通过网络互相调用。本系统于2011年10月推出了系统的试用版本,目前已经正常运行了2个多月,完成了19部电影信息的收集工作,同时正在收集23部电影信息。从收集到的数据来看,系统所收集到的数据很好的反映了社交网络中信息的特点,经过数学模型的计算,结果误差在20%之间。关键词:社交网络信息收集与分析RSSBus分布式设计AbstractAbstractWiththedevelopmentoftheInternet,moreandmorepeoplebeganusingtheInternetintheirlives,Internethaschangedourlivestobringconveniencesratherthansetabarrier.Currently,SocialNetworkingServices(SNS)isthemostpopularoneofalltheapplicationsontheInternet.SNSprovidesusabettertoolandplatformforsharinginformationormakingadiscussionwithotherpeople.TheamountofinformationinSNSisincreasingwithhighqualityyearbyyear,soitisnecessarytoestablishacollectionandanalysissystemtohelpresearcherstocollectthemessageseasily.ThatwillexcavateoutthepotentialandthevaluableinformationfromSNS.Inthispaper,weareusingRSSBustobuildasocialmediaharvestersystem(SMH).RSSBussupportsusertocreatewebapplicationonitsplatform,andusercaninvoketheservicesbymultipleprotocols.SMHwillhelpuserstocollectmessagesfromTwitterbykeywords.ComparetootherSNSapplications,informationfromTwitterwillnotbedelayedandlosses.SMHsupportsusertocustomizethecollectionprocesses,likechoosingthekeywords,searchingcitesandsoon.Thecollectiontasksarecontrolledbyaschedulerfunction,itwillstarttheprocessesintime,andadjuststhetimeintervalofeachprocess.Fromthedatacollectedwecanusestatisticalmethodtofindouttherelationbetweenthekeywordsandthecollecteddata.Inthispaper,wechooseamultipleregressionmodelinMATLABtopredicttheboxofficeincomebytheamountofthecollectedtweets,andtheresultisacceptable.Theresultwillprovideareferencetothefilmcompany.Currently,thissystemhasbeenrunningformorethantwomonths,andhascollected19moviesinformation.Inaddition,thereare23moviesinthecollectionjob.IngeneralSMHisadistributedsystem,themodelsofthissystemhavebeendeployedindifferentserversandinvokeeachotherbywebservice.Keyword:SNS(SocialNetworkingSystem)RSSBusSMH(SocialMediaHarvester)MultipleRegressionDistributedSystem目录目录第一章绪论.......................................................................................................11.1研究背景及意义...................................................................................11.2国内外研究现状...................................................................................21.3本文工作说明与结构...........................................................................4第二章系统设计...............................................................................................72.1系统设计理念.......................................................................................72.1.1系统描述.................................................................................72.1.2系统总体设计.........................................................................82.2具体设计方案.....................................................................................102.2.1子系统间设计与交互概述...................................................102.2.2Twitter信息收集子系统设计..............................................112.2.3电视字幕信息收集子系统设计...........................................132.2.4数学分析模块设计...............................................................15第三章Twitter信息收集子系统...................................................................173.1概述.....................................................................................................173.2具体实现.............................................................................................213.2.1收集层实现...........................................................................213.2.2事务逻辑层实现...................................................................243.2.3数据库层实现..............................

1 / 87
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功