网络舆情分析系统设计与实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

论文题目网络舆情发现与分析系统设计与实现专业学位类别工程硕士学号200992230120作者姓名殷晋指导教师雷航教授分类号密级UDC注1学位论文网络舆情发现与分析系统设计与实现(题名和副题名)殷晋(作者姓名)指导教师雷航教授电子科技大学成都刘丽新高工四川省八零三研究所成都(姓名、职称、单位名称)申请学位级别硕士专业学位类别工程硕士工程领域名称软件工程提交论文日期2014.04论文答辩日期2014.06.04学位授予单位和日期电子科技大学2014年06月28日答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。12FOUNDPUBLICOPINIONANDANALYSISSYSTEMOFTHENETWORKAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:MasterofEngineeringAuthor:YinJinAdvisor:LeiHangSchool:SchoolofInformationandSoftwareEngineering独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:日期:年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)作者签名:导师签名:日期:年月日摘要I摘要互联网的高速发展使网络信息越来越难以处理,传统的以人工分类为基础的处理方式已完全不能够适应如此规模的网络信息量得处理工作,为此,很有必要依靠信息通讯技术,建立网络舆情监控分析系统,及时应对网络舆情,由被动防堵化为主动梳理、引导。作为一个新的研究课题,对网络舆情的监控和分析,已需要建立在高科技的现代信息技术当中,从而能够及时面对网络舆情突发事项并在第一时间对其进行主动控制。网络舆情发现与分析系统的目的是开发出用于业务单位实际工作的工具性产品,能够快速地针对所关注的话题检索关注范围内的网站上的言论,做出统计分析和预测预警。特别是针对一些网站和论坛及以微博为代表的自媒体,通过对互联网海量相关信息自动获取、提取、分类、聚类、主题监测、专题聚焦,自定义监测等,实现将用户所需信息及时汇集,大幅减少人工在各个论坛收集数据的工作量,并将网页提供的信息按规范的格式进行显示,有简单的统计分析。继而扩充采集的形式,并进行多角度的统计分析和图形化显示。进一步地,增加深度分析和网络舆情治理建议。该系统包括数据采集、数据处理、舆情分析三个模块,需要实现数据采集、网页数据提取、数据统计分析、舆情数据处理和系统管理等功能。通过用户给出关键词的组合规则,通过搜索引擎和对关注网站版面使用专用爬虫全爬过滤这两种方式对数据进行采集。即对特定种类的以网络为载体的新闻和消息在收集后通过网页净化、词频统计等手段对信息进行有效的预处理活动,并将预处理的所得结果入库,并通过数据挖掘算法对信息进行分析,最后得到一定时期内网络所出现的热点信息,并对其进行追踪,得到事件的详细信息。采集相关网页之后,再进行消重、去噪,在抽取相关信息后建立全文索引。完成以上工作后,系统通过统计分析提供检索查询功能。关键词:网络舆情,舆情分析,信息采集ABSTRACTIIABSTRACTTherapiddevelopmentofInternetmakesitincreasinglydifficulttodealwiththeinformationinthenet.Thetraditionalmanualclassificationbasedapproachhasbeencompletelyunabletoadapttothenetworkinformationprocessingofthisscale.Aspartofanewresearchsubject,themonitoringandanalysisofonlinepublicopinionshouldbeimbeddedinahigh-techinformationsystem,whichwillallowaproactivecontrolandguideofonlinepublicopinioninatimelymanner.Thepurposeofanonlinepublicopinionsensingandanalyzingsystemistohelpingdevelopasetofworkingtoolforbusinessunitstobeabletostatisticallyanalysistheinterestedtopicsinthetargetwebsitestimelyandprovidepredictivealarming.Forcertainwebsitesandforums,thetoolcanhelptheclienttocollecttheinterestedinformationintime,hencesignificantlyreducestheworkloadofmanualdatacollectiononthoseforums.Also,itcanshowtheinformationfromthewebpageinacanonicalformatandconductsomebasicstatisticalanalysis.Furthermore,thetoolcanexpandtheformsofdatacollectionandprovidemulti-perspectivestatisticalanalysisandgraphicaldisplay.Additionally,itcanperformindepthanalysisprovidedsuggestionstoonlinepublicopinionmanagement.Thesystemconsistsofthreemodulesincludingdatamining,dataprocessing,andpublicopinionanalysis.,Itwillneedtoachievethefollowingfunctionsincluding:datamining,webpagedataextraction,dataanalysis,publicopiniondataprocessingandsystemmanagement.Throughthecombinativerulesonkeywordsdefinedbytheuser,thetoolwillextractthedatafromsearchenginesandinterestedwebpagesusingadedicatedcrawlerapproach.Afteracquiredtheinformationonthe-relatedwebsite,thetoolwill,eliminateheavystuffandremovethenoiseremoval,thentobuildafulltextindexafterextractingtherelevantinformation.Afterthecompletionoftheabovework,thesystemcanprovidedinquiryfeaturethroughstatisticalanalysis.Keyword:onlinepublicopinion;publicopinionanalysis;informationcollection;目录III目录第一章绪论..................................................................................................................11.1系统研究目的及意义........................................................................................11.2国内外研究现状................................................................................................21.3研究内容概述....................................................................................................41.3.1系统理论的研究.....................................................................................41.3.2系统实施方式的研究.............................................................................51.4本文的组织结构................................................................................................5第二章相关技术概述..................................................................................................72.1数据挖掘技术....................................................................................................72.1.1遗传算法................................................................................................72.1.2关联分析法............................................................................................72.1.3人工神经元网络....................................................................................82.1.4决策树....................................................................................................82.2数据提取技术....................................................................................................92.2.1爬虫技术...............................................................................................

1 / 77
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功