20180722智慧水务资料包02管理管控大数据下水务行业网络舆情监测系统的设计与实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二届中国城市智慧水务高峰论坛大数据下水行业网络舆情监控系统的设计与实现许冬件邓双祥摘要:水务行业是关乎国计民生的重要行业,以开放、互动、迅速、大数据海量为主要特征的网络媒体,其形成的网络舆情给水企带来的影响日渐加深。如何快速获取舆情信息,及时掌握舆情态势,成为水务企业面临的新课题。本文分析了互联网舆情研究的现状,讨论了舆情分析的思路和方法,基于舆情分析系统技术的关键点,提出了水务行业网络舆情监控系统的设计和实现。关键词:舆情;网络舆情;网络舆情监控系统一、引言中国互联网络信息中心(CNNIC)2016年1月22发布的《第37次中国互联网发展状况统计报告》显示:“我国网民规模达6.88亿,互联网普及率为50.3%,中国居民上网数已过半上网设备正在向手机端集中,手机成为拉动网民规模增长的主要因素。截至2015年12月,我国手机网民规模达6.2亿,90.1%网民通过手机上网。众所周知,互联网作为继电视、广播、报纸之外的第四媒体,已经成为反映社会舆情的一个最重要的载体。水务行业是关乎国计民生的重大行业,与民众的生活、生产息息相关,影响巨大。随着水企逐年的改革,水行业的竞争格局初步形成,水行业外,媒体对水企的关注度空前提高,特别关注智慧水务、用水安全、水资源利用等等;在水行业内,水价听证、调整、归口管理、行业竞争、公共服务、社会责任、官员廉政建设等重大事件受到广大网民、境内、境外媒体的强烈关注。网络舆情的监控和引导,已经成为水行业各企事业单位必须解决好的一项重要工作。网络舆情正在成为水企决策的重要依据,因此新形势下,在每次突发性事件发生后,水企相关职能部门如何以最快速度收集网上相关舆情信息,跟踪事态发展,及时向有关部门通报,快速应对处理等,是水行业亟需解决的问题,以下是最近一段时间以来部分涉水典型舆情事件:2016年6月26日:江苏沭阳城区自来水出现大面积异味2016年5月25日:北京回龙观部分小区自来水现异味停水,官方称突发性中水污染2016年4月9日:媒体报道中国“超八成地下水不能饮用”水利部澄清2016年3月8日:一位二年级小学生写信给北京市水务局:我家门前的河好臭2015年6月15日:广东练江水污染2015年3月4日:兰州市自来水异味事件第二届中国城市智慧水务高峰论坛网络舆情监控通过对热点问题和重点领域比较集中的网站信息(如传统媒体网页、论坛、贴吧、微博、微信公众号等)进行二十四小时全天候监控,随时抓取最新的信息内容和网民评论意见。对所采集到的信息,进行初步过滤和预处理,对热点问题和重要领域实施监控,通过人际交互建立舆情监控的知识库,用来指导智能分析的过程。对热点问题的智能分析通过传统基于向量空间的特征分析技术,对抓取的内容进行分类、聚类和摘要分析,对信息完成初步的再组织,然后在监控知识库的指导下进行基于舆情的语义分析,使管理者看到的网民意见更有效,更符合现实;最后将监控的结果,分别推送到不同的职能部门,以供重大决策。二、监控系统原理由于网上信息量十分巨大,且水企没有专门的部门或人员负责舆情收集、分析、研判的工作,仅靠机械式人工搜索的方法,难以应对大数据信息的收集和处理,而利用计算机网络技术可以实现自动化的网络舆情预警与分析,解决网络舆情管理过程中的舆情采集、分析、表达、干预等难题,从而客观呈现互联网上的热点舆情。以下从普通用户使用网络舆情监控系统的角度按照自上而下的方法描述舆情监控执行过程。1、用户通过浏览器查询或者提交查询的词或者短语“水务集团”,舆情监控引擎根据用户的查询返回匹配的网页信息列表L。2、上述过程涉及到2个问题:如何匹配用户的查询以及网页信息列表从何而来,如何进行排序。用户的查询“水务集团”经过分词器被切割成小词组水务集团1,水务集团2…水务集团n,并被剔除停用词(的、了、是等字),根据系统维护的一个倒排索引可以查询某个词水务集团i在哪些网页中出现过,匹配那些水务集团1,水务集团2…水务集团n都出现的网页集即可作为初始结果,下一步,返回的初始网页集通过计算与查询词的相关度从而得到排名,按照网页的排名顺序即可得到最终的网页列表。3、假设分词器和网页排名的计算公式都是既定的,确定倒排索引以及原始网页集就变得至关重要。原始网页集由采集网页组成并被保存在本地;而倒排索引,即词组到网页的映射表则建立在正排索引的基础上,后者是分析了网页的内容并对其内容进行分词后,得到的网页到词组的映射表,将正排索引倒置即可得到倒排索引。4、由于爬虫收集来的原始网页中可以包含很多信息,如HTML表单以及一些垃圾信息等,网页分析可以去除这些信息,并抽取其中的正文信息作为后续的基础数据。采集子系统从Internet中抓取众多的网页作为原始网页库存储于本地,然后网页分析器抽取网页中的主题内容交给分词器进行分词,得到的结果用索引器建立正排和倒排索引,这样就得到了索引第二届中国城市智慧水务高峰论坛数据库,用户查询时,通过分词器切割输入的查询词组,并通过检索器在索引数据库中进行查询,得到的结果返回给用户。三、数据采集系统数据采集系统根据用户信息需求,设定主题目标,使用人工参与和自动信息采集结合的方法完成信息收集任务。用户只需输入一个待采集的目标网址即可实现将图文结合的信息采集到本地的目的。对这些不断采集的网页信息统一加工过滤,自动分类,保存新闻的标题、源链接、发布时间、正文、相关图片等信息,经过手工配置还可以获得本条新闻的点击次数、评论等。数据采集系统收集网页的过程如下:从初始URL集合获得目标地址,通过网络连接接收网页数据,将获得的网页数据添加到网页库中,分析该网页中的其他URL链接,放入未访问URL集合中,用于网页收集(见图1)所示。开始获取网页提取URL提取网页URL集合原始网页数据库获取新的网页图1:数据采集系统流程四、分析处理子系统分析处理子系统是建立知识库,用以指导热点分析的过程。热点分析基于向量空间的特征分析技术,在知识库的指导下对抓取的内容进行分类、聚类和摘要分析,对信息初步完成第二届中国城市智慧水务高峰论坛的再组织,实现对海量舆情信息的准确、高效分析和管理。分析处理子系统包括热点分析(热词、热点话题)、有害信息过滤、关联关系挖掘等功能。对采集子系统的抓取结果,获得了一个按照一定格式存储的原始网页库,原始网页库是分析处理子系统网页预处理的数据基础。网页预处理的主要目标是将原始网页通过多重的数据处理转换成可方便检索的数据形式。分析处理子系统整体结构(见图2)所示。原始网页数据库开始索引网页库网页正文网页分词索引倒排索引库分词表索引图2:分析处理子系统结构五、舆情门户子系统舆情门户子系统包括舆情简报、趋势图表、聚类图等可视化信息,以及舆情数据库全文检索和信息服务门户。例如,在每天特定的时刻以公文报表的形式给出热点、要点、敏点、疑点、难点、当前报警指数等内容,提取最重要的新闻数据,进行摘要,称为简报。根据权限分配栏目,不同权限级别看到的栏目信息、简报信息不同。六、网络舆情监控系统总体设计架构大数据网络信息采集系统从互联网上采集新闻、论坛、微信、微薄、博客、评论等舆情信息,存储到采集数据库中,并通过舆情搜索引擎对海量的舆情数据进行实时索引。此时,第二届中国城市智慧水务高峰论坛舆情分析引擎负责对舆情数据库进行清洗、大数据分析和加工,舆情分析引擎依赖于大数据分析技术和舆情知识库。最后,舆情门户平台把舆情数据库中经过加工处理的舆情数据发布到门户界面上并展示给用户,用户通过舆情门户浏览舆情信息,通过简报生成等功能完成对舆情的深度加工和日常监管工作。水行业网络舆情监控系统的总体架构(见图3)所示。图3:水务企业网络舆情监测系统总体架构七、结语通过网络舆情监控系统的实施,充分利用计算机网络技术的优势,系统、科学、高效、快速地分析和预警信息,是企业及时抢占舆论阵地,切实维护企业的正面形象的基础保障。通过系统的实施,建立健全了舆情信息工作网络,依托系统中舆情报告功能,做到舆情反映的制度化、经常化,确保了舆情信监控工作的顺利开展。参考文献[1]珠海卓邦科技有限公司.水务加舆情系统产品技术白皮书[R].2016.[2]刘毅.网络舆情研究概论[M].天津:天津人民出版社,2007.第二届中国城市智慧水务高峰论坛联系人:许冬件13825666226xdj@water-it.cn邓双祥15989792027dsx@water-it.cn

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功