中国电力科学研究院科技创新基金项目可行性研究报告项目名称:电力信息敏感内容监测及热点事件演化技术研究申请单位:信息通信研究所起止时间:2013年1月至2013年12月项目负责人:高昆仑联系电话:13301132105电子邮箱:gkl@epri.sgcc.com.cn申请日期:2012年7月一、立项背景及意义在智能电网和Internet飞速发展的大环境下,电力信息安全越发引起电力企业的重视。当前互联网上有关电力企业的敏感信息主要包括原始生产数据和企业福利数据等,针对这些敏感信息引发了若干网民高度关注的热点事件,如电价上涨、电力企业虚报经营业绩、员工福利超标、电力线路(设备)损坏等等。如何对上述敏感信息进行实时监测,并及时发现热点事件进行相关应对,这些问题对于电力企业具有极强的现实意义。从物理过程上描述针对电力企业的敏感信息监测及热点事件发展:首先是敏感信息泄露阶段,某些组织或个人通过某些渠道(可能非法手段)获取电力企业的生产运行数据或其他经济数据,甚至直接编造某些数据;然后是敏感信息扩散阶段,上述组织或个人将所获取的信息在互联网上恶意扩散;其后是热点事件形成阶段,随着上述敏感信息的迅速扩散,在互联网上逐渐引起网民的关注,从而形成热点事件雏形;最后是热点事件爆发阶段,热点事件通过前期的酝酿、潜伏不断的聚集关注度,当网民的关注度达到临界点后直接演化为难以控制的网络关注热点,至此对电力企业巨大的危害已经难以估量。通过上述分析可见针对电力信息敏感内容的泄露和热点事件与当下网络信息安全的研究热点——网络舆情有很多相似之处:一方面两者都是由敏感内容引起,并具有潜伏期、发展期、爆发期、衰退期等阶段;另一方面两者又存在区别,舆情是一个较中性的事件,一些对社会有益的事件也可以发展成舆情(如体育赛事、重大社会活动等),而电力信息热点事件往往是负面内容。因此,电力信息敏感内容监测及热点事件可以被归结到负面网络舆情,并借鉴网络舆情研究技术来解决电力企业所面临的负面新闻困扰。下面简单介绍网络舆情在我国的发展状况以突显电力企业所面对的负面新闻压力。据中国互联网络信息中心(CNNIC)发布的《第26次中国互联网络发展状况统计报告》数据显示,截止2010年6月30日,我国网民人数达到4.2亿,互联网普及率攀升到31.8%,宽带网民人数达3.6亿多,占总网民人数的98.1%,手机上网用户达2.77亿。报告还称,网民每周上网时间持续增加,人均每周上网时长达19.8小时;网民学历结构呈低端化变动趋势,初中和小学以下学历网民增速超过整体网民。此外,数据显示,中国56%的网民经常在网上发表意见,84.3%的网民认为互联网是最重要的信息渠道,48%的网民对互联网的信任程度比电视高。另据2010年统计,全世界互联网网站数以亿计,其中我国网站数目323万个,域名1121万个,注册域名数、网站数、网页数量稳居亚洲第一,其中论坛有130多万个,数量为全球第一,仅百度的论坛每天发布的新帖数量就达200多万条,热门帖子的跟帖评论可以达到几十万条。随着互联网的飞速发展,网民人数的不断增多,互联网资源数量呈现指数型的增长,网络在传达社情民意方面的优势也逐步显现出来。继传统的报纸、广播、电视之后,互联网已经确立了自己第四媒体的主导地位,成为反应社会舆情的主要载体之一,在表达民众心声、反映社会舆论方面发挥极其重要的作用。网络舆情是通过互联网传播的公众对现实生活中某些问题所持有的具有较强影响力、倾向性的观点和言论,是网民关注的热点,是民众讨论的焦点,集中反映一个时期网络舆论的中心。当今,信息交互和舆论传播空前迅捷,网络舆情的表达形式也日趋多元化,主要通过新闻评论、BBS论坛、博客、聚合新闻(RSS)等实现并加以强化。南开大学徐晓日认为网络舆情的特点如下:1.网络舆情来源具有广泛性和匿名性;2.网络舆情倾向于问题揭露与现实批判;3.网络舆情具有突发性;4.网络舆情传播容易出现群体极化倾向;5.网络舆论能够形成更大的群体压力。网络舆情是社情民意中最活跃的部分,但网民尤其是年轻网民和低学历网民的意见容易带有强烈的个人感情色彩,容易受到误导和煽动。现实世界中的一些问题被发布到互联网上时可以吸引大量的注意力,因为其传播速度快,受众广,并且难以控制,很容易造成强烈的舆论压力,但是这些舆论的方向并不一定就是正确的,当关于某件事的舆论被误导时,极有可能造成不可想象的破环,这种破环很难控制。因此,为有效应对互联网空间的开放性、匿名性带来的一系列舆论压力问题,政府应对网络舆情建立收集和分析机制,及时回应和疏导。网络舆情涉及的范围十分广,但对社会热点问题的关注非常集中,一般称这些引起集中性关注的事件为话题。话题是由一些原因、条件引起,发生在特定时间、地点,并可能伴随某些必然结果的一个事件,它包括一个核心事件或活动以及所有与之直接相关的事件或活动,可能是一起事故、一场会议、一场比赛,等等。话题具有很强的时效性,有一定的存在时间,即话题在一定的时间内产生、发展,并随着时间的推移而消亡。话题的发现依靠聚类的方法,将大量的报道聚合成若干簇,簇内的报道之间相似度高,簇间的报道相似度低,每个簇即是一个事件的报道的集合,以此来整合网络上大量的重复信息和同一话题内的不同信息。热点话题是网民们比较关注、反应比较激烈、讨论比较广泛、影响也比较大的话题,它通常是社会生活中的某件事情折射在网络上的镜像,既反映着现实问题,又能影响现实问题的发展。舆论热点具有两重性:一方面,它作为特定历史条件下形成的群体观念,总是一定历史时代人们共同思想、愿望和要求的反映,往往成为当时社会气候的晴雨表和社会信息的显示器。社会热点的信息显示,有利于国家采取措施、解决问题、安定民心、稳定社会,这就是社会热点的积极作用。另一方面,舆论热点往往呈现自发、松散状态,甚至带有片面意见或冲动情绪,而且易受从众效应的影响,也容易遭到境内外敌对势力的挑拨和教唆,如不及时疏导,便会因民间的传播、感染、认同而逐渐形成社会舆论合力,冲击人们情绪,不利于社会稳定,这便是社会热点的负面效应。通过监测网络舆情中的热点话题,有助于梳理舆情监控的思路,抓住纷繁的监控工作中的重点,从海量的互联网信息中找到目标信息,将有限的人力物力用到关键的地方,提高工作的针对性和有效性,更好地应对网络舆情。除了大量网民在网络上发表和议论社会生活中的某些事件,推动着网络舆情的发展也影响着社会舆论的演化,网络环境的复杂性还呈现在另一方面,那就是由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,加之难以完全监管,使得网络上充斥着大量负面的网络舆情随时对社会公共安全形成较大威胁,主要表现有:西方国家利用网络对中国进行“西化”、“分化”,他们传播虚假信息,散布反动言论,甚至雇佣网络写手,对社会热点、难点和敏感新闻进行炒作,欺骗网民、误导舆论;还有一些低级庸俗、淫秽色情、虚假欺诈等有害信息在网上不断出现,危害网络与信息安全,扰乱社会秩序,败坏社会风气。对这些不良的信息,也要加以监控和处理以杜绝它对国家的稳定和人民的身心健康造成恶劣的影响,这对于构建社会主义和谐社会具有重要意义。随着我国网络文化的发展和人们对网络的依赖,舆论演化的形式逐渐从纯粹的人类社会的网络演化模式向人机结合、以人为主的新型网络演化模式转化,形成一个复杂网络系统。网络的引入急剧地加速了舆论的演化与扩散,使得舆论的演化与扩散突破了原有时空模式的限制。网络舆情与社会舆情在内容表现方面具有一致性,并在一定程度上会影响社会舆情的发展趋势。如果管理不善,负面的网络舆情将对社会公共安全造成极其恶劣的影响。这些网络舆论对现实社会的影响受到了普遍关注,尤其是政府更有必要及时掌握当前的网络舆情,正确的了解流行观点和网民态度,这是因为:一方面,网络舆情对政府管理具有积极的推动作用。首先,有助于塑造良好的政府形象。网络是政府对外展示的一个良好平台,也为公共管理双方提供了便利的沟通渠道。对网民而言,通过网络了解政府出台相关政策的初衷,可以知晓公共管理具体行为的推进情况,甚至可以通过网络进行监督政府的行政管理行为。在这样一种良好的互动情况下形成的网络舆情,有助于为政府管理提供有利的舆论环境,对内可以产生强大的凝聚力和吸引力,对外可以展示良好形象,产生强大的向心力和感召力。其次,有助于营造良好的公共管理环境。网络舆情同样是现实民众心声的某种反映,对现实社会也具有极大的反作用力。网络通过大量网民发出较为一致的声音,即形成舆情的方式表达对现实社会的观点,这种网络舆论环境的客观存在是现实社会管理者不容忽视的外界因素之一。政府管理者通过借力于网络环境,不但可以在网络“虚拟社会”中争取到支持,而且这种支持一定程度上也能反映到现实社会中来。虽然网络意见可能存在某些较为极端的情况,但更多的意见是比较真实地表达了社会大众的声音,无法获得网民赞同的政策在现实社会中也很难真正得到贯彻落实。再次,有益于政府开展危机管理。随着社会的发展和社会结构的日益紧密,公共危机产生的概率以及对公共管理秩序所产生的危害性越来越大。危机事件从根本上说是对政府管理能力的否定性事件,危机发生是对政府应对能力的考验,无法预见危机、错误的判断以及不合理的决策处置能导致危机升级;正确收集分析网络舆情可以及时预判危机,合理地引导舆论可以化解矛盾。另一方面,网络舆情如果处理不当,对政府管理也会带来一定的负面影响。首先,网络的出现使政府在管理信息的披露和发布方面的主动权受到了极大冲击。网络作为一种信息传递渠道已经对传统的信息传播和处理方式带来很大的挑战,政府如果不能清醒地认识到这一点,仍旧采用封闭或者有选择的发布信息的方式,那么当社会公众通过网络得知事件真相之后会极大地降低对政府的信任程度。其次,造成民众与政府之间的隔阂。网络舆情不同于传统媒体舆情,网民普遍存在“求新”、“求异”甚至是“叛逆”的心理特征,如果得不到正确引导,而政府在某些方面又不能采取正确的应对方法,则很有可能造成民众与政府的隔阂甚至对立,增添社会不安定因素。再次,危害公共管理秩序。这种情况的出现往往是因为民众与政府在某一具体管理行为上产生意见分歧或是矛盾,经过网络不断传播,负面效应放大,导致民众与政府的矛盾激化,进而使政府管理者的“合法地位”受到质疑,对公共管理秩序造成危害。对国家和政府而言,采取一定的措施引导进而控制热点话题的趋势以减少网络带来的负面影响是十分必要的。而如何对网络舆情加以有效的监督和引导,积极化解网络舆论危机,使和谐的互联网环境为维护社会稳定、促进国家发展、构建社会主义和谐社会发挥重要作用,不仅具有重要的现实意义,也已经成为网络舆情工作面临的一个重要课题。二、可行性分析1.国内外研究水平的现状和发展趋势1.1国内外敏感信息内容监测研究水平的现状和发展趋势国外话题发现的相关研究主要是起步于上世纪90年代中期的话题发现与跟踪(TopicDetectionandTracking,TDT)的研究,主要集中在关联检测、话题检测、话题跟踪、跨语言TDT等研究领域。相比于国外以统计概率模型为主体的研究趋势,国内的相关研究更侧重基于TDT本身的特色进行探索。国外话题发现与跟踪的研究主要集中在以下领域:1.1.1关联检测(LinkDetectionTask,LDT)LDT的主要任务是检测随机选择的两篇报道是否论述同一话题。与其他TDT任务不同的是LDT研究并没有直接对应的实际应用,但是它对其他TDT研究起到的辅助作用却是无法忽视的。比如,新事件检测(NewEventDetection,NED)任务中,NED系统可以通过LDT鉴定候选报道与每个先验报道之间的相关性,从而判断候选报道是否论述了一个新话题,或者相关于先验报道隶属的旧话题。就传统基于概率统计的TDT研究而言,报道与话题或者报道与报道之间的相关性,都是通过检验两者之间共有特征的覆盖比例进行评判。换言之,两者共有的特征越多,那么它们相关的可能性越大。因此,大部分针对LDT的研究都将问题的重心集中于文本描述以及特征选择。JamesAllan[4]和Schultz[5]采用向量空间模型(Ve