网络舆情演化模式分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

网络舆情演化模式分析摘要:网络舆情演化分析已成为网络舆情研究的热点内容。文章使用描述网民发帖过程的时间序列来表征网络舆情的演化过程,使用时间序列的分析方法来探索网络舆情的演化规律,构建了6个网络舆情演化模式,包括分布模式、平稳模式、相关模式、自相似模式、周期模式和趋势模式,并给出了相应的模式分析方法。实验表明,构建的网络舆情演化模式能够有效地表征网络舆情演化过程,有助于更深层次地分析网络舆情演化规律,为后续演化建模提供理论基础。关键词:网络舆情;演化模式;时间序列PatternAnalysisofInternetPublicOpinionsEvolutionZHOUYao-ming,ZHANGHui-cheng,WANGBo(InstituteofInformationEngineering,InformationEngineeringUniversity,Zhengzhou450002,China)Abstract:AnalysisofInternetpublicopinionsevolutionhasbecomeahottopicinrecentyears.Timeserieswhichdescribetheprocessofthenetizen’spostingcanbeutilizedtorepresenttheevolutionofInternetpublicopinions.WiththeanalysismethodsoftimeseriestoexploretheevolutionpatternsofInternetpublicopinions,thispaperconstructs6patterns,includingdistributionalpattern,stationarypattern,correlativepattern,self-similarpattern,periodicpatternandtrendpattern.Techniquestorealizethesepatternsarealsodiscussed.TheexperimentalresultsshowthatthepatternsinthispapercanexpresstheevolutionofInternetpublicopinionseffectively,andprovidetheoreticalbasisforevolutionmodeling.Keywords:internetpublicopinions;evolutionpattern;timeseries网络舆情是指由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合[1]。网民对某一事件所持有的认知、态度、情感和行为倾向的变化过程,实际上就是网络舆情的演化过程。分析网络舆情的演化规律,掌握网民情感和行为倾向的变化规律,为有关部门制定网络舆情应对策略提供技术支持,对于国家安全和社会和谐稳定具有十分重要的意义。目前,网络舆情演化的研究主要集中在3个方面:基于话题演化的研究[2-3];基于网络信息传播的研究[4-5];基于粒子交互模型的研究[6-9]。话题演化是指某一个话题在传播中的变化过程,主要包括旧话题消亡、新话题产生、一个话题向另一个话题转移等。文献[2]提出一种动态话题模型,通过将时间划分成若干个区间,对每个区间的文档使用第3期周耀明等:网络舆情演化模式分析335LDA模型进行演化分析。文献[3]提出一种连续时间话题演化模型,通过将时间因素引入到LDA话题模型,进而分析话题结构随时间的变化规律。网络信息传播方面,相关研究者认为网络信息传播是舆情演化的基础,相关的研究包括信息在网站间以及网站内部的传播行为。文献[4]将一个新闻事件的所有文档都获取下来,进而分析一个新闻事件通过各个网站间的传播状况。文献[5]主要分析了博客之间的信息交互行为特征。粒子交互模型方面,研究者主要借用物理学中的粒子交互作用对舆情演化中的主体(人)以及主体间的关系进行建模。文献[6]首次提出基于Ising模型的舆论演化模型,在封闭社区内,由微观粒子间的简单交互规则导出该社区的复杂现象。文献[7-8]将多数原则MR(MajorityRule)首次应用在舆论演化研究中,并提出了MR舆论演化模型,用于解释公众争论话题演变、谣言传播和恐慌传播等现象。文献[9]根据网民表达观点的倾向度和坚持己见的自信度,提出一种迁移元胞自动机的网络舆情演化模型,并用于拟合网络舆情演化规律。网络舆情是网民的认知、态度、情感和行为倾向的集合,上述研究将话题演化过程和网络信息传播过程作为舆情的演化过程进行研究,并没有考虑网民在话题演化过程和信息传播过程中的反应变化情况,从本质上讲并不是网络舆情。基于粒子交互模型的研究虽然考虑了网民在舆情演化过程中的主体作用,但由于在建模分析时并没有结合实际的舆情数据,存在理论与实际脱节的现象。通常而言,网民对某一事件所持有的认知、态度、情感和行为倾向主要是通过网民在论坛、新闻评论、博客、微博等网络媒体上的发帖行为反映出来。因此,在获取网络舆情数据的基础上,通过提取数据中的源帖发表时刻、回复评论时刻、发帖用户ID等行为特征信息,并按适当的时间尺度采样,可以形成表征网民发帖过程的源帖数、回复数、用户数及源帖率、回复率、用户率等6个时间序列。这样,网络舆情的演化过程就可以用描述网民发帖过程的6个时间序列来表征,进而通过引入时间序列的分析方法来探索网络舆情的演化规律。1网络舆情演化分析原理网络舆情存在于各类网络媒体中,包括论坛、新闻网站、博客、微博等。上述不同网络媒体中的网络舆情数据具有同构性,在组织形式上是由源帖和回复评论构成,在表现形式上可分为文本内容信息和行为特征信息。以论坛为例,论坛是由源帖和回帖组成,其文本内容信息为标题、源帖内容、回帖内容等;行为特征信息为源帖发表时刻、回帖时刻、发帖用户ID等。其中,内容信息是网民情绪、态度和意见的直接反映;行为特征信息是网民情绪、态度和意见的间接反映,二者均能有效表征网络舆情。内容信息往往涉及语义理解,需要借助人的综合判断,用计算机实现往往误差较大;而行为特征信息是网民发帖行为的真实记录,是适合计算机自动化处理的客观物理量。在所获取的网络舆情数据中提取行为特征信息,并按适当的时间尺度采样,可以形成源帖数、回复数、用户数及源帖率、回复率、用户率等6个时间序列。其中,源帖数、回复数和用户数分别表示到目前为止针对某一事件所发表的源帖总量、回复评论总量和参与讨论的用户总量,反映了该事件的发展状态。上述时间序列的数值越大,说明受影响的网民数量越多,该事件的影响力越强。源帖率、回复率和用户率分别表示当前时刻针对某一事件的源帖发表速率、回复评论速率和新用户的出现速率,反映了该事件的传播阶段。上述时间序列的数值越大,说明受影响的网民数量增速越大,该事件的传播速度越快。通常而言,存在一个用户发表多条评论的情况,故用户数往往小于源帖数与回复数的总和,通过统计用户数和用户率可以避免网络灌水现象对网络舆情发展状态及传播阶段的影响。时间序列是指按时间顺序排列的一系列被观测的数据,其观测值按固定的时间间隔采样,时间序列一般用数据的顺序和数值的大小来描述客观世界的动态变化过程[10]。时间序列分析通过提取时间序列的有关信息,分析数值上的统计关系,来揭示时间序列本身的结构和规律,从而为后续建模提供理论依据。本文针对网络舆情的特点,结合时间序列的分析原理,构建了分布模式、平稳模式、相关模式、自相似模式、周期模式和趋势模式等6个网络舆情演化模式。336信息工程大学学报2012年2网络舆情演化模式及分析方法2.1分布模式分布模式用来考察网络舆情演化过程的分布情况以及网民的情绪和行为倾向的分布情况,进而为使用何种分布理论来分析网络舆情演化过程提供理论依据。分布模式的分析方法是分析源帖率、回复率和用户率序列的频率分布和经验累计分布。分析方法为用a和b分别表示时间序列X(t)的最小值和最大值,再把区间[a,b]分成k个等间隔的子区间,其中,k可以用Sturges公式k=1+lgn/lg2来确定,n为序列的长度。这样k个区间把n个数据分成k组,可以统计各组[11]的频数ni、频率分布fi=ni/n、以及经验累计分布Fi=f1+f2+…+fi,i=1,2,…,k。在得到X(t)的频率分布和经验累计分布之后,还需要判断该分布是否与熟知的分布相一致,常用的方法为拟合优度检验[12]。本文选用拟合优度检验方法中的K-S检验法,其基本思想为将选定的理论累积分布同观测样本的经验累积分布加以比较,求出它们最大的偏离值,然后在给定的显著性水平上检验这种偏离值是否是偶然出现的。其检验步骤如下:①计算分布函数计算长度为n的序列X(t),t=1,2,…,n的经验分布函数Fn(X);②构造统计量假定X(t)服从某一分布,计算该分布的理论分布函数G(X),构造统计量D=maxX|Fn(X(t))-G(X(t))|,t=1,2,…,n;③检验统计量在显著性水平为0.05下,查表得到统计量D的临界值cv。若D>cv,则样本不服从假定分布;若D<cv,则样本服从假定分布。2.2平稳模式平稳模式用来考察网络舆情演化过程是否平稳以及网民的情绪和行为倾向是否平稳,进而为国家有关部门是否需要注意网民动向、是否需要采取一定的措施提供依据,为后续演化建模是否采用平稳模型提供理论基础。平稳模式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的宽平稳特性。本文使用ADF(AugmentedDickeyFuller)检验法来检验序列的平稳性[13]。ADF检验法有3个检验模型,其表达式如下:模型1ΔX(t)=δX(t-1)+Σki=1ρiΔX(t-i)+εt(1)模型2ΔX(t)=α+δX(t-1)+Σki=1ρiΔX(t-i)+εt(2)模型3ΔX(t)=α+βt+δX(t-1)+Σki=1ρiΔX(t-i)+εt(3)其中,X(t)为当前序列;Δ为差分运算,即ΔX(t)=X(t)-X(t-1);δ与ρi为待估参数,一般由OLS(OrdinaryLeastSquare)估计法计算得到;εt为高斯白噪声;k为滞后项数,k值可以用[12(n/100)1/4]计算得到,这里n为序列的长度,·为取整运算;模型2在模型1的基础上增加了截距项α;模型3在模型2的基础上增加了趋势项βt。给定零假设和备择假设如下:H0:δ=0(X(t)含单位根,序列非平稳)(4)H1:δ<0(X(t)不含单位根,序列平稳)(5)于是可以通过检验参数δ是否小于零来实现序列的平稳性检验。ADF检验法的具体流程如下:①检验模型3计算模型3中参数δ的t统计量τδ3=δ^3/S(δ^3),其中δ^3为模型3中参数δ的OLS法估计值,S(δ^3)为δ^3的标准差。在显著性水平0.05下,若τδ3小于模型3的ADF临界值cv3,则拒绝零假设,说明序列平稳;若τδ3>cv3,进行②;②检验模型2计算模型2中参数δ的t统计量τδ2。在显著性水平0.05下,若τδ2小于模型2的ADF临界值cv2,则拒绝零假设,说明序列平稳;若τδ2>cv2,进行③;③检验模型1计算模型1中参数δ的t统计量τδ1。在显著性水平0.05下,若τδ1小于模型1的ADF临界值cv1,则拒绝零假设,说明序列平稳;若τδ1>cv1,则接受零假设,说明序列不平稳。2.3相关模式相关模式用来考察网络舆情演化过程前后的相关性以及前面网民的评论对后续网民产生的影响程第3期周耀明等:网络舆情演化模式分析337度,进而考察该事件所具有的纵向影响力。相关模式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的相关性。时间序列按相关性划分,可以分为长相关与短相关。长相关性指在大时滞的情况下时间序列仍然表现出强相关的性质,短相关性指在大时滞的情况下时间序列表现出弱相关的性质。本文通过检验自相关系数图来检验序列的相关性,具体做法为计算序列X

1 / 14
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功