在线社交网络影响力分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

在线社交网络影响力分析•社交影响力的相关因素•社交网络影响力的度量方法•社交网络中影响力的传播•总结与展望•摘要社交影响力分析是社交网络分析的关键问题之一。近十几年间,随着在线社交网络的蓬勃发展,研究人员才开始有机会在大量现实数据的基础上对社交影响力进行建模和分析,并取得了丰硕的研究成果和广泛的应用价值。文中阐述了社交影响力的相关概念和它们之间的关系,重点从网络拓扑、用户行为和交互信息等几个方面总结了影响力分析的建模和度量方法,并对在线社交网络影响力分析的前景进行了展望。社交影响力的相关因素•影响力•社交影响力只有通过人们之间的交互活动才能够体现出来,比如用户A在网上的发帖吸引了用户B,使得后者成为A的粉丝,即A对B产生了影响力。•社交影响力的定义具有明显的因果性,而人们的思想、行为等产生变化的原因则是不胜枚举且因人而异,社交影响力只是其中之一。目前大部分研究工作都是针对社交网络结构及其上的交互信息和用户行为特征进行量化和分析的,因此可以把能对信息传播过程或他人行为产生影响的个体视为具有社交影响力。•同质性•同质性指具有相似特征的个体选择彼此作为朋友的倾向,即所谓的“物以类聚,人以群分”。如果用户B发现用户A和自己有相同的兴趣和爱好,因而选择A作为自己的朋友,这种现象即是同质性的表现。•互惠性等其他因素•社交影响力除了受到同质性的影响,还有很多因素都会对影响力分析结果产生影响,比如互惠性、活跃度、同时性、异质性、环境因素和关联效应等。•上述因素中的互惠性指的是用户在社交过程中出于礼貌或习惯等原因对其他用户的行为给予相应回应的现象。例如,社交网络中,用户B申请作为A的好友,A在接受请求后出于礼貌又申请作为B的好友,这种投桃报李的现象就体现出互惠性。•社交网络的外部因素也会对影响力和信息传播产生作用。例如,研究发现YouTube上的有些视频信息能以很快的速度传播开来,而这类现象可以用视频信息受到的外部影响进行解释。社交网络影响力的度量方法•社交网络影响力度量的主要任务是分析和预测用户社交影响力的大小及演化规律,为基于社交影响力的研究和应用提供技术支持和理论依据。•常用的影响力度量方法大致可以划分为基于网络拓扑结构、基于用户行为和基于交互信息的度量等类型。在进行社交影响力分析时,既需要根据实际情况选择合适的度量手段,还可以综合使用上述方法,尽可能准确客观地刻画社交影响力的真实面貌。•基于社交网络拓扑结构的度量•对社交网络进行影响力分析时,网络结构中的节点表示用户,而节点之间的连接则表示用户之间建立的关系,它们在分析影响力时都起着至关重要的作用,因此我们分别以网络节点和连接为对象介绍一些广泛使用的度量方法。•在下文中,社交网络的拓扑结构用图G=(V,E)表示,如无特别说明,一般是指无向图。其中n=|V|表示节点数;•表示节点i;表示节点i和j之间的边,很多时候也被称之为连接;表示图的邻接矩阵;是其中的元素;如果是带权图,我们用表示节点i和j之间的权重。•节点的度量••连接的度量•对连接的影响力度量即是对两个用户相互之间影响程度的度量。•一般而言,两个节点的邻居重叠程度越高,这两个节点之间的关系越紧密,它们之间的影响力也越强烈,可以用Jaccard相似度度量这种关系:•Jaccard相似度用于统计节点i和j的共同邻居在总邻居数中所占比例。•边介数也可用于度量边在网络中的重要程度:•边介数统计的是网络中经过边的最短路径的总数量。•博客图:用有向多重图表示节点间的影响力,弧的重数越多代表节点间的影响力越强,弧的方向表示影响力的作用方向。•影响力图:该图是有向带权图,弧的方向表示影响力来源,权重代表影响力强度,用表示从节点u到节点v之间的平行边条数,其计算方式为•基于用户行为的度量•一般情况下,在线社交网络都会记录人们通过交互活动产生的大量信息,其中就包括各种用户行为数据。通过分析这些数据,可以衡量用户之间的影响大小及其传播途径•和范围,还可以据此建立用户之间的社交关系网络。网络日志是一种重要的用户行为数据来源,Goyal等人利用日志信息分别计算了用户和动作自身的影响力:•其中,u和v表示不同用户;a表示动作;表示动作之间的时间间隔;是时间常量;表示动作在用户之间的传播;表示用户u产生的动作数量;U(a)表示执•行动作a的用户数量,与基于网络拓扑的节点影响力度量方法不同,上述模型以动作的传播频率作为用户影响力评估指标,并用动作的执行范围度量动作本身的影响力指标。•基于用户交互信息内容的度量•由于用户的社交影响力能够促进信息的传播,所以分析在线社交网络中信息内容的传播范围和时间,能够比较准确地反映用户的影响力。•在社交网络中,很多传播广泛的流行消息都是由影响力较大,拥有大量粉丝的用户发起的,因此流行消息的传播可以作为用户社交影响力的判断依据。•P(k)表示用户在经受k次曝光后才开始使用该标签的概率,图中曲线表示实验数据集中最流行的500个标签的P(k)值的平均分布。•从图中可以间接证明时间因素在影响力度量中的重要作用。社交网络中影响力的传播•社交影响力本质上具有动态属性,从参与社交活动开始,每个人在社会群体中的影响力都在随着他的言行和社会属性发生变化,也随着社交活动在社交网络中进行传播。在Katz和Lazarsfeld提出的经典传播模型中,信息或者创新的传播首先从具有较强社会影响力的群体开始,再经由他们把信息和创新传播到更大范围的人群中去。•意见领袖问题•意见领袖就是能在相应环境下对其他人产生影响的个体,很多时候也被视为有影响力的人。根据分析过程中数据对象的不同,意见领袖发掘方法可以分为基于网络结构的方法和基于以交互信息为主的方法。•社交网络结构能在很大程度上反映某个节点在网络中所•处位置的重要程度。如果用户在社交网络中的位置能够如实体现他在社交活动中的领袖地位,利用基于PageRank算法的排名方法就能对其进行度量。•基于网络结构的方法过分强调了意见领袖的“领袖”特点,即在社交网络中地位显赫,而忽视了他发布“意见”的重要性。因此分析用户所发信息的影响力及其传播特性,能够更客观准确地发现网络中的意见领袖。博客中的意见领袖可以根据他发布的有影响力的帖子数量进行识别,利用博文的引用数量、评论数量、新颖程度和内容长度评价帖子的影响力,从而发掘出意见领袖。通过观察和分析用户网络用户的行为特征及其传播规律,也能对用户的影响力大小和范围进行度量。•上述两类方法各有优势和不足,基于网络结构的方法模型简单,计算效率高,能够处理大规模的社交网络,但是准确率相对较低,在真实网络环境中存在误判的可能性;基于交互信息的分析方法得到的结果客观准确,但是由于涉及到大量信息的预处理和相关性的计算,难以适应规模较大的社交网络。•策略:先利用基于网络结构的方法筛选意见领袖的备选集合,然后再利用交互信息的方法选取真正的意见领袖。•最大影响力传播问题•最大影响力传播问题首先是由Domingos和Richardson提出的,简言之就是在社交网络中寻找最有影响力的成员集合。•影响力的传播模型•(1)独立级联模型•可以描述为:在社交网络G=(V,E)中,部分用户在初始时刻就处于激活状态,用户与其邻居间的影响力用表示,的取值是独立的,在传播过程中不受和其他邻居节点间关系的影响。如果用户在某一时刻t由非激活状态变成激活状态,则对于非激活状态的每一个邻居节点,仅在t时刻有一次机会尝试激活他。•例如,的邻居在t时刻还没有激活,则以概率激活,如果成功,从t+1时刻起处于激活状态,但是不管成功与否,再也不能试图去激活。如果在t时刻同时有多个邻居都变成了激活状态,则他们尝试激活的顺序•是任意的,系统从初始态开始传播过程,直到没有新的用户可以被激活为止。•(2)线性阈值模型•线性阈值模型在新产品采用等问题中应用广泛,该模型可以描述为:在社交网络G=(V,E)中,用户与其邻居节点间的影响力权重为,且所有另据的影响力权重之和最大为1,即•任意一个用户都会随机选定属于自己的阈值,表示只有当的邻居节点对的影响力超过该阈值,才会被激活。与独立级联模型类似,初始时刻处于激活状态•的用户集合,如果截止t时刻用户被激活状态的邻居集合为,而尚未被激活,则在满足以下条件时:•从t+1时刻起变为激活状态,且保持该状态不变。系统从出事状态开始演变,直到没有新用户被激活为止。总结与展望•本文主要介绍了在线社交网络兴起以来社交影响力分析的主要成果,首先阐述了社交影响力的基本概念和与之相关的其他因素,介绍了区分影响力和这些因素的研究工作,接着重点总结了影响力分析建模和度量方法。虽然社交影响力分析已经取得丰硕的理论和应用成果,但我们认为至少还有以下问题有待深入研究和探索:•(1)社交网络用户数量众多,用户之间形成的关系也非常复杂,在这样的环境下对社交影响力的定性分析也受到很多因素的影响和干扰。•(2)目前,社交影响力的建模方法大致分为两类,即经验方法和推断方法。这两种方法都有各自的优势和成功的应用,但是还没有什么方法能够普遍准确地刻画社交网络中的影响力。•(3)大量关于社交影响力分析的工作都聚焦在用户自身的影响力度量和演化,以及用户及其邻居和所在社团之间的相互影响上,但是以用户群体为基本目标进行影响力分析的研究还不是很多。•(4)在线社交网络的数据采集和共享也是影响力分析亟待解决的问题。

1 / 23
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功