社会网络大数据分析1内容简介社会网络的发展历程和基本概念社会网络的分析方法社会网络的大数据分析系统和分析过程社会网络重要期刊和会议实验室项目成果展示2技术发展趋势计算机网络技术对传统产业技术升级的影响–1990年-2000年,PC软件时代,推动了传统企业的自动化;–2000年-2010年,Web1.0时代,推动了传统企业的网络化;–2011年-2020年,Web2.0时代,将推动传统企业的社交化。云计算、移动网、物联网、社会网将主导今后的十年。–云计算的应用场景不应是收水电费模式,而是作为云端技术,驱动社会媒体的蓬勃发展。社会媒体将普及云计算技术。–基于移动网、物联网、社会网的云服务相互连通。3研究背景1998年论坛98年世界杯、四通利方体育沙龙(论坛)吸引着无数人2001年门户网站911事件,快速、全面、准确、客观,奠定了门户网站影响力和媒体地位2005年博客博客的成功,迅速推进博客在中国的主流化,标志着中国互联网即将进入web2.0时代2009年微博在中国,新浪微博将人们带入了一个更自由、更开放、更加即时、更加互动的个人互联网时代2013年爆发截止2013年1月,Facebook、Twitter、新浪微博和腾讯微博的用户数分别突破了12亿、5亿、5亿和6亿社会网络的发展历程4Web1.0&Web2.0社会媒体数据来源不同–Web1.0:网站编辑人员发布的网页信息–Web2.0社会媒体:用户个性化发布、社会性编辑、分享、传播Web网络社会网络5Web1.0&Web2.0社会媒体数据类型不同Web网络社会网络Web1.0Web2.0社会媒体节点网页文本,基本不更新用户背景信息用户发布信息:频繁更新、即时性强关系超链信息:僵硬的信息管道。网页之间缺少信息的流动性。社交信息:用户之间的信息管道;交互信息:用户之间的信息河流。结构静态网络动态网络,人群节点之间流淌着信息的河流6Web1.0&Web2.0社会媒体网络分析技术不同Web1.0Web2.0社会媒体节点分析网页文本的内容分析人物的兴趣分析人物脸谱关系分析超链分析人物的关系分析人物的朋友圈网络分析网络拓扑分析网页权威性人物的团体分析人物的社交圈网络拓扑分析人物的影响力信息传播分析人物的影响力传播7Web1.0&Web2.0社会媒体应用技术不同Web1.0Web2.0社会媒体应用技术网络信息导航。数据为王。伟大技术:GooglePageRank。Google引领Web1.0媒体的技术潮流。社会软件、群体智慧。关系为王?伟大技术是什么?社会网络照耀互联网。8Web2.0/社会媒体/社会网络9Web2.0微博社会媒体社会网络微博是什么?微博就是每次发布不超过140个字的微型博客,是表达、传播思想,吸引关注,与人交流的最快、最方便的网络传播平台特点:快速便捷社会化社会化传播社会化媒体社交通信工具人人都是信息发布者每个人都可以成为新媒体呈现最真实的自己基于信任的病毒传播可以定制的新媒体生活因微博而完整微博的现实就是中国社会的现实当你的粉丝———超过100,你就好像是一本内刊;超过1000,你就是个布告栏;超过1万,你就像一本杂志;超过10万,你就是一份都市报;超过100万,你就是一份全国性报纸;超过1000万,你就是电视台!社会媒体的影响力在社会化媒体之中,意见领袖和网络活跃分子获得了最多的关注,因此也是推广中影响消费者的关键。00意见领袖网络活跃分子多数人都是懒惰的观众很少参与互动,沉默的观众被大多数人追随贡献了多数内容和流量的一小群人典型的社会化媒体用户结构10社会网络基本概念社会网络(SocialNetwork)以人或人的群体为结点构成的集合,这些结点之间具有某种接触或相互作用模式,如朋友关系、亲属关系、同事关系或科研合作关系等。以人物为节点、以人际关系为边,将人物节点联接起来而构成的网络Page 11Page 12社会网络基本概念社会网络包括节点、关系、用户群等基本概念。节点:网络中的个体,指社会网络的参与者,即在一个网络中与他人相连接的个人、组织、事件或其他集体性质的社会实体;关系:节点和节点之间的连接;用户群:一部分节点为了某些共同的目的组成的小团体,是关系的一种部分聚合体。用图论的思想表示社会网络,网络G由节点和边组成,记为G=(V(G),E(G)):节点集合:V(G)边集合:E(G),一条连接节点i,j的边,记为(i,j);邻接矩阵:一个包含N个节点的网络G可以唯一表示为一个邻接矩阵A,其中A=(aij)N*N,aij=1表示节点i和节点j之间存在边;aij=0表示节点i和节点j之间不存在边;节点度:表示节点i与网络中其他节点之间的边的条数。Page 13社会网络的度量指标•平均路径长度:任意两个节点之间的距离的平均值•聚集系数:网络中长度为3的环(三角形)的存在比例•度分布p(k):网络中度为k的节点的个数占网络节点总数的比例,即在网络中随机任取一个节点,它的度数为k的概率•度相关性:刻画了在统计意义上网络中度数大的节点是偏向于与其它高度数的节点连接,还是偏向于与低度数节点连接的网络结构特征。用网络中所有边的两个端点的度数的Pearson相关系数r表示。Page 14社会网络的基本特征社会网络的特点:小世界特性:平均路径长度小、聚集系数高无标度特性:度分布为幂律分布高聚集系数:朋友的朋友很可能也是朋友正同配指数:度取值大的节点倾向于连接度大的节点强的社团结构:网络由若干个群或团构成,群内部个体间连接相对比较紧密,群之间连接比较稀疏Page 15社会网络的几个基本理论群与群之间的连接称为“弱关系”,弱关系促成了不同群之间的信息流动,在消息传播中的作用强大。与凯文.贝肯(普通的好莱坞演员)发生连接需要的中间人数量,平均值在2.6和3之间,进一步验证“六度分割理论”。我们可以与之保持社交关系的人数的最大值是150,奠定了“网络群组”概念。世界上任何两个人之间的平均距离为6六度分割理论弱关系贝肯数顿巴数社会网络的分类类别社会化媒体:示例社会软件:(社交工具)利用虚拟社区,帮助人群相互交流电子邮件(Email):Gmail即时通讯(InstantMessage,IM):MSN、QQ论坛(Forum):各种各样的主题论坛博客(Blog):Blogger、新浪博客.微博(MicroBlogging):Twitter、新浪微博在线社会网络(OnlineSocialnetwork):FaceBook、人人网中间地带社交型问答:知乎,Quola群体智慧:(协同工具)利用人群的集体智慧,协同工作维基(Wiki):维基百科、维基解密社会标签(SocialBookmarking):Delicious社会新闻(SocialNews):Digg社会导航(SocialNavigation):Trapster社会问答(CommunityQ&A):百度知道、Yahoo!Answers社会评论:epinions.com、口碑网资源分享:YouTube、Flickr、SlideShare、百度文库内容管理(ContentManagement):Wordpress文档管理编辑(DocumentManagementandEditingTool):GoogleDocs16社会网络的最新进展•全球最大的在线社交网络•用户人数22亿,日活跃人数13亿•日均消息量120亿条•用户数突破10亿,日活跃人数2.7亿•日均消息量5亿条•注册用户数超5.4亿•日活跃人数达6970万•日均消息量1亿•规模庞大、数据丰富•关系动态变化•圈子特性•弱关系•用户生成内容•匿名性大数据特点复杂网络特征网络安全•注册用户数近6亿•月活跃用户达到3.55亿内容简介社会网络的发展历程和基本概念社会网络的分析方法社会网络的大数据分析系统和分析过程社会网络重要期刊和会议实验室项目成果展示18社会网络分析和社会计算社会网络分析:已经成为一个关键技术,也是一项热门的研究。涵盖社会学、人类学、社会语言学、地理、社会心理学、通讯研究、资讯科学、社会网络分析与探勘、组织研究、经济学,以及生物学领域。——维基百科社会计算:以社会系统为研究对象,是一门自然科学(计算科学)、社会科学(哲学、社会学、管理学、心理学)、思维科学(系统论、控制论)的交叉学科。19多重空间促进了社会网络分析可观测的社会系统多重空间–社会空间(社会计算)–媒体空间(信息传播)–网络空间(信息处理)–物理空间(信息感知)多个网络–移动互联网–社会网–互联网–物联网20社会网络分析的优势现实社会的研究–现实社会的数据是隐性的,难以观测、获取;–早期的社会学家以小规模社区人群为研究对象,研究人际关系、社会结构、信息传播、群体行为等问题。社会网络的出现–随着以微博、社交网站为代表的社会媒体的发展,虚拟社区大量出现,组成了规模巨大的社会网络。–其数据:显式、可观测、可量化计算。激发了大规模社会计算的研究动力。21社会网络的分析方法分析方法事件分析22Page 23社会网络分析方法•趋势分析(TrendsPrediction)•情感分析(TextMining)•影响力评价(SocialInfluence)•节点分类(NodeClassification)•社团发现(CommunityDetection)•链路预测(LinkPrediction)个体分析群体分析消息传播分析个体分析社会:身份、关系、社交圈、资本、位置、地位、行为、变化心理:兴趣、情结、意识、潜意识24Page 25个体分析--影响力评价算法用户的影响力是指用户能够直接或间接作用于其他用户的能力,社会网络中各个用户的影响力是不相同的。用户影响力排名算法PageRank算法HITS算法Klout算法新浪微博算法群体分析如何分析群体边界、身份、群内关系、群际关系、群体凝聚力、群体兴趣、群体行为、群体心理、社会认同、群际冲突、社会资本、群体的社会地位、群体变化?26Page 27群体分析--团体发现在社会网络中,兴趣爱好的共同点会导致社会网络中的某些个体形成一个团体,网络也随之划分成一系列社团。团体结构作为社会网络拓扑结构的重要方面,对其研究有着重要的应用价值。社团发现既可以使人们从社团结构的整体功能得到其中个体在网络中的作用,又可以从整体上把握整个网络的结构和未来走向。Page 28群体分析--算法概述社团发现问题一直是社会网络中的研究热点,不同领域的科研工作者们纷纷从自己的角度提出了社团发现的算法,如物理学、统计学、计算机科学、生物学等领域,涌现出多种优秀的算法,主要有:图分割方法谱二分法Kernighan-Lin算法最大信息流法基于切断边集最小化法层次聚类法分块聚类法基于模块度优化的方法聚合算法分裂算法基于信息论的方法Page 29群体分析--社团发现基于迭代二分法适用于明显的树形结构网络k-means分块聚类法图分割方法层次聚类法分块聚类法模块度最优的社团结构基于信息论的有损压缩方法模块度优化法信息压缩法Page 30群体分析--链路预测网络中的链路预测(linkprediction),既包含了对未知链接(existentyetunknownlinks)的预测,也包含了对未来链接(futurelinks)的预测,研究的思路和方法主要基于马尔科夫链和机器学习。链路预测算法精确度的评价指标:AUC(areaunderthereceiveroperatingcharacteristiccurve):从整体上衡量算法的精确度Precision:只考虑对排在前L位的边是否预测准确;RankingScore:考虑对所预测的边的排序Page 31社会网络分析--链路预测基于相似性越大,链接可能性越大的前提概率模型和关系模型相结合基于相似性概率模型Page 32群体分析—结构洞定义:结构洞是指两个关系人之间的非重复关系。结构洞是一个缓冲器,相当于电线线路中的绝缘器。其