互联网生态的可视化楼晓丹北京师范大学系统科学rosdays@163.com集体注意力互联网生态系统集体注意力1s=571newwebsiteswillbecreated1s=684478contentwillbesharedonFacebook1s=100000tweetswillbeposted1s=204166667emailswillbesent1秒集体注意力眼球经济注意力经济占意理论相关研究相关研究在传统研究中,人们习惯性的将人作为研究主体,研究信息是如何在网络上传播的。关心信息在传播过程动力学行为,包括对有限注意力的竞争,延迟和选择,或者定量化注意力。微观研究,针对个体或特定的网站内部,没有一个宏观层面上的总体视角。问题互联网生态系统互联网=生态系统……动机方法结论总结美国VS中国归纳应用数据来源方法简介点击流数据来源美国印第安纳大学2006.10-2008.02(),平均每一天都有123137个网站和45563567访问量。数据形式(timestamp,referrer,host,path)中国互联网信息中心30000多个在线用户的搜索数据。互联网发展状况分析及社会统计技术应用研究,国家互联网规模(带宽、网民等)、用户行为分析等数据来源:DNSLAB集体注意力流距离:重要性度量Lij:两个网站间的流距离是一个游客沿着所有可能路径从i到j的首次到达的距离计算站点间关系的Fundamental矩阵为:𝑈=𝐼+𝑀+𝑀2+⋯=𝐼−𝑀−1𝑙𝑖𝑗=𝑀𝑈2𝑖𝑗𝑈𝑖𝑗−𝑀𝑈2𝑗𝑗𝑈𝑗𝑗MF计算站点间的流距离为:对称流距离cij:𝐶=𝐶𝑖𝑗=𝑙𝑖𝑗+𝑙𝑗𝑖.解释为随机游客来回i,j结点的平均路径长度美国小世界特性中国尖峰长尾Top1000网站弹簧算法能不能可视化?把它嵌入到一个高维空间?假设节点之间有弹簧,节点因为弹簧的拉伸和压缩而运动,最终使得整个系统的弹簧的能量(弹性势能)最小。弹簧算法三个步骤:1.初始化阶段:在d维空间下,随机的对每个节点赋予一个初始坐标2.调整阶段:通过弹簧算法,计算节点间的欧式距离,使之与它们对应流距离的误差尽可能小。𝐸𝑖𝑗𝑖,𝑗=𝑖𝑑−𝑗𝑑−𝑐𝑖𝑗𝑖𝑑−𝑗𝑑为i和j在欧式空间下的距离,cij为ij的对称流距离。Eij是两者的差值。重复计算,直到误差小于一个阈值。3.精确阶段:通过嵌入失真度的计算,精细的调整他们的坐标。失真度公式:𝑑𝑖𝑗=𝑚𝑎𝑥𝑖−𝑗𝑐𝑖𝑗−1,𝑐𝑖𝑗𝑖−𝑗−1平均失真度:𝑑=𝑑𝑖𝑗𝑁𝑖=1𝑁𝑖=1𝑁2重复计算top2200的网站嵌入到20维的欧式空间。用PCA方法降到2维作图。BlueCoatSystems,Inc,分成6类美国可视化越中心越重要!区域划分明显,不同内容的基本在特定区域;综合类分散中国可视化每个点代表一个网站.点的大小则与他们的流量成正比,流量越大,则点的大小越大.浅蓝色的为流量最大的5个网站,其他则用紫色标示.图二中的子图是基于中心对焦放大后形成的.Baidu.comqq.comtaobao.comhao123.com中国聚类分析我们在20维对节点进行了聚类,然后通过PCA降维的方式,又将其投影到2维平面上展示.此外,我们抽取了每个类别中心附近的网站,以及特别远离的节点查看这些网站的内容。嵌入效果传统的点击率单纯重浏览的角度分析网页的受欢迎程度,但是无法了解网站与网站直接的联系,以及链接的质量。Pagerank从网站的拓扑结构出发,同时考虑了网站的异质性,是目前网站排名和推送的主流算法。问题,一些点击付费广告站点(Pay-per-clickadvertising)依赖其广泛的超链接链入以及大量的点击量获得了较高的超链接(PRi)排名,但却无法获得同样的注意力影响力排名为了更好的说明流距离是网站重要性的指标,我们分别计算了三者的数值,并列举了top网站,通过比较三者差异进而验证。网站流行度——美国美国网站流行度——中国rankwebnameflowdistancePageRankthroughflow1baidu.com26.332(1)0.0221(1)105560(1)2qq.com30.087(2)0.0189(2)57209(2)3sogou.com33.035(3)0.0138(3)25979(4)4taobao.com33.272(4)0.0131(4)35311(3)5hao123.com33.626(5)0.0120(6)23295(5)6sina.com33.818(6)0.0122(5)21711(7)7weibo.com34.054(7)0.0098(9)21815(8)8163.com34.979(8)0.0108(7)13890(12)9sohu.com35.015(9)0.0103(8)15512(8)10360.cn35.706(10)0.0095(10)14744(9)11youku.com36.268(11)0.0070(13)14254(11)12renren.com36.383(12)0.0062(17)11647(13)13soso.com36.952(13)0.0071(12)8589(14)14ifeng.com37.186(14)0.0066(14)7487(16)15google.com37.202(15)0.0077(11)5938(17)16tmall.com37.212(16)0.0063(16)14385(10)18alipay.com38.252(18)0.0057(19)7723(15)网站数、注意力流和耗散的分布——美国根据网站数量的分位数将网络分成3层。•第一层:核心层(20%的网站数,70%注意力)•第二层:中间层(60%的网站数,22%的注意力)•第三层:边缘层(20%的网站数,8%的注意力)Kx:决定了偏移量Cx:决定了陡峭度各个变量的关系ABG=(A-B)/BFig5.Thedistributionofattentionflow,websitesanddissipationineachinternal.TheX-axismeansthedistancefromthecenter,andtheY-axisisthepercentage.Theredlineisthenumberofsitesinthisinterval,thegreenlineisthetotalflowofsites,andthebluelineistheirdissipation网站数、注意力流和耗散的分布——中国网站数、注意力流和耗散的分布——中国根据网站数量的分位数将网络分成3层。•第一层:核心层(1%网站数,43%的注意力)•第二层:中间层(34%的网站数,40%的注意力)•第三层:边缘层(65%的网站数,17%的注意力)现在网络世界盲目扩张的现状Fig.6Thecumulativedistributionofattentionflow,websitesanddissipation.TheX-axismeansthedistancefromthecenter,andtheY-axisisthepercentage,thepointsrepresenttheactualdata,andsolidlinesarefittinglines动态过程Thisindicatesthatthecentralareaofthesystemarebecomingdenserastimegoesbyindicatingthatthewebsitesarecloserandmoreconnectedeachother.总结……动机方法结论总结归纳应用总之,我们通过分析人类上网的注意力流,更深刻的认识了人们浏览和整个互联网生态系统。这一研究可以帮助我们分析除了上家和下家之外的间接联系。帮助我们看到网站之间的关联性,从而更好的对网站进行评价。可能会预测黑马类的网站。互联网+谢谢观赏!Thanks!