互联网生态的可视化PPT讲稿

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

互联网生态的可视化楼晓丹北京师范大学系统科学rosdays@163.com集体注意力互联网生态系统集体注意力1s=571newwebsiteswillbecreated1s=684478contentwillbesharedonFacebook1s=100000tweetswillbeposted1s=204166667emailswillbesent1秒集体注意力眼球经济注意力经济占意理论相关研究相关研究在传统研究中,人们习惯性的将人作为研究主体,研究信息是如何在网络上传播的。关心信息在传播过程动力学行为,包括对有限注意力的竞争,延迟和选择,或者定量化注意力。微观研究,针对个体或特定的网站内部,没有一个宏观层面上的总体视角。问题互联网生态系统互联网=生态系统……动机方法结论总结美国VS中国归纳应用数据来源方法简介点击流数据来源美国印第安纳大学2006.10-2008.02(),平均每一天都有123137个网站和45563567访问量。数据形式(timestamp,referrer,host,path)中国互联网信息中心30000多个在线用户的搜索数据。互联网发展状况分析及社会统计技术应用研究,国家互联网规模(带宽、网民等)、用户行为分析等数据来源:DNSLAB集体注意力流距离:重要性度量Lij:两个网站间的流距离是一个游客沿着所有可能路径从i到j的首次到达的距离计算站点间关系的Fundamental矩阵为:𝑈=𝐼+𝑀+𝑀2+⋯=𝐼−𝑀−1𝑙𝑖𝑗=𝑀𝑈2𝑖𝑗𝑈𝑖𝑗−𝑀𝑈2𝑗𝑗𝑈𝑗𝑗MF计算站点间的流距离为:对称流距离cij:𝐶=𝐶𝑖𝑗=𝑙𝑖𝑗+𝑙𝑗𝑖.解释为随机游客来回i,j结点的平均路径长度美国小世界特性中国尖峰长尾Top1000网站弹簧算法能不能可视化?把它嵌入到一个高维空间?假设节点之间有弹簧,节点因为弹簧的拉伸和压缩而运动,最终使得整个系统的弹簧的能量(弹性势能)最小。弹簧算法三个步骤:1.初始化阶段:在d维空间下,随机的对每个节点赋予一个初始坐标2.调整阶段:通过弹簧算法,计算节点间的欧式距离,使之与它们对应流距离的误差尽可能小。𝐸𝑖𝑗𝑖,𝑗=𝑖𝑑−𝑗𝑑−𝑐𝑖𝑗𝑖𝑑−𝑗𝑑为i和j在欧式空间下的距离,cij为ij的对称流距离。Eij是两者的差值。重复计算,直到误差小于一个阈值。3.精确阶段:通过嵌入失真度的计算,精细的调整他们的坐标。失真度公式:𝑑𝑖𝑗=𝑚𝑎𝑥𝑖−𝑗𝑐𝑖𝑗−1,𝑐𝑖𝑗𝑖−𝑗−1平均失真度:𝑑=𝑑𝑖𝑗𝑁𝑖=1𝑁𝑖=1𝑁2重复计算top2200的网站嵌入到20维的欧式空间。用PCA方法降到2维作图。BlueCoatSystems,Inc,分成6类美国可视化越中心越重要!区域划分明显,不同内容的基本在特定区域;综合类分散中国可视化每个点代表一个网站.点的大小则与他们的流量成正比,流量越大,则点的大小越大.浅蓝色的为流量最大的5个网站,其他则用紫色标示.图二中的子图是基于中心对焦放大后形成的.Baidu.comqq.comtaobao.comhao123.com中国聚类分析我们在20维对节点进行了聚类,然后通过PCA降维的方式,又将其投影到2维平面上展示.此外,我们抽取了每个类别中心附近的网站,以及特别远离的节点查看这些网站的内容。嵌入效果传统的点击率单纯重浏览的角度分析网页的受欢迎程度,但是无法了解网站与网站直接的联系,以及链接的质量。Pagerank从网站的拓扑结构出发,同时考虑了网站的异质性,是目前网站排名和推送的主流算法。问题,一些点击付费广告站点(Pay-per-clickadvertising)依赖其广泛的超链接链入以及大量的点击量获得了较高的超链接(PRi)排名,但却无法获得同样的注意力影响力排名为了更好的说明流距离是网站重要性的指标,我们分别计算了三者的数值,并列举了top网站,通过比较三者差异进而验证。网站流行度——美国美国网站流行度——中国rankwebnameflowdistancePageRankthroughflow1baidu.com26.332(1)0.0221(1)105560(1)2qq.com30.087(2)0.0189(2)57209(2)3sogou.com33.035(3)0.0138(3)25979(4)4taobao.com33.272(4)0.0131(4)35311(3)5hao123.com33.626(5)0.0120(6)23295(5)6sina.com33.818(6)0.0122(5)21711(7)7weibo.com34.054(7)0.0098(9)21815(8)8163.com34.979(8)0.0108(7)13890(12)9sohu.com35.015(9)0.0103(8)15512(8)10360.cn35.706(10)0.0095(10)14744(9)11youku.com36.268(11)0.0070(13)14254(11)12renren.com36.383(12)0.0062(17)11647(13)13soso.com36.952(13)0.0071(12)8589(14)14ifeng.com37.186(14)0.0066(14)7487(16)15google.com37.202(15)0.0077(11)5938(17)16tmall.com37.212(16)0.0063(16)14385(10)18alipay.com38.252(18)0.0057(19)7723(15)网站数、注意力流和耗散的分布——美国根据网站数量的分位数将网络分成3层。•第一层:核心层(20%的网站数,70%注意力)•第二层:中间层(60%的网站数,22%的注意力)•第三层:边缘层(20%的网站数,8%的注意力)Kx:决定了偏移量Cx:决定了陡峭度各个变量的关系ABG=(A-B)/BFig5.Thedistributionofattentionflow,websitesanddissipationineachinternal.TheX-axismeansthedistancefromthecenter,andtheY-axisisthepercentage.Theredlineisthenumberofsitesinthisinterval,thegreenlineisthetotalflowofsites,andthebluelineistheirdissipation网站数、注意力流和耗散的分布——中国网站数、注意力流和耗散的分布——中国根据网站数量的分位数将网络分成3层。•第一层:核心层(1%网站数,43%的注意力)•第二层:中间层(34%的网站数,40%的注意力)•第三层:边缘层(65%的网站数,17%的注意力)现在网络世界盲目扩张的现状Fig.6Thecumulativedistributionofattentionflow,websitesanddissipation.TheX-axismeansthedistancefromthecenter,andtheY-axisisthepercentage,thepointsrepresenttheactualdata,andsolidlinesarefittinglines动态过程Thisindicatesthatthecentralareaofthesystemarebecomingdenserastimegoesbyindicatingthatthewebsitesarecloserandmoreconnectedeachother.总结……动机方法结论总结归纳应用总之,我们通过分析人类上网的注意力流,更深刻的认识了人们浏览和整个互联网生态系统。这一研究可以帮助我们分析除了上家和下家之外的间接联系。帮助我们看到网站之间的关联性,从而更好的对网站进行评价。可能会预测黑马类的网站。互联网+谢谢观赏!Thanks!

1 / 40
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功