07年工作总结北京大学网络与分布式系统实验室李庚2008年1月13日一、工作情况:1.与谢正茂老师和高圣亮一起接手孟涛留下Web图分析工作。a)包括资源:i.2006下半年从中国互联网上收集的8.7亿网页文件,总计5.3TB;ii.这些网页的url之间的链接关系文件,总计280GB;iii.孟涛对Web图进行分析的程序代码。b)完成工作:i.对上述280GB的链接关系文件进行消重,得到:一个无重复的url列表,总计url数量为8.3亿;不含相同链出url的url链接关系文件,总计260GB;ii.探讨采用不同算法对url串进行摘要计算时的冲突情况(与李老师、涂启琛一起):完成了一篇技术报告,《MD5和Rabin摘要值对URL的散列效果和性能比较》,详细叙述了这项工作的过程和分析结果;修正了孟涛师兄程序中关于计算Rabin摘要值的一些错误。2.与何靖、刘源、于永健进行Tplatform-Index的前期的分析和设计工作。a)完成了系统分析和初步设计,画出了类图;b)目前已并入Paradise项目组。二、08年计划:1.继续进行8.3亿url构成的Web图的分析:a)初步计划:验证Bow-tie结构,计算Pagerank(将孟涛师兄在8.3亿+9000万url数据集上进行过的工作在8.3亿url这个新的数据集上重复一遍);b)提取不同层次的链接结构:网站层次、机构层次、域层次……,进行分析。三、主要收获:提高了利用并行程序进行大规模数据处理的能力。四、建议:1.加速大规模数据处理中间件的建设,如:TFS,Map-Reduce接口等等;2.工作中觉得磁盘空间略显不足。