07年工作总结llf

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

07年工作总结北京大学网络与分布式系统实验室李庚2008年1月13日一、工作情况:1.与谢正茂老师和高圣亮一起接手孟涛留下Web图分析工作。a)包括资源:i.2006下半年从中国互联网上收集的8.7亿网页文件,总计5.3TB;ii.这些网页的url之间的链接关系文件,总计280GB;iii.孟涛对Web图进行分析的程序代码。b)完成工作:i.对上述280GB的链接关系文件进行消重,得到:一个无重复的url列表,总计url数量为8.3亿;不含相同链出url的url链接关系文件,总计260GB;ii.探讨采用不同算法对url串进行摘要计算时的冲突情况(与李老师、涂启琛一起):完成了一篇技术报告,《MD5和Rabin摘要值对URL的散列效果和性能比较》,详细叙述了这项工作的过程和分析结果;修正了孟涛师兄程序中关于计算Rabin摘要值的一些错误。2.与何靖、刘源、于永健进行Tplatform-Index的前期的分析和设计工作。a)完成了系统分析和初步设计,画出了类图;b)目前已并入Paradise项目组。二、08年计划:1.继续进行8.3亿url构成的Web图的分析:a)初步计划:验证Bow-tie结构,计算Pagerank(将孟涛师兄在8.3亿+9000万url数据集上进行过的工作在8.3亿url这个新的数据集上重复一遍);b)提取不同层次的链接结构:网站层次、机构层次、域层次……,进行分析。三、主要收获:提高了利用并行程序进行大规模数据处理的能力。四、建议:1.加速大规模数据处理中间件的建设,如:TFS,Map-Reduce接口等等;2.工作中觉得磁盘空间略显不足。

1 / 2
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功