SEWM2006中文网页分类评测SEWM2006中文网页分类评测清华大学参赛队报告清华大学计算机科学与技术系智能技术与系统国家重点实验室徐舒xus05@mails.tsinghua.edu.cnSEWM2006中文网页分类评测内容提纲CWT200G数据预处理网页分类策略未来工作及建议参考文献SEWM2006中文网页分类评测数据预处理-总体设计zlib压缩存储处理全部200G数据保留原始网页的页面信息和链接关系中间数据可用于对网页分类的进一步的研究SEWM2006中文网页分类评测数据预处理-HTML解析(1)网页分类需要注意的几个问题:直接应用纯文本分类策略效果很差通常包含具有丰富语义信息的Tag通常含有大量噪声可能包含多媒体信息而无确切的文本内容提取HTML中如下标签和属性:TitleMETADATA(keywords,description,etc),A(Surroundingtext)页面正文信息实现方法:基于Python的HTMLParser类,重载其中部分接口SEWM2006中文网页分类评测数据预处理-HTML解析(2)编码转换:常用网页编码格式:GBK/GB18030/GB2312(简体)BIG-5(繁体)UTF8/UTF16(通用)只处理BIG5,GBK和UTF-8三种编码统一转码成为GBK编码(编码转换库Libiconv)05年训练集中的编码数量统计:BIG5:53,UTF-8:6,GBK:15457SEWM2006中文网页分类评测数据预处理-信息抽取和去噪(1)在解析HTML的基础上进行表征同一网页的不同形式页面内部信息标题META信息页面正文页面链接文本Web结构信息链入文本聚合SEWM2006中文网页分类评测过滤广告噪声(基于规则)无链接文字(AnchorText)链接文字周围没有非链接的文字链接文字中出现了给定的过滤关键词,例如“下一页”,“图铃”等缺乏可靠的抑制噪声的措施不直接删除广告信息,而是给出标记,由后续程序进一步判断数据预处理-信息抽取和去噪(2)SEWM2006中文网页分类评测数据预处理-并行化海量数据,无进程间通信,易于并行处理申请使用清华大学计算机集群系统128台rx2600服务器作为计算节点,256安腾CPURedHatLinux操作系统每秒13300亿次的峰值浮点运算能力实际使用:12节点,预处理用时:28小时SEWM2006中文网页分类评测数据预处理-中间数据格式.IDCWT200G-DFHR23224.URL@title:北大未明.ANCHORDATA首页联系我们.LINKSIN@link:@anchortext:北大未明@surroundingtext:点击进入北大为名网站@Use:Y.LINKSOUT@link:@anchortext:关于我们@surroundingtext:@Use:Y.CONTENT欢迎来到北大未明网站.CLASSIDSEWM2006中文网页分类评测内容提纲CWT200G数据预处理网页分类策略未来工作及建议参考文献SEWM2006中文网页分类评测分类策略-综述基于纯文本分类策略向量空间模型采用SVM(libSVM)作为试验中统一使用的分类器特征的选择远比分类器本身重要良好的泛化能力由于训练后模型只需考虑支持向量,分类速度快特征和权重二元串(Bigram)作为特征TF*IDF权重CHI-square进行特征选择,70000维SEWM2006中文网页分类评测分类策略-多特征融合多个来源,独立表征网页的信息的融合采用线性加权的方法融合使用插值法贪婪搜索确定各个特征的权重最终采用的融合策略(向量级特征融合):contenttitleLinktextAnchorTextSurroundingTextdescriptionkeywords12.30.782.72.150.26SEWM2006中文网页分类评测分类策略-链接分析(1)网页间存在链接:主题存在一定关联分类完成基础上,简单的标签传播算法进行refine(20G)Step1:给出20G目标网页集合中所有的网页分类标签,并给出分类的置信度。Step2:对于那些进行了归一化之后分类置信度很低的网页,我们认为这些网页的分类结果是不可靠的,Step3:对于上述所有置信度很低的网页,观察指向该网页的所有网页的分类结果,如果这些网页均为分类置信度很高的网页,并且在分类结果上有很强的内聚性,则将当前页面的分类标签更换为指向其的那些网页的分类结果。SEWM2006中文网页分类评测分类策略-链接分析(2)链接传播算法性能评测5253545556575859123456链接传播参数s分类正确率(%)链接传播前链接传播后链接传播算法性能评测5252.0552.152.1552.252.2552.352.3552.452.4552.5123456链接传播参数s分类正确率链接传播前链接传播后8类上的传播效果11类上的传播效果SEWM2006中文网页分类评测内容提纲CWT200G数据预处理网页分类策略未来工作及建议参考文献SEWM2006中文网页分类评测未来工作更加有效的页面去噪方法(VIPS,摘要等)更大规模的数据集上进行链接分析改进标签传播的算法SEWM2006中文网页分类评测一些感想和建议8类的分类体系有些过于重叠:如娱乐和时尚用户调查(UserStudy)的结果:在05年的1100篇测试集上进行标注比较8类分类器的机器分类结果和用户标注存在用户和机器标注不一致但都合理的情况上述情形在分类置信度存在双峰时尤为突出:(73/1100)层次分类(GoogleDirectory)?多标签?SEWM2006中文网页分类评测内容提纲CWT200G数据预处理网页分类策略未来工作及建议参考文献SEWM2006中文网页分类评测参考文献[1]G.R.Xue,Q,YangH.JZeng,Y,YuandZ.Chen.ExploitingtheHierarchicalStructureforLinkAnalysisThe28thAnnualInternationalACMSIGIRconferenceonResearchandDevelopmentinInformationRetrieval(SIGIR'2005),July2005.[2]D.Cai,X.F.He,J.R.WenandW.Y.Ma.Block-levelLinkAnalysis.The27thAnnualInternationalACMSIGIRconferenceonResearchandDevelopmentinInformationRetrieval(SIGIR'2004),July2004.[3]Y.H.HuandG.M.Xin.TitleExtractionfromBodiesofHTMLDocumentsanditsapplicationtoWebPageRetrieval[4].J.Glover.UsingWebStructureforClassifyingandDescribingWebPages,[5]J.F¨urnkranz.Exploitingstructuralinformationfortextclassificationonthe–498,1999.[6]S.Chakrabarti,B.Dom,andP.Indyk.Enhancedhypertextcategorizationusinghyperlinks.SIGMODRecord(ACMSpecialInterestGrouponManagementofData),27(2):307–318,June1998.[7]A.BlumandT.Mitchell.Combininglabeledandunlabeleddatawithco-training.InCOLT:ProceedingsoftheWorkshoponComputationalLearningTheory,MorganKaufmannPublishers,1998.[8]Y.Yang,S.Slattery,andR.Ghani.Astudyofapproachestohypertextcategorization.JournalofIntelligentInformationSystems.KluwerAcademicPress,(accepted),2001.SEWM2006中文网页分类评测