SEWM2006中文网页分类评测参赛系统说明北京大学信息管理系税敏程煜华侯建彬王丹祁德君2006.7系统模块结构分类模块特征提取模块中文分词模块网页净化模块训练集1格式转换CWT200G建分类模型特征优选中文分词网页净化中文分词网页净化训练集2进行分类特征表示中文分词网页净化评测结果建分类模型特征优选分类结果1分类结果2评测结果图1:分类系统模块结构从功能上看,该分类系统实现了网页净化、中文分词、特征提取、分类、结果评测等功能。其中,系统的四个主要的功能模块是:1、网页净化模块。该模块去除了网页中的“噪音”内容,保留了和网页主题相关的文本内容。2、中文分词模块。该模块将网页净化后的文本转换成特征词项的集合。3、特征提取模块。该模块从中文分词得到的词集中选取最能代表网页主题内容的一部分词语,形成网页的特征向量表示。4、分类模块。该模块通过分类算法计算网页特征向量和类之间的相似度,最后确定网页所属的类别。各模块主要算法1、网页净化模块①对网页编码格式进行装换和统一②分析网页结构,去除超链,标签,Script代码,Style代码③保留正文中的英文、数字及汉字部分,其余部分全部去除④对于保留下来的标题和正文部分,按照4:1的比例分配权重2、分词模块①在训练集的处理阶段,采用了中科院的切词系统进行分词②由于中科院切词系统非常的不稳定,在处理待分网页时,利用先前产生的特征项词表,自己开发了采用逆序最大最长匹配算法的切词系统3、特征提取模块①前期试验了Df、信息增益、互信息等多种方法,根据试验比较,采用信息增益提取特征项②按信息增益值从大到小的顺序对所有词语进行了排序,然后从中取出了前20%的词语,并去除了其中的数字和英文,将剩下的词语作为提取的特征项•经过比较,最后选取tf*idf方法对每一个特征项进行了加权4、分类模块•4.1SVM分类器•4.2KNN分类器•4.3两种分类器的结合4.1SVM分类器•在实现SVM分类模型时,我们采用了台湾大学的LibSVM软件包,选取了Libsvm-errorcode工具。•我们选取了RBF核函数,选取了scale方法、调整了train参数、predict参数。然后,我们测试了模型中的两个参数c和g,首先用大步长分别进行测试,再基于python的grid.py进行了局部的cross-validation,最后得到了最优的c和g的值。4.2KNN分类器•K=15:对10到20之间的K值进行了验证,发现15是出现峰值•相似度:余弦相似度•相似度加权:–计算文档与每个训练文档相似度是使用了相似度加权•设置特征项权重的阈值:–对于每篇文档,将权重低于某阈值特征项舍去。原因在于余弦相似度是全局相似度,权重极低的特征项对结果影响非常小,舍去可大大提高分类速度,但对分类效果影响极小。•建立倒排表–全局相似度;权重极大的项影响相似度,因此每篇训练文档按照其中权重大于一定阈值的特征建立倒排表;待分文档按照同样阈值选择所包含特征项,查找倒排表,生成候选项。然后从中确定K-NN。此举也大大提高了分类速度,但对分类效果影响极小。4.3两种分类器的结合•在分别对kNN和SVM进行改进和参数调整之后,我们通过实验发现运用两种模型进行分类所得到的结果存在一定的互补性。因此,我们在分类时对两者进行了结合,共采用了三种方法(均以数据集1为例):两种分类器结合方法一•采用分类器SVM对测试集进行分类,分别算出测试文档属于各个类别的概率,取概率最大的前两个类别计算概率差值,如果差值较大,我们认为分准率越高。然后按照这个概率差值differ对待分文档排序。确定一个阈值s。用分类器SVM对differs的文档集进行分类,用分类器KNN对differs的文档集进行分类。综合得出的结果,可以得到最优的分准率。•该方法分准率可以提高0.2个百分点。SVM与KNN结合方法一0.820.830.840.850.860.870.88081624324048566472808896阈值分准率分准率两种分类器结合方法二•首先用分类器SVM对测试集进行分类,并计算出各文档属于给定类别的概率并排序。将排序后的文档划分成n个部分,对每个部分分别用分类器SVM计算出分准率PSi(i=1,2,……,n),以及分类器KNN计算出分准率PKi(i=1,2,……,n),当PSi=PKi时,则第i部分的文档采SVM进行分类,反之则采用KNN进行分类。•我们取n=20,第1,4,7部分采用KNN,其它部分采用SVM。分准率可以提高0.47个百分点两种分类器结合方法三•对于同一个网页p,用kNN进行分类得到一个类别c1,p与c1之间的相似度值s1;用SVM进行分类得到一个类别c2,p与c2之间的相似度值s2。•在具体实现中,考虑到KNN和SVM权值计算方式的差别,我们将s2扩大到1.11倍:s2=1.11*s2。比较s1和s2,如果s1=s2,则将c1作为网页p的分类结果;如果s1s2,则将c2作为网页p的分类结果。该方法分准率可以提高大概0.7个百分点。TheEnd