Semi-supervisedTextCategorizationbyConsideringSufficiencyandDiversityShoushanLi†‡SophiaYatMeiLee‡WeiGao†Chu-RenHuang‡†NaturalLanguageProcessingLab,SchoolofComputerScienceandTechnology,SoochowUniversity,China‡CBS,TheHongKongPolytechnicUniversity,HongKong目录半监督文本分类传统半监督方法所面临的问题样本的多样性与充分性多样性的实现特征子空间差异性实现实验设置实验结果分析结语半监督文本分类近些年来,半监督文本分类在自然语言处理研究领域获得了显著的发展。半监督文本分类旨在少量的标注样本基础上,利用未标注样本,提高分类性能。半监督情感分类常见方法:自训练(self-training)标签传播算法(LP)Tri-trainingEM传统半监督方法所面临的问题传统半监督学习方法(self-training)理论上应该是有效的:eg:ThisbrandistheworstqualitythatIhavepurchased.Iwouldavoidthisbrand.分类器从未标注样本中学习额外知识实际上传统半监督学习方法并不是很成功多样性充分性样本的多样性与充分性多样性(diversity):衡量半监督中加入的未标注样本与已标注样本之间的相似度。充分性(sufficiency):衡量分类器对样本分类的准确性。好的半监督学习方法应该考虑充分性的基础上,尽量保证样本的多样性,从而获得好的分类性能。样本的多样性与充分性多样性的实现传统的半监督学习方法倾向于加入与已标注样本相似度较大的未标注样本。利用随机特征子空间增加样本之间的差异性,每次迭代选取不同的特征子空间保证相邻两轮迭代特征子空间的差异性在上轮余下的特征空间中挑选特征保证unigram的不同,扩展bigram特征子空间差异性实现以unigram作为种子词,扩展bigrameg:若包含特征excellent,则特征is_excellent,very_excellent均被加入。特征子空间的构建,unigram个数(r)固定,通过unigram加入与之相关的bigram。保证相邻两轮迭代特征子空间中的unigram特征不同,从而降低了特征子空间中特征的相似度,如excellent与is_excellent,加大了相邻特征子空间的差异性。实验设置实验语料:主题分类:20News,WebKB情感分类:book,DVD,electronic,kitchen实验设置200篇样本作为测试语料,余下的作为标注样本和未标注样本分类工具MALLET机器学习工具包中的最大熵分类器分类效果衡量标准分类准确率分类方法对比我们实现了以下分类方法的比较研究:Baseline:trainingaclassifierwiththeinitiallabeleddata(nounlabeleddataisemployed);Bootstrapping-T:thetraditionalbootstrappingalgorithm;Bootstrapping-RS:thebootstrappingalgorithmwithrandomsubspaceclassifiers;Bootstrapping-ES:thebootstrappingalgorithmwithexcludedsubspaceclassifiers;Bootstrapping-ES+:theBootstrapping-ESimplementationwithafeatureexcludingstrategytoguaranteethedifferencebetweendifferenttypesoffeatures,i.e.,wordunigramsandbigramsinthisstudy.。分类方法比较-主题分类TopicClassification0.30.40.50.60.70.8WebKB20NewsAccuracy分类方法比较-情感分类SentimentClassification0.550.60.650.70.750.8BookDVDElectronicKitchenAccuracyBaselineBootstrapping-TBootstrapping-RSBootstrapping-ESBootsrapping-ES+特征子空间大小设置实验结果分析半监督学习在情感分类中要比主题分类困难比较Bootstrapping-T,Bootstrapping-RS,Bootstrapping-ES,Bootstrapping-ES+,随着特征子空间差异性的增大,其分类性能呈递增趋势特征子空间的大小选择占整个特征空间的1/6到1/3为益,不能太小谢谢