不平衡情感分类的分析研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Semi-supervisedTextCategorizationbyConsideringSufficiencyandDiversityShoushanLi†‡SophiaYatMeiLee‡WeiGao†Chu-RenHuang‡†NaturalLanguageProcessingLab,SchoolofComputerScienceandTechnology,SoochowUniversity,China‡CBS,TheHongKongPolytechnicUniversity,HongKong目录半监督文本分类传统半监督方法所面临的问题样本的多样性与充分性多样性的实现特征子空间差异性实现实验设置实验结果分析结语半监督文本分类近些年来,半监督文本分类在自然语言处理研究领域获得了显著的发展。半监督文本分类旨在少量的标注样本基础上,利用未标注样本,提高分类性能。半监督情感分类常见方法:自训练(self-training)标签传播算法(LP)Tri-trainingEM传统半监督方法所面临的问题传统半监督学习方法(self-training)理论上应该是有效的:eg:ThisbrandistheworstqualitythatIhavepurchased.Iwouldavoidthisbrand.分类器从未标注样本中学习额外知识实际上传统半监督学习方法并不是很成功多样性充分性样本的多样性与充分性多样性(diversity):衡量半监督中加入的未标注样本与已标注样本之间的相似度。充分性(sufficiency):衡量分类器对样本分类的准确性。好的半监督学习方法应该考虑充分性的基础上,尽量保证样本的多样性,从而获得好的分类性能。样本的多样性与充分性多样性的实现传统的半监督学习方法倾向于加入与已标注样本相似度较大的未标注样本。利用随机特征子空间增加样本之间的差异性,每次迭代选取不同的特征子空间保证相邻两轮迭代特征子空间的差异性在上轮余下的特征空间中挑选特征保证unigram的不同,扩展bigram特征子空间差异性实现以unigram作为种子词,扩展bigrameg:若包含特征excellent,则特征is_excellent,very_excellent均被加入。特征子空间的构建,unigram个数(r)固定,通过unigram加入与之相关的bigram。保证相邻两轮迭代特征子空间中的unigram特征不同,从而降低了特征子空间中特征的相似度,如excellent与is_excellent,加大了相邻特征子空间的差异性。实验设置实验语料:主题分类:20News,WebKB情感分类:book,DVD,electronic,kitchen实验设置200篇样本作为测试语料,余下的作为标注样本和未标注样本分类工具MALLET机器学习工具包中的最大熵分类器分类效果衡量标准分类准确率分类方法对比我们实现了以下分类方法的比较研究:Baseline:trainingaclassifierwiththeinitiallabeleddata(nounlabeleddataisemployed);Bootstrapping-T:thetraditionalbootstrappingalgorithm;Bootstrapping-RS:thebootstrappingalgorithmwithrandomsubspaceclassifiers;Bootstrapping-ES:thebootstrappingalgorithmwithexcludedsubspaceclassifiers;Bootstrapping-ES+:theBootstrapping-ESimplementationwithafeatureexcludingstrategytoguaranteethedifferencebetweendifferenttypesoffeatures,i.e.,wordunigramsandbigramsinthisstudy.。分类方法比较-主题分类TopicClassification0.30.40.50.60.70.8WebKB20NewsAccuracy分类方法比较-情感分类SentimentClassification0.550.60.650.70.750.8BookDVDElectronicKitchenAccuracyBaselineBootstrapping-TBootstrapping-RSBootstrapping-ESBootsrapping-ES+特征子空间大小设置实验结果分析半监督学习在情感分类中要比主题分类困难比较Bootstrapping-T,Bootstrapping-RS,Bootstrapping-ES,Bootstrapping-ES+,随着特征子空间差异性的增大,其分类性能呈递增趋势特征子空间的大小选择占整个特征空间的1/6到1/3为益,不能太小谢谢

1 / 15
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功