基于卡方特征选择和LDA主题模型的中文短文本分类

ekinedison
2 ℃
2020-04-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

基于卡方特征选择和LDA主题模型的中文短文本分类摘要：中文短文本自身包含词汇个数少、描述信息能力弱，常用的文本分类方法对于短文本分类效果不理想。同时传统的文本分类方法在处理大规模文本分类时会出现向量维数很高的情况，造成算法效率低，而且一般用于长文本分类的特征选择方法都是基于数理统计的，忽略了文本中词项之间的语义关系。针对以上问题本文提出基于卡方特征选择和LDA主题模型的中文短文本分类方法，方法使用LDA主题模型的训练结果对传统特征选择方法进行特征扩展，以达到将数理信息和语义信息融入分类算法的目的。对比试验表明，这种方法提高了中文短文本分类效果。关键词：短文本分类特征选择主题模型中图分类号：TP18文献标识码：A文章编号：1009-3044（2014）13-3182-04TheShortTextClassificationMethodBasedonCHIFeatureSelectionandLDATopicModelZHENGCheng，XIONGDa-kang，LIUQian-qian（SchoolofComputerScienceandTechnology，AnhuiUniversity，Hefei230039，China）Abstract：Chineseshorttextscontainfewwordsanddescribeweaksignals.thecommontextclassificationmethodsdon’tperformswellfortheshorttext.InVectorModel，thedimensionofthedocumentvectorishuge.Thehugevectorleadstoinefficientalgorithms.Thetraditionalfeatureselectionmethodsarebasedonthemathematicalstatistics，ignoringthesemanticrelationshipbetweentermsfromtext.ThenamethodbasedonCHIfeatureselectionandLDAtopicmodelisintroducedtoclassifyChineseshorttexts.Inthismethod，theresultoftheLDAtopicmodelisappliedtoextendthefeaturesofdataset，whichcanmakeclassificationalgorithmcontainsmathematicalstatisticsandsemanticinformation.Theexperimentresultshowsthatthemethodinthispaperimprovestheeffectoftextclassification.Keywords：shorttextclassification；featureselection；topicmodel自然语言处理中的主题模型起源于Deerwester等人在1990年提出的隐性语义索引（LatentSemanticIndexing，LSI）[1]，它为主题模型的发展奠定了基础。1999年Hofmann在LSI的基础上提出了概率隐性语义索引（probabilisticLatentSemanticIndexing，pLSI）[2]，这是一个真正意义上的主题模型。在pLSI的基础上Blei等人在2003年将其扩展得到更为完全的概率生成模型LDA（LatentDirichletAllocation）[3]。LDA主题模型可以用于提取文本隐含主题信息[4]，因此在文本分类领域受到广泛的关注，越来越多的研究人员对LDA模型进行改进并提出了Labeled-LDA、Link-PLSA-LDA等文本分类模型[5-6]。除了LDA模型，XiaohuiYan等人提出了用于短文本分类的BTM（BitermTopicModel）[7]模型，取得了较好的分类效果。目前，短文本分类的一种流行方法是利用一些额外的信息来辅助分类，引入额外信息的目的是是挖掘短文本所表达的信息。例如王鹏[8]等利用依存关系抽取词扩充短文本特征；宁亚辉[9]等借助知网提出基于领域词语本体的短文本分类；徐盛[10]等利用知网上下位关系扩展短文本特征。以上方法都需要大规模背景知识库或语料，处理大规模背景语料费时费力，同时背景知识库更新慢、可扩展性差，难以适应网络短文本词汇新颖、专业的特点。提高文本分类效果最重要的是如何提取文本特征，常用的特征提取方法有文档频率（DF）、互信息（MI）、信息增益（IG）[11]、卡方统计（CHI）[12]等等，大量的实验和研究显示CHI方法的特征选择效果好于其他的方法，因此本文使用CHI方法。LDA模型可以用于挖掘词与词之间的隐含语义关系。该文提出了基于卡方特征选择和LDA主题模型的方法，在此基础上使用SVM[13]进行分类，并与BTM[14]的实验结果进行比较。本文组织如下：第2节介绍CHI特征选择方法；第3节介绍LDA主题模型和BTM模型；第4节介绍本文提出的短文本分类方法实验过程并分析实验结果；最后总结全文并展望下一步工作。1CHI特征选择CHI用于衡量特征词t和类别[ci]之间的关联程度，方法假设特征t和类别[ci]之间的非独立关系类似于具有一维自由度的[χ2]分布，t对于[ci]的CHI值计算如公式（1）所示：[χ2（t，ci）=N×（A×D-C×B）2（A+C）×（B+D）×（A+B）×（C+D）]（1）公式中，N表示训练语料中的文档总数，[ci]表示类别，t表示特征词，A表示属于[ci]类且包含t的文档频数，B表示不属于[ci]但包含t的文档频数，C表示属于[ci]但是不包含t的文档频数，D是既不属于[ci]也不包含t的文档频数。[χ2（t，ci）]值越高表示t和[ci]的相关度越大，[χ2（t，ci）]值为0表示t和[ci]不相关。2LDA模型和BTM模型2.1LDA主题模型LDA模型是一个三层次的概率模型即“文档-主题-词项”，是对文本中隐含主题的一种建模方法，属于生成模型。它将文档表示成主题的概率分布，主题表示成词的概率分布。LDA模型如图1所示：图1LDA模型图图中M表示语料库中文本个数，L表示一篇文本的长度，z表示主题，[ω]表示词项，[α]、[β]是超参数，其中[β]是个k×V的矩阵，k为主题个数，V是词项的数目，[βij]表示第i个主题下第j个词项的概率，[θ]表示文档的主题概率分布。LDA主题模型的基本思想是随机生成一篇有N个词项组成的文档，每个词项以一定的概率选择一个主题，并从这个主题中以一定的概率选择出来。给定[α]和[β]，LDA模型用概率模型表示如公式（2）所示：[P（θ，z，w|α，β）=P（θ|α）n=1NP（zn|θ）P（wn|zn，β）]（2）整个语料库的概率如公式（3）所示：[P（D|α，β）=d=1Mp（θd|α）（n=1Ndzndp（znd|θd）p（wdn|znd，β））dθn]（3）其中D表示文档集合，[Nd]表示第d篇文档的长度，[θd]表示第d篇文档的主题概率分布，[wdn]表示第d篇文档的第n个单词，[znd]表示第d篇文档的第n个单词的主题。2.2BTM模型BTM模型表示如图2所示：图2BTM模型图其中[θ]表示文档的主题概率分布，[?]表示主题下词的概率分布，Z表示主题，|B|表示生成的biterm的个数，K表示主题个数，[Wi]和[Wj]表示抽取出来的词对。每一个biterm[b=（Wi，Wi）]的联合概率如公式（4）所示：[P（b）=zP（z）P（wi|z）P（wj|z）=zθz?i|z?j|z]（4）整个biterm集合的概率如公式（5）所示：[P（B）=（i，j）zθz?i|z?j|z]（5）3实验过程及结果3.1实验数据实验中使用的数据集是由数据堂下载的百度知道问题数据集。数据集中包含电脑/数码、教育/科学、娱乐、地区、体育/运动等14个大类，各类别包含问题个数差距比较大，最少的一类是品牌专区类，只有五个。鉴于我们需要训练及测试用的短文本数量较大，所以选择电脑/数码、教育/科学、娱乐、地区四个类别各2000篇，其中1500篇作为训练数据，其余500篇作为测试数据。3.2硬件环境及实验平台实验环境如表1所示。表1实验环境[CPU＼&Intel（R）Core（TM）i5＼&内存＼&4.00GB＼&编程语言＼&JAVA＼&IDE＼&Eclipse＼&]3.3实验评价指标对于文本分类的效果采用3种常规指标进行评估[15]：准确率（Precision，P），召回率（Recall，R），[F1]值（F-measure，[F1]）。3.4实验结果BTM模型做短文本分类随着主题数目的增加分类性能不断变化，在主题数为20时分类准确率达到最高，结果如图3所示。图3BTM模型在不同主题个数下分类性能使用基于卡方特征选择和LDA主题模型的方法，分类性能随着主题数目的增加变化，在主题数目为30时分类结果准确率最高，结果如图4所示：图4LDA模型在不同主题个数下分类性能BTM模型在主题数为20，LDA模型在主题数为30的情况下，电脑/数码、教育/科学、娱乐、地区四个类别的实验结果如表2所示。表2两种方法在各个类别上的分类结果[类别＼&BTM＼&CHI+LDA＼&准确率（%）＼&召回率（%）＼&F1（%）＼&准确率（%）＼&召回率（%）＼&F1（%）＼&电脑/数码＼&0.747＼&0.586＼&0.657＼&0.787＼&0.680＼&0.725＼&教育/科学＼&0.554＼&0.408＼&0.470＼&0.729＼&0.666＼&0.696＼&娱乐＼&0.441＼&0.762＼&0.559＼&0.567＼&0.620＼&0.592＼&地区＼&0.538＼&0.406＼&0.463＼&0.579＼&0.652＼&0.589＼&]从上表中可以看出，在所有类别中，基于卡方特征选择和LDA模型的方法比使用BTM模型的方法各项指标均有提高，分类结果较为理想。4结束语本文使用了基于卡方特征选择和LDA主题模型相结合的方法进行短文本分类，解决了传统特征选择方法无法描述语义信息以及短文本长度短、描述信息能力弱的问题，使用LDA模型的训练结果对特征选择结果进行特征扩展，并用SVM分类器进行分类。并且和最近流行的用于短文本分类的BTM模型的实验结果进行比较。实验结果表明基于卡方特征选择和LDA主题模型的分类方法在提高了分类效果，这表明将语义信息加入特征确实能够提高分类效果，因此如何更加精确地表示隐含的语义特征并将其应用于信息检索、社会计算等领域是下一步需要研究的工作。参考文献：[1]DeerwesterSC，DumaisST，LandauerTK，etal.Indexingbylatentsemanticanalysis[J].JASIS，1990，41（6）：391-407.[2]HofmannT.Probabilisticlatentsemanticindexing[C]//Proceedingsofthe22ndannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.ACM，1999：50-57.[3]BleiDM，NgAY，JordanMI.Latentdirichletallocation[J].theJournalofmachineLearningresearch，2003，3：993-1022.[4]徐戈，王厚峰.自然语言处理中主题模型的发展[J].计算机学报，2011，34（8）：1423-1436.[5]李文波，孙乐，张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报，2008，31（4）：620-627.[6]NallapatiR，CohenWW.Lin