最新北京大学学报级-基于主题情感混合模型的无监督文本情感分析-北大学报

dddarker
0 ℃
2020-08-08

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

102北京大学学报(自然科学版),第49卷,第1期,2013年1月ActaScientiarumNaturaliumUniversitatisPekinensis,Vol.49,No.1(Jan.2013)基于主题情感混合模型的无监督文本情感分析孙艳周学广†付伟海军工程大学信息安全系,武汉430033;†通信作者,E-mail:zxg196610@hotmail.com摘要针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题,通过在LDA模型中融入情感模型,提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签,对每个词采样主题标签,无须对样本进行标注,就可以得到各个主题的主题情感词,从而对文档集进行情感分类。情感分类实验对比表明,UTSU模型的分类性能比有监督情感分类方法稍差,但在无监督的情感分类方法中效果最好,情感分类综合指标比ASUM模型提高了约2%,比JST模型提高了约16%。关键词主题模型;LDA;情感分析;混合模型中图分类号TP391UnsupervisedTopicandSentimentUnificationModelforSentimentAnalysisSUNYan,ZHOUXueguang†,FUWeiDeparmentofInformationSecurity,NavalUniversityofEngineering,Wuhan430033;†Correspondingauthor,E-mail:zxg196610@hotmail.comAbstractSupervisedandsemi-supervisedsentimentclassificationmethodsneedlabelcorporaforclassifiertraining.Tosolvethisproblem,anunsupervisedtopicandsentimentunificationmodel(UTSUmodel)isproposedbasedontheLDAmodel.UTSUmodelimposesaconstraintthatallwordsinasentencearegeneratedfromonesentimentandeachwordisgeneratedfromonetopic.Thisconstraintconformstothesentimentexpressionoflanguageandwillnotlimitthetopicrelationofwords.UTSUmodeliscompeletlyunsupervisedanditneedsneitherlabeledcorporanorsentimentseedwords.TheexperimentsofsentimentclassificationshowthatUTSUmodelcomesclosetosupervisedclassificationmethodsandoutperformsothertopicandsentimentunificationmodels.UTSUmodelimprovestheF1valueofsentimentclassification2%thanASUMmodeland16%thanJSTmodel.Keywordstopicmodel;latentDirichletallocation(LDA);sentimentanalysis;unificationmodel现代信息技术赋予了传统社会经济活动前所未有的社会化、网络化内涵,极大地提高了效能。越来越多的用户乐于在互联网上分享自己对于某事件、产品等的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理。如何有效地管理和使用这些评价信息成为当前的迫切需求,这促进了自动文本情感分析技术的发展[1–2]。情感分析中的两个重要任务是情感信息抽取和情感信息分类,目前主要有基于规则和基于统计两种方法。新词的不断出现、表达方式的变化以及复杂的语言处理都使得基于规则的情感分析方法难以适用。机器学习方法和文本表示模型是基于统计的情感分析方法的两个核心内容。机器学习方法包括有监督、半监督和无监督情感分析。有监督和半监督国家自然科学基金(61100042)资助收稿日期:2012-06-02;修回日期:2012-08-20;网络出版日期:2012-10-26网络出版地址:第1期孙艳等:基于主题情感混合模型的无监督文本情感分析103的机器学习方法中分类器的训练需要一定数量经过标注的训练样本,然而人工标注过程相对耗时费力,成本昂贵,无监督的机器学习则无需经过标注的训练样本。长期以来文本表示的主要方法是向量空间模型(vectorspacemodel,VSM)。VSM认为文档都是在词典空间中进行表示的,即一个文档是一个一对多的映射,表示为文档→词。随着人们对文本认识的发展,发现向量空间模型没有考虑词的同义和多义情况,忽视了词与词之间的语义联系。为挖掘文本的潜在语义,人们开始寻找更能表示文本语义的文本表示模型。潜在语义分析(latentsemanticanalysis,LSA)就是一种能探查词与词之间内在语义联系的方法,打破了文档都是在词典空间进行表示的思维定式,在文本和词之间加入了一个语义维度,采用线性代数的方法提取语义维度。随着概率统计分析的发展,基于概率统计分析模式逐渐取代了基于线性代数的分析模式。概率潜在语义分析(probabilisticlatentsemanticanalysis,pLSA)就是LSA的概率拓展,它比LSA具有更坚实的数学基础。但是pLSA模型中的参数随着文本集的增长而线性增长,容易出现过拟合情况,且模型中的文档概率值与特定的文档相关,没有提供文档的生成模型,对于训练集外的文本无法分配概率。pLSA存在的问题促发了人们寻找更好的主题模型,2003年,Blei等[3]在pLSA的基础上提出了潜在狄里克雷分配(latentDirichletallocation,LDA)模型。LDA模型是一个完全的生成模型,具有良好的数学基础和灵活拓展性,已经应用到文本分析的很多领域中。本文结合无监督机器学习和LDA主题模型的优点,提出一个无监督的主题情感混合模型(un-supervisedtopicandsentimentunificationmodel,UTSU),通过对每个句子采样情感标签,对每个词采样主题标签,解决了文本主题发现和主题情感分类问题。1相关工作LDA模型是全概率生成模型,参数空间的规模与文档数量无关,适合处理大规模语料库。目前已有研究将LDA模型应用到情感分析中。Titov等[4]提出了一个多粒度LDA模型(multi-grainLDA,MG-LDA),并应用于基于主题的情感摘要生成中,提出了多主题情感模型(multi-aspectsentimentmodel,MAS)[5]。虽然Titov等[4]用实验证明了MG-LDA模型对于提取细粒度的主题有很好的效果,但是MG-LDA需要对已标注的训练集进行训练,属于有监督学习,具有样本不容易获取和领域移植性差的缺点。同样需要监督学习的还有Zhao等[6]提出的ME-LDA模型(MaxEnt-LDA),该模型结合了最大熵组件和主题模型,需要监督学习。为使主题模型既能获得细粒度的主题又保持无监督学习的特征,很多学者对主题模型进行了改进。Brody等[7]直接将句子作为一个文档,建立“句子主题词”关系。这种方法将LDA模型没有考虑文档和文档之间的关系进一步扩大,没有考虑句子和句子之间的关系,事实上在不同的句子中同一个主题可以有着完全不同的词。而且该方法只对主题词进行了情感词识别,并没有得到文档或句子的情感分布,即没有建立情感模型。Jo等[8]认为一个句子中所有的词都由同一个主题和同一个情感产生,因此采样主题标签时,对每个句子采样主题标签,而不是对每个词采样主题标签,建立“文档主题句子”关系,这种方法硬性地缩小了词之间的主题联系。主题情感混合模型在语言模型上有两种表示方法。第一种是将主题和情感描绘成一个单一的语言模型,在模型中一个词可能同时与主题和情感都相关,如Jo等[8]提出的ASUM模型(aspectandsenti-mentunificationmodel)和Lin等[9]提出的JST模型(jointsentiment/topicmodel)。另一种是将情感与主题作为分开的语言模型,一个词要么是情感词,要么是主题词,只能二选一,如Mei等[10]提出的TSM模型(topicsentimentmixture)。TSM模型将词分为主题词和情感词,认为情感词对主题发现没有作用,而事实上情感词是表示主题的重要词汇,应该是主题词的一部分。本文提出的UTSU模型中的每个词都与主题和情感相关,这一点是与TSM模型最大的区别。Brody等[7]只对主题词进行了情感词识别,并没有得到文档或句子的情感分布,即没有建立情感模型,而本文的UTSU模型是一个主题情感混合模型。ASUM模型采样主题标签和情感标签时,对每个句子进行采样,而不是对每个词采样,JST模型则是对每个词进行采样主题标签和情感标签。本文的UTSU模型对每个句子采样情感标签,对每个词采样主题标签,这种采样方式即符合语言的情感表达,北京大学学报(自然科学版)第49卷104又不会缩小词之间的主题联系。2UTSU模型2.1UTSU模型的生成过程UTSU模型是在LDA模型的基础上添加了情感模型而构建的。由于自然语言中的情感都是以句子为单位进行表达的(转折句除外),UTSU模型假设一个句子的所有词由一种情感产生,故对句子进行情感标签采样,建立“文档情感句子”关系。沿用LDA模型中每个词有不同的主题,对每个词进行主题标签采样,建立“文档主题词”关系。在运行UTSU模型前,先对文本进行预处理,将转折句从转折处分为两句。UTSU模型的框图如图1所示,图1中符号说明见表1。UTSU模型是一个4层盘子模型,其产生过程的伪代码描述如下。Name:GenerativemodelforUTSU//“topicplate”foralltopics[1,,]kKandsentiments[1,,j]Ldosamplemixturecomponents,~Dir()zmendfor//“documentplate”foralldocuments[1,,]dMdoforallsentiments[1,,]jLdosamplemixtureproportionDir()djendforsamplemixtureproportionDir()d//“sentenceplate”forallsentences[1,,Nds]sindocumentddosamplesentimentindexMulti()sdm//“wordplate”forallwords[1,Ns]ninsentencesdosampletopicindex,Multi()sndmzsampletermforwordnw,(,)Multi()snzmendforendforendfor给定所有参数,UTSU模型所有潜在变量和可观察变量的联合概率为,(1,1):(,)1:1:1:1:,NdsNs(,),(,),1,1111(,,,(,),)()()()()(),,snKLMMMMKjMijddsdsnzmsdsndsnpzmwppppmpwpzmm词层主题情感层句层文档层