基于LDA特征表达的文本情感分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

..软件学报ISSN1000-9825,CODENRUXUEWE-mail:jos@iscas.ac.cnJournalofSoftware,[doi:10.13328/j.cnki.jos.000000]©中国科学院软件研究所版权所有.Tel:+86-10-62562563基于LDA特征表达的文本情感分析薛睿蓉11(上海大学计算机科学与技术学院,上海200444)通讯作者:薛睿蓉,E-mail:xueruirong@i.shu.edu.cn摘要:Web2.0和各种社交平台的蓬勃发展使得用户在网络上是信息接收者的同时也是信息的创造者。用户可以参与不同网络事件的讨论,突破了时间、空间、民族、社会地位等因素的限制,不同用户对某一事件的观点及情绪也会相互影响。准确计算网络事件不同阶段表达的情感对分析事件的社会效应并对下一阶段的情感进行预测具有重要作用,进而可以达到对极端事件有效控制,防止其恶化。本文首先简单介绍国内外对情感计算的研究现状,再详细介绍基于LDA模型的两种情感计算方法,最后做一个总结。关键词:情感分析;情感词汇抽取;隐狄利克雷;主题模型中图法分类号:TP311中文引用格式:薛睿蓉.基于LDA特征表达的文本情感分析.软件学报.英文引用格式:RuirongXue.ASentimentAnalysisMethodBasedonSentimentWordsExtractionandLDAFeatureRepresentation.RuanJianXueBao/JournalofSoftware,2016(inChinese).RepresentationXueRuirong11(SchoolofComputerScienceandTechnology,ShanghaiUniversity,Shanghai200444,China)Abstract:WiththerapiddevelopmentofWeb2.0andallkindsofsocialnetworkplatform,usersnotonlyreceiveinformation,butalsoproduceinformationontheInternet.Userscanparticipantinallevents’discussionwithoutthelimitationoftime,space,nationorsocialstatus.Differentuser’sopinionoremotioncanaffectothers,probably.Computingevent’ssentimentofdifferentstageisimportantforanalyzingevent’ssocialeffectandpredictingnextstage’ssentiment.Thereby,controllingextremeevent’sdevelopment.Inthispaper,IfirstintroducetheresearchstatusinandoutofChina,andthenintroducetwoapproachesofsentimentcomputingbasedonLDA.Atlast,Iwillgivemythoughtsaboutsentimentcomputing.Keywords:sentimentanalysis;sentimentwordsextraction;latentDirichletallocation;topicmodel基金项目:国家自然科学基金(00000000,00000000);南京大学计算机软件新技术国家重点实验室开放课题(KFKT00000000)Foundationitem:NationalNaturalScienceFoundationofChina(00000000,00000000);StateKeyLaboratoryforNovelSoftwareTechnology(NanjingUniversity)开放课题(KFKT00000000)收稿时间:0000-00-00;修改时间:0000-00-00;采用时间:0000-00-00;jos在线出版时间:0000-00-00CNKI在线出版时间:0000-00-002JournalofSoftware软件学报1背景与研究问题提出互联网技术的快速发展,使得用户表达心声的平台也发生着巨大变化,他们可在微博、论坛等新型媒介上发表个人意见、表达情感观点,这些主观性内容蕴含着巨大的商业和社会价值。对这些信息进行整理分析,一方面可以帮助商家及时获取用户意见,更好地了解用户的个人喜好,从而通过改善产品和服务使商家在市场上立于不败之地;另一方面这类信息往往表达了大众真实的社会认知观,对政府部门来说,通过挖掘分析这类主观信息,倾听不同阶层、不同生活领域的民众心声,在一定程度上了解用户的关注焦点,以此为参考来制定正确的法律法规,促进社会和发展。这些信息以图片、声音、文本等不同的形式出现,但目前文本形式占主要地位,并且它们的信息量相当庞大,迫切需要借助计算机并使用数据挖掘、信息检索等技术对其进行准确有效地整理、归纳。文本情感分析,是指对那些带有个人主观意见的文本进行分析整理的过程。作为数据挖掘的一个新兴领域,具有重要的学术研究价值和实际应用价值。按照适用范围的差别,通常将文本情感分析分为两大类:(1)基于产品的评论情感分析,一般用于辅助企业做出正确的市场导向;(2)基于新闻的评论情感分析,常用于辅助政府相关部门进行舆情分析。文本情感分析的主要任务之一是通过研究在互联网上主动发布的个人观点,识别出这些发布者的情感倾向,主要包括情感信息抽取和情感分类两部分工作。随着Web2.0时代的到来,用户不但是信息的接收者,而且是信息的创造者。人们可以不受时间和地域的限制分享各种不同的观点,而且在得到自己需要的信息的同时也可以发布自己的观点。信息在网络上不断的累积,不会丢失。并且随着微博、微信、人人、Twitter、Facebook等社交网站的发展,人们相互之间的交流更加频繁,信息的传播与演化更加迅速。网络是现实社会的映射,现实社会中所发生的事件会在网络中被放大,进而反作用于物理社会。而非常规突发事件的极端负面情绪,可能会误导大众对事件的真实看法,进而造成不良影响。因此,准确计算网络事件不同阶段的情感并预测下一阶段的情感倾向,从而采取必要的施以尽可能的控制事件的发展、维护社会和平具有重要意义。2国内外研究现状与最新进展目前,国内外对文本的情感计算主要可分为篇章级情感计算、句子级情感计算、词汇级情感计算和属性级情感计算四大类。2.1篇章级情感计算篇章级情感计算本质上是一个文本分类问题,因此已有的监督学习方法都可用于情感计算。篇章级情感计算又可分为监督学习与非监督学习方法,具体方法如下:(1)监督学习Pang等[1]是第一篇用监督学习方法将电影评论分为两类:正向和负向,实验结果显示使用词袋作为特征量并用SVM作为分类器的效果最好。后续的研究主要是特征选取优化和分类器构建。Cui[2]通过实验证明,当训练语料较少时,unigram的效果较优;但随着训练语料的增多,n-gram(n3)发挥了越来越重要的作用。Kim[3]除了考察传统的n-gram模型之外,还引入了位置特征和评价词特征来完成句子级的情感计算。唐慧丰等[40]实验结果表明:在训练集和选择特征数量适当时,采用BiGrams特征表示法和SVM分类法,情感计算效果最佳。BingLiu[4]对现有的构建情感特征集的方法进行了总结。最近网络文本情感计算的研究热点逐渐转向Twitter、微博等短文本。Go[5]等人是第一波对Twitter文本情感极性计算的研究,其在Twitter上用监督分类的方法,使用情感符号作为正向和负向推文的标志。Read[6]借用此法,用正向、负向情感符号分别生成了正向、负向推文的语料库,并总结出简单的二元法结果最好。Pak等[7]也通过生成Twitter舆情语料,对文本中的表情符号、词性、句法等特征训练分类器,比较得出使用二元法和词性标签的朴素贝叶斯实验结果最好。Zhang等[8]用监督学习算法自动将文本分为3正向、负向两类。DavidovD[9]使用Tweets中的标签、表情符号等作为特征,训练一个类似KNN的分类器进行Tweets情感极性的挖掘。BarbosaL[10]采用二部分类法对Tweets情感进行挖掘,利用某些网站对于Tweets所提供的情感计算的结果作为训练数据,然后选用一些特征。Jiang[11]等基于推文中目标词汇进行情感计算,并将推文文本内容中的信息加入到事件总文本中。分别使用SVM和GeneralInquirer将文本分类为正向、负向和中立三类。daSilvaNFF等[12]使用了多种分类器,提高了对Twitter中情感计算的准确性。监督学习的人为主观因素较强,训练样本的选取和评估需花费较多的人力、时间。且只能识别训练样本中所定义的类别,对于因训练者不知或因数量太少未被定义的类别,监督分类不能识别,从而影响分结果。(2)非监督学习非监督学习方法中,Turney[13]通过规则抽取的phrasal,并根据两个词条的PMI公式和搜索引擎检索结果,得出计算一个短语的polarity公式。Taboada等[14]基于词典的,使用了情感词汇和情感倾向相关的短语组成的辞典,为每篇文献计算情感分数。XiaHu[15]使用了社交媒体中包含的情感信号进行了有效的情感计算。、非监督学习缺点:对其结果需进行大量分析及后处理,才能得到可靠分类结果;分类出的集群与类间,或对应、或不对应。2.2句子级情感计算句子级情感分类主要分为两部分:首先,句子主观性和客观性的判断。其次,对主观性句子情感倾向的分类。如果句子被判断为主观性句子,则可对其判断极性。文档级监督学习方法和基于辞典方法都可用于句子级情感计算。对于主观句子,Yu等[16]对TurneyAlgorithm[13]进行改进实现情感计算。Gamon等[17]半监督的学习方法用于学习少量带标签的句子和大量无标签的句子。McDonald等[18]识别在线讨论者的情感,其算法只考虑第二人称的句子片段,先使用监督学习找出含态度成份的句子,使用马尔科夫模型识别特征,再决定态度的情感倾向。DayalaniGG等[19]将tweet情感标签分为两个集合:正向和负向。将每条tweet的情感词汇情感值的加权平均数作为tweet的情感值。YYamamoto等[20]构建了基于电影评论的情感辞典,和基于十维情感的、包含情感标签和情感值的情感辞典。将情感标签作用分为四类:assuagement、conversion、addition、emphasis。再基于标签作用决定一条tweet的情感值。缺点:部分客观句子仍会出现带观点倾向的现象。如:XX产品今年产量同比去年下降0.3%。片面地先判断句子主客观性再判断情感倾向,会缺漏部分带观点倾向的句子。2.3词汇级情感计算无论是句子级还是篇章级情感计算都要基于情感的最小单元——词汇情感进行计算。目前已有的主流词汇情感计算方法如下:Hatzivassiloglou[21]基于这样的一种语言现象:“Adjectivesconjoinedby‘and’havesamepolarity;Adjectivesconjoinedby‘but’donothavesamepolarity”,提出了基于bootstrapping的学习方法,但基于此的形容词分类准确性(78%~92%)。Turney等[22]构建

1 / 11
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功