第8卷第4期信息技术快报Vol.8No.4InformationTechnologyLetterJul.201016中文情感倾向性分析的相关研究进展吴琼谭松波程学旗摘要:如何对大规模富含情感信息的文本进行倾向性分析是当前web应用一个亟待解决的问题。本文在分析目前国内外情感倾向性分析研究现状的基础上,介绍了我们为进行中文情感倾向性分析所构建的语料集及开发的实验平台,然后重点介绍我们的工作,包括整篇文本的倾向性分析、领域情感词典构建、跨领域情感倾向性分析等方面的关键技术,从而通过不同角度提高文本倾向性分析精度。昀后总结了我们已有的工作,并展望下一步我们将深入开展的研究工作。关键词:倾向性分析;监督学习;情感词典;跨领域1引言近年来,随着互联网在现代社会影响迅速扩大,论坛、博客等网络交流平台不断涌现,人们越来越习惯于在网上发表主观性的言论。这些言论用于表达自己对于日常事件、产品、政策等的观点和看法,形成了网上大量带有情感倾向性的文本。不同于传统的结构化的数据,这些文本的表现形式大多为非结构化或半结构化的评论文本形式。面对如此海量的富含情感信息的文本,如果仅仅依靠人工进行整理,就会面临处理周期长、费用高等问题,显然是不切实际的。因此,如何由计算机自动完成快速从大规模文本中提取出所需情感信息,进行态度分析便成为当前一项重要的研究课题。文本情感倾向性分析研究就是在这样的背景下开展起来的。情感倾向性是一个相当广泛的概念,涉及人们的观点、看法和评价,包括人类行为相对于社会标准的评价,产品相对于国家和行业强制标准、用户偏好、审美观的评价等。文本的情感倾向包括文本所反映的情感的方向(褒或贬)及其强度。文本情感倾向性分析的目的是通过挖掘和分析文本中的立场、观点、看法、情绪、好恶等主观信息,对整篇文本所体现出的态度(或称情感倾向性),即文本中的主观信息进行判断。文本情感通常分为两类(正面、反面)或三类(正面、反面和中立)。其中正面类别(positive)是指主题中持有积极的(支持的、健康的)态度和立场;负面类别(negative)是指文本中持有消极的(反对的、不健康的)态度和立场;中立类别(neutral)是指文本中持中立态度和立场。从当前的研究来看,以考虑两类的研究居多。文本倾向性分析与传统的文本分类不同。传统的文本分类基于文本主题(例如:文化、体育、经济等)进行分类,对文本内容的分析与理解都处于比较浅的层次。而文本倾向性分析关注的是非主题分析,即文本内容所体现的情感、态度,而非文本本身的内容。它是对传统的文本分类研究的深入和拓展,可以满足人们更深层次获取和利用信息的要求[1-3,21-26]。网上文本的形式及内容的随意性使文本情感倾向性分析具有很高难度,涉及到人工智能、机器学习、信息抽取、信息检索、数据挖掘、自然语言处理、计算语言学、语料库语言学、本体学(ontology)、统计学等多个研究领域,不仅需要应用上述领域前沿技术,而且反过来又对这些领域提出了新的挑战,推动了其发展。因此,在科学研究方面具有重要意义。同时,文本倾向性分析可广泛应用于社会舆情分析、产品在线跟踪与质量评价、影视评价、博客声誉评价、新闻报道评述、事件分析、股票评论、图书推荐、企业情报系统、客户关系管理(CRM)等方面,在社会经济和人民生活方面也具有重要意义[1],如:中文情感倾向性分析的相关研究进展17社会舆情分析:舆情是指在一定社会空间内,围绕社会事件的发生、发展和变化,民众对事件和当事各方的社会政治态度,是人们对于社会中各种现象、问题所表现的信念、态度、意见和情绪等总和。网络因其开放性和虚拟性,已经成为民意表达的重要通道和空间。利用文本倾向性分析技术,可以更加及时地了解网络民意,使民间智慧与官方智慧更加良好地互动。博客声誉评价及垃圾博客过滤:及时的交互性是博客的特色之一。大量网民利用博客发表自己对事物的观点并对他人的观点进行评论,博客浏览者也大多根据评论信息来判断博客作者的声誉,与浏览者的互动是很多博客作者继续写博客的动力。利用文本倾向性分析技术可以挖掘浏览者对博客作者的褒贬观点,从而得到博客作者的声誉度。此外,可以通过倾向性分析技术对以广告等垃圾信息为主的博客进行过滤。产品评价与推荐:目前,多数产品生产、销售厂商希望通过跟踪用户对产品的回馈意见来获得改进产品质量的针对性意见;潜在的消费者也希望通过网上真实的评价信息来调整个人的购买意向。然而,随着评论数量的快速增长,商家和潜在消费者都希望能有一种方法来帮助他们自动对这些产品评论进行处理。利用文本倾向性分析技术对产品评论观点进行组织和分类,有利于人们了解产品,培育潜在消费群体。影视评价:影视评价是影视艺术与观众的桥梁,是实现影视作品三重价值(艺术、社会、经济)的重要手段。影视评论主要是对影视作品的主题、拍摄、情节、人物形象、人物语言风格、表演技巧、画面等方面进行分析,同时,就影视作品的音乐设计、画面特点、人物服装及化妆造型、人物与环境的搭配、色彩使用等方面发表见解进行评价。文本情感倾向性分析技术可以实现影视评论的自动分类,有利于用户快速浏览正反两方面的评论意见,减少观看影视时的盲目性。综上所述,文本倾向性分析研究不但具有深远的理论价值,而且有着广阔的应用前景,可以创造巨大的社会和经济效益。本文针对现有的文本倾向性分析方法所存在的问题,在分析目前国内外倾向性分析研究现状的基础上,介绍了我们所构建的语料集及开发的实验平台,然后重点介绍我们的工作,包括整篇文本的倾向性分析、领域情感词典构建、跨领域情感倾向性分析等方面的关键技术,从而通过不同角度提高文本倾向性分析精度。昀后总结已有的工作,并展望下一步将深入开展的研究工作。本文第2节将概述国内外研究现状;第3节介绍我们的语料集及实验平台;随后分3节详细介绍我们在情感倾向性分析方面的研究工作:基于监督学习的情感倾向性分析研究、领域情感词典构建以及跨领域情感倾向性分析;昀后在第7节总结我们的工作并展望下一步的研究。2国内外研究现状文本倾向性分析研究的历史不长,昀早可以追溯到20世纪90年代,并且在2000年之后获得了突飞猛进的飞速发展。目前,文本倾向性分析研究已成为国内外研究的热点问题。近年来,有关自然语言处理、人工智能、信息检索、数据挖掘以及Web应用等领域的多个国际顶级会议(AAAI、ACL、CIKM、COLING、SIGIR、等)涌现出大量文本情感倾向分析的相关论文。同时也出现了针对文本倾向性分析的相关评测,例如,从1992第8卷第4期信息技术快报Vol.8No.4InformationTechnologyLetterJul.201018年起,美国国家标准技术研究院(NIST)和美国国防高级研究计划署(DARPA)组织了文本检索会议(TREC),该会议已经成为国际上文本检索领域昀著名的评测会议;2006年起,TREC增加了博客观点(BlogOpinion)检索任务,在全球范围内开展博客倾向性观点的检索和分析研究。在政府方面,美国的舆情研究协会、欧盟舆情分析官方网站、新西兰坎特伯雷大学(TheUniversityofCanterbury)欧洲舆情分析研究中心等都开展了基于调查问卷、网页统计、文本分析等方式的舆情倾向性分析项目。下面,我们首先分别对文本情感倾向性分析的国内外相关研究分类进行综述,在此基础上归纳主要应用的分类技术。2.1代表性工作文本情感倾向性分析根据其所处理的情感数据粒度不同分为:属性级的倾向性分析、词语级的倾向性分析、文档级的倾向性分析以及对于多文档的倾向性摘要等[3,14,15,17]。(1)属性级的倾向性分析属性级的倾向性分析针对细粒度的文本挖掘,主要包括两方面的研究内容:评论语气词识别、评论对象的识别以及其与评论语气词的关联[4,5]。(2)词语级的倾向性分析词语语义倾向计算是文本倾向性分析研究中的一个基础且重要的子研究领域,其目标是提供文本倾向性的量化表达。即用(-1,1)之间的实数代表词语的语义倾向,其正、负分别代表语气的褒、贬,绝对值代表词语的极性强度,这为文本倾向性分析的多个研究方向提供了重要基础[1]。目前,词语语义倾向性分析除了利用预先标注的语义倾向基准词外,还需要利用词语间的相似度[6-10]。(3)文档级的倾向性分析文档级的倾向性分析可以看作是一种特殊的分类,即根据文章中对某一主题的观点(支持或反对、高兴或悲伤等等)对文本进行分类,因此可将机器学习算法用于这种分析[11,12]。(4)多文档的倾向性摘要目前网上包含主观信息的文本中,在线的产品评论,尤其是针对某些名牌产品的文本数量增长极快。多数产品评论篇幅较长,但包含产品属性的句子却极少。对于潜在消费者来说,难于在如此海量的信息中找到真正有价值的评论。而对于产品生产、销售商来说,在如此众多的评论信息中跟踪消费者对于自家产品的评价也是一件相当困难的事情。因此,产品评论挖掘系统通常也要利用意见摘要技术,通过归纳评论的语气极性、程度和相关事件对在线产品评论进行摘要。利用该技术,潜在用户可以方便地了解目前消费者对于产品的评价;产品生产、销售商也可以较轻松地跟踪消费者对于产品的评价,比较同类各品牌产品的优劣[13]。2.2主要的分类方法目前常用的文本情感倾向性分析技术主要有:统计机器学习方法、基于相似度的方法、基于图模型的方法。2.2.1统计机器学习方法中文情感倾向性分析的相关研究进展19当前,基于统计机器学习理论的文本情感倾向性分析是文本挖掘领域的一个研究热点。其中常用的基于机器学习的文本分类算法包括[1,3]:−中心向量分类方法:这是一种简单有效的分类法,所有文档都用特征向量来表示。在此基础上,对于所有属于同一类别的文档计算出一个平均向量(即中心向量)。给一个样本向量分类时,只需计算它与各中心向量的相似度,取相似度昀大值的中心向量所在类别作为样本的类别即可。−k-近邻(K-Nearest-Neighbor,KNN)分类方法:这是一种非常有效的归纳推理方法,直观地讲,k-近邻分类方法就是从测试文档d开始生长,并不断扩大区域,直到包含k个训练样本点为止,并且把测试文档d的类别归为这昀近的k个训练样本点中出现频率昀大的类别。−贝叶斯分类器:朴素贝叶斯分类器是一种通用的监督学习算法。该方法首先将已标注倾向性的文本作为训练样本,并选取句子中的单词及词性标签等作为分类特征。另外,语句中语气词出现的数量也被当作判定文本倾向性的一个依据,然后将这些特征作为输入,利用贝叶斯公式对待标注文本进行分类。−支持向量机:这是传统分类中非常有效的一种方法,它的分类结果比朴素贝叶斯方法普遍要好。其基本思路是:给定一个训练集,找到一个具有昀大间隔的分隔平面(也称超平面)ω,作为类别的分界。间隔越大,得到的分类器也越好。基于文档特征向量,通过语气挖掘将文档分为正面和负面两类。采用支持向量机方法相当于求解一个带约束条件的昀优化问题。−条件随机场:这是一个在给定输入节点(也就是观察值)条件下计算输出节点(也就是标签)的条件概率的无向图模型。条件随机场模型特别适合处理序列标记问题,在属性级的情感倾向性分析研究中,被应用于标记评论语气词与评论对象的关联。−昀大熵分类器:这是一种通用的监督学习算法。利用该技术可以将主观性文本和客观性文本分开。该算法的思想是为所有已知的因素建立模型,而把所有未知的因素排除在外。也就是说,要找到这样一个概率分布,使其满足所有已知的事实,且不受任何未知因素的影响。该算法首先将已标注倾向性的文本作为训练样本,从中抽取出单词、词性标签等作为特征,另外语句中语气词出现的数量也被当作判定文本主观性的一个依据。然后利用这些特征和昀大熵模型为待标注文本判定倾向性。2.2.2基于相似度的方法基于相似度的方法的基本思想与K-近邻方法类似,即利用K个已标记的样本点,通过样本之间的相似度,来对新的样本进行标记。基于相似度的方法采用语句间公共单词、短语的数量以及语义词典中的词语相似度来计算语句的语义相似度[9]。2.2.3基于图模型的方法对于倾向性分析问题,可以利用词语或文本语义关系构建图,将词语