基于情感词典的中文微博情感倾向分析研究导师:何婷婷华中师范大学NLP实验室内容提要情感分析的研究背景情感分析的研究现状微博情感分析的相关概述和理论微博情感分析的研究内容和方法微博情感倾向分析具体实践1.情感分析的研究背景在Web2.0时代,最具有影响力的产品无疑是微博,它实现了把信息发布与社会网络紧密结合在一起。自2006年问世至今,微博作为一个新兴的科技信息产物,目前在全球已成为一个能高度互动的信息转播平台。在国内,短短几年时间里,微博从互联网的新秀跃升为互联网的基础应用之一,以微变革的力量,打开了一个大时代之门。庞大的微博信息流揽括了众多话题,也许这些信息看似琐碎,而且非常不规则,可事实上蕴藏着巨大的潜在价值。微博平台上的各种互动,往往与用户的心理有关,用户一旦在微博中发言,便有了立场和倾向,这就可以对其做情感分析。2.情感分析的研究现状通过目前收集到的国内外刊物及会议论文来看,关于文本情感分析方法的文献大致分为两类:(1)使用情感词典及与其关联信息分析文本情感(2)使用机器学习方法分析文本情感2.1使用情感词典及与其关联信息分析文本情感•使用情感词典及与其关联信息来分析文本情感,其优点是应用在词语特征级,句子级,粒度细,分析精准。但受到自然语言处理技术及相关抽取技术的限制,该方法容易丢失数据集中隐藏着的重要模式,使得未来研究工作中还有很大的提高空间。徐琳宏、林鸿飞等从句子的词汇和结构作考虑,提取影响语句情感的9个语义特征,采用手工与自动获取相结合的方法,构建情感词汇本体库,对情感分析研究做了初步的尝试。李钝、曹付元等从语言学的角度出发,采纳“情感倾向定义”权重优先的计算方式得到短语中词语语义倾向度,并分析词语的组合方式特点,提出中心词概念对词语的倾向性做计算,从而识别出短语的倾向性及其强度。闻彬,何婷婷等提出一种基于语义理解的文本情感分类方法,通过在情感词识别中引入情感义原,赋予概念情感语义,对概念的情感相似度重新定义,得到词语情感语义值。2.2使用机器学习方法分析文本情感这类方法常用的机器学习模型有:中心向量分类法,朴素贝叶斯(NaiveBayes),最大熵(MaximumEntropy),K最近邻分类和支持向量机(SVM)。国外有用机器学习的方法对电影评论进行情感极性分类的实验,分为正向情感和负向情感,分别采用了朴素贝叶斯、最大熵、支持向量机三种分类方法做实验,并将之与手工分类结果做比较,发现支持向量机方法在这种机器学习方法中效果最好,分类精确度达到80%。由此,可见机器学习方法在情感分析中展示出了一定的优势。3.微博情感分析的相关概述和理论•微博的相关概述•文本预处理技术•特征选择算法3.1微博的相关概述3.1.1微博的定义和发展微博是微型博客的简称,英文名称为MicroBlog。它是一个基于用户关系的信息传播、分享以及获取的平台,用户可以通过多种渠道(如WEB,WAP以及各种客户端组件,即时通讯等)即时更新信息,每次更新内容将限制在一定数目内(中文微博通常为140字左右),它具有便捷性、原创性、互动性、传播速度快及内容碎片化等特点。2009年8月,新浪率先推出了“新浪微博”内测版,随后国内几大综合门户网站网易、搜狐、腾讯等相继推出。一时间微博呈现出井喷式发展,中国也真正进入了微博时代。3.1.2微博文本中的符号1.网页链接:通常在用户分享后的文本末尾会跟随出现一个以“http”开头的地址,提供了分享视频、网页、图片等功能,这类文本符号在本文的情感倾向分析中是没有用处的,应该在文本预处理阶段过滤掉。2.标签符号:通常微博应用最广泛的标签符号有四类。下面将作分别介绍:@:代表at,意思是“对某人说”或者“需要引起某人的注意”。#:两个#框起来的文字,可以理解为“话题”。//:一般是由微博系统自动添加的,出现在再一次转发已转发并带有评论的微博时,主要起分隔针对同一微博的多人多次评论的作用。V:代表该用户是通过微博官方认证的,是特殊身份的象征。3.表情符号。很多微博用户喜欢使用表情符号来表达自己当时的心情。例如:表情符号经抓取后转变为了[哈哈],表情符号在本文情感倾向分析中起着重要作用。3.1.3微博情感分析研究的困难1.微博文本的特点中文微博的文本内容都限制为140个字,,用户可以发布更有深度的内容(评论、新闻、分析等),微博用语多为非书面语言,口语化严重,大多不规范、语句结构杂乱,这在自然语言理解上给情感分析带来难度。2.情感词典的构建汉语表达比较灵活,同样的词语,短语存在多义性,甚至同一个词语既有褒义又有贬义,根据所处的语境不同所表达的感情倾向往往不相同,给感情色彩的判别带来了偏差。微博中大量网络用语的出现表现尤为明显,这对判断情感倾向同样造成了困难,构建一个适用于微博的情感词典是一个难点。3.中文微博的数据获取目前,还没有一个公共地、统一地、可供用作测试的微博语料集。研究人员还得依赖于微博平台官方提供的API接口获取数据,而当前大多数微博都只开放部分API接口,并对用户的访问权限进行了一定的限制。3.2文本预处理技术3.2.1中文分词中文微博的情感倾向分析首要解决的就是对文本内容进行分词。中文是以字为基本书写单位,单个字往往不足以表达一个意思,通常认为词是表达语义的最小元素。在汉语中,一句话的意思通过一段连续的字符串来表达,字符串之间并没有明显的标志将其分开,计算机如何正确识别词语是非常重要的步骤。一个例子:输入例句:S=“高等人工智能课程非常有意思”词表:dict={…高等,人工智能,课程,非常,意思…}最后分词结果应该为:高等/人工智能/课程/非常/有/意思3.2.2去除停用词停用词也被称为功能词,与其它词相比通常是没有实际含义的。微博文本中不仅包含针对传统文本信息的停用词处理,还包含其它一些对情感无关符号处理。例如微博消息中常见的“@、V、#、http://”等。这些字符在微博文本中起辅助作用,但在情感分析研究中没有实际意义。若计算机对其处理不但是没有价值的工作,还会增加运算复杂度,通常文本的停用词处理中可采用基于词频的方法将其除去。3.3特征选择算法词频法文档频次法信息增益互信息法3.3.1词频法词频法(WordFrequency,WF):词频是指一个词语在文本中出现的次数,一般由统计获得,通常特征选择的时候可将词频低于某个阀值的词语删除,从而减小特征空间的维数。3.3.2文档频次法文档频次法(DocumentFrequency,DF)是指整个数据集中,有多少个文档包含了某个特征项,占数据集中总文档数目的比值,其计算公式如下所示:公式中,Nti为出现特征项ti的文档数,Nall为整个数据集中的总文档数。该方法通过对每个特征项在数据集出现的频率进行统计,然后根据预先给定的特征向量维数或者设定的阀值,去除掉那些DF值小于某个阀值或大于某个阀值的特征项。其思想在于这两种状态代表两种极端情况,若DF值过小,表明包含某特征的文档数目过少,该特征项没有代表性。反过来,若DF值过大,这表明包含某特征项的文档数目过多,该特征项没有区分度。alltiNNitDF3.3.3信息增益信息增益(InformationGain,IG)是指某个特征在文档中出现或不出现对判断文本隶属类别所能提供的信息量大小。信息增益借助了信息论中熵的概念,定义为信息熵的有效减少量,即不考虑任何特征时与考虑该特征时两文档的熵值之差。其计算公式如下所示:公式中,P(cj)表示cj类文档在训练文档集中出现的概率,P(ti)表示训练文档集中包含特征项ti的文档频率,P(cj|ti)表示文档包特征项ti时属于cj类的条件概率,表示训练文档集中不包含特征项ti的文档频率,表示文档不包含特征项ti时属于cj条件概率。信息增益是一个统计量,用于度量特征对分类贡献的大小,其值越大,该特征就越重要,越有助于分类,故应选择信息增益值较大的候选特征。||1||1||1)(log)()()(log)()(log)()()()(cjijijicjijijcjjjiitcPtcPtPtcPtcPcPcPSEntropySEntropytGain3.3.4互信息法互信息(MutualInformation,MI)在统计语言模型中被广泛运用。它是用来度量两个随机变量之间的关联性。在分类系统中体现的是特征项与类别之间的依赖程度。若相互之间依赖程度越大,其特征项就越重要。特征ti与类别cj之间的互信息公式如下所示:公式中,P(ti|cj)为特征ti在类别cj中出现的概率,P(ti)为特征ti出现的概率。当MI(ti|cj)=0时,表明特征ti与类别cj不相关,两者之间是相互独立的。如果词频法(WF)的特征值越高,其两者时间的关联性越大。ijijijijitPctPcPtPctPctMI)(log)()(),(log),(3.3.5微博的特征选择方法传统的文本分类大多是把测试数据集中的文档归入预先设定好的文档类别中去,比如:“体育、艺术、军事、经济、政治、文学等”,这可通过文本的主题、属性及内容来划分。文本的情感分类则是特殊的文本分类,需要从语义级别上做考虑,根据文本内容所能体现出的观点、态度、立场等相关情感信息做倾向性分类。微博消息的文本内容虽然限制为140个字符,但是包含的信息却是丰富多彩的,有文字、链接、表情、标签符号等,如何从短文本信息中获取情感信息是非常关键的。比如:从文本内容获取具有情感倾向的词语与短语、或从自然语言处理领域做基于语义的文本理解、抑或通过微博文本中的表情符号获取情感倾向性等。4.微博情感分析的研究内容和方法微博情感分析关键是如何判别微博消息的情感倾向性,首要条件是构建一个合适的情感词典,依靠情感词语、微博表情符号及语气句子等作为特征提取方法,对不同情况下微博消息做相应处理,最后进行加权计算,由最终的权重结果判别出微博消息的情感极性。主要研究内容有以下几点:1.微博情感词典的构建研究情感词获取方法,尽可能构建一个足够大、覆盖面广的情感词典应用于微博消息文本的特征提取中。一方面对当前已有情感词汇资源进行总结和整理,另一方面采用扩展的情感倾向点互信息算法(SemanticOrientationPointwiseMutualInformation,SO-PMI),从微博语料集中自动获取领域情感词,构建了微博情感词典。2.微博情感倾向的判别基于中文微博表达多元化的特点,先对微博消息文本进行了相应的预处理,并采用微博消息文本中的情感词作为特征选择方法,分别从微博消息文本中包含情感词和不包含情感词两个方面展开分析,实现了一个面向中文微博的情感倾向分类系统。4.1微博情感词典的构建4.1.1微博情感词典的组成目前,文本情感分析研究领域还没有一部完整且通用的情感词典。若构建一个面向中文微博的情感词典,一方面须对当前的已有相关资源进行总结与整理,另一方面需要构建一个基于微博的领域情感词典。情感词的收集是一个不断积累的过程,采用手工标注需要阅读大量的文本,非常费时费力。目前,通用方法都是对大规模语料集进行统计分析,预先对有代表性的词语采用人工标注方法选为基准词,然后对候选词作语义相似度计算来获取新情感词,从而扩展情感词典的覆盖面。微博情感词典组成图4.2微博领域情感词典4.2.1领域情感词典构建重要性由于基础情感词典囊括的情感词是有限的,而中文的表达是变化万千的。特别是在微博中,口语化的表达常常带来很多新的情感词汇,通过已有的情感词典是无法辨别的,但是这些词汇在分析情感倾向时非常重要。比如:微博中经常出现一个名词“临时工”,这个词本身是不具有感情色彩的,可是发现用户在微博中所用到这个词时,往往是表达负面情感。这种例子还有很多,为了能识别这些新情感词,提高情感分类的准确性,可以构建一个面向微博的领域情感词典。4.2.2SO-PMI算法互信息是非常重要的信息度量,其相关理论已在前面作了介绍。在实际情况中,应用最为广泛的通常是点间互信息(PMI),主要用于