分类号学号M200972519学校代码10487密级硕士学位论文硕士学位论文硕士学位论文硕士学位论文基于情感词典的中文微博情感倾向分析研究学位申请人:陈晓东学科专业:计算机应用技术指导教师:李玉华副教授答辩日期:2012年1月12日AAAAThesisThesisThesisThesisSubmittedSubmittedSubmittedSubmittedininininFuFuFuFullllllllFulfillmentFulfillmentFulfillmentFulfillmentofofofofthethethetheRequirementsRequirementsRequirementsRequirementsforforforforthethethetheDegreeDegreeDegreeDegreeofofofofthethethetheMasterMasterMasterMasterofofofofEngineeringEngineeringEngineeringEngineeringResearchResearchResearchResearchononononSentimentSentimentSentimentSentimentDDDDictionaryictionaryictionaryictionarybasedbasedbasedbasedEmotionalEmotionalEmotionalEmotionalTendencyTendencyTendencyTendencyAnalysisAnalysisAnalysisAnalysisofofofofChineseChineseChineseChineseMicroBlogMicroBlogMicroBlogMicroBlogCandidateCandidateCandidateCandidate::::CCCChenhenhenhenXiaodongXiaodongXiaodongXiaodongMajorMajorMajorMajor::::ComputerComputerComputerComputerApplicationApplicationApplicationApplicationTechnologyTechnologyTechnologyTechnologySupervisorSupervisorSupervisorSupervisor::::Prof.Prof.Prof.Prof.LiLiLiLiYuhuaYuhuaYuhuaYuhuaHuazhongHuazhongHuazhongHuazhongUniversityUniversityUniversityUniversityofofofofScienceScienceScienceScience&&&&TechnologyTechnologyTechnologyTechnologyWuhanWuhanWuhanWuhan430074,430074,430074,430074,P.R.ChinaP.R.ChinaP.R.ChinaP.R.ChinaJanJanJanJanuaryuaryuaryuary,,,,2012201220122012独创性声明独创性声明独创性声明独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。学位论文作者签名:日期:年月日学位论文版权使用授权书学位论文版权使用授权书学位论文版权使用授权书学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在_____年解密后适用本授权书。不保密□。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日本论文属于华中科技大学硕士学位论文华中科技大学硕士学位论文华中科技大学硕士学位论文华中科技大学硕士学位论文I摘要近年来微博的出现,极大丰富了人们的生活。其简短写作,便捷发布,实时交互的特点深受大众欢迎。越来越多的用户乐于在微博平台上分享信息,交流观点和情感。通过对这些信息展开情感分析,可以实现微博营销、品牌宣传、客户关系管理、舆情监控等。当前微博情感分析研究大多是针对于英文微博的,而中文微博的情感分析研究还处于起步阶段。情感分析主要是判别微博文本的情感倾向性,即属于正面、负面、中性。根据中文微博的自身特点,在传统文本情感分析的已有基础上,展开对微博的情感倾向分析。首先,对当前已有情感词汇资源加以总结和整理,并运用了扩展的情感倾向点互信息算法(SemanticOrientationPointwiseMutualInformation,SO-PMI)对新浪微博语料进行实验,自动获得领域情感词,构建了一个面向中文微博的情感词典。其次,基于中文微博表达多元化的特点,对微博文本进行了相应预处理,并采用微博消息文本中的情感词作为特征选择方法,对微博消息文本中存在的否定词、程度副词、感叹句、反问句、以及微博表情符号等进行相应分析处理。最后对整条微博消息作加权计算获得其情感倾向性,实现了一个面向中文微博的情感倾向分类系统。实验数据选用数据堂的新浪微博语料,对来自科技、体育、娱乐三个领域的微博消息进行人工标注后,实验验证了该方法的可行性。实验结果显示:该方法获得的最高准确率为74.2%,平均准确率为70.5%,取得了较好的效果,对中文微博的情感倾向分析进行了初步探索。关键词:微博,情感词典,情感倾向,权值计算,自然语言理解华中科技大学硕士学位论文华中科技大学硕士学位论文华中科技大学硕士学位论文华中科技大学硕士学位论文IIAbstractInrecentyears,microbloghasgreatlyenrichedpeople’slife.Duetoitsbriefwriting,convenientpublishingandreal-timeinteracting,microblogbecomesverypopular.Moreandmorepeopleareactivelysharinginformationwithothersandexpressingtheiropinionsandfeelingsonmicroblog.Analyzingemotionhiddenintheseinformationcanbenefitmicroblogmarketing,branding,customerrelationshipmanagementandmonitoringpublicopinions.Currently,mostoftheemotionalanalysisisonEnglishmicroblog,whileChinesemicroblogemotionalanalysisisstillattheinitialstage.Emotionalanalysisistoidentifytheemotionaltendenciesofthemicroblogmessages,thatistoclassifyusers’emotionsintopositive,negativeandneutral.Bylearningfromthetraditionaltextemotionalanalysis,weanalyzetheemotionaltendenciesofmicroblogbasedonthecharacteristicsofChinesemicroblog.Firstly,summarizeandorganizetheexistingresources.Then,usetheextendedSemanticOrientationPointwiseMutualInformation(SO-PMI)toperformexperimentsontheSinamicroblogandbuildanemotionaldictionaryforChinesemicroblog.BasedonthediversityofexpressionformsofChinesemicroblog,weconductsomepreprocessingonthemicroblogtext.Weusetheemotionalwordsinthemicroblogtextasfeatureselectionmethod,andprocessthenegativewords,adverbsofdegree,exclamatorysentence,rhetoricalquestion,andemotionalsignsinthemicroblogaccordingly.Andfinallyobtaintheemotionaltendenciesbycomputingtheweightedsumofvariousaspectsofmicroblogmessages.AsystemofemotionaltendenciesanalysisforChinesemicroblogisimplementedinthispaper.TheexperimentaldataisselectedfromSinamicroblogcorpusindatatang.Wemanuallyannotatethemicroblogmessagesindomainsofscienceandtechnology,sports,entertainment.Experimentalresultsshowthatthemethodcanachievetheaccuracyupto74.2%,andtheaverageaccuracyis70.5%.Theexperimentvalidatestheeffectivenessofourmethod,bywhichwehaveperformedapreliminaryexplorationoftheemotionaltendenciesanalysisofChinesemicrobloginthispaper.华中科技大学硕士学位论文华中科技大学硕士学位论文华中科技大学硕士学位论文华中科技大学硕士学位论文IIIKeyKeyKeyKeywordswordswordswords::::MicroBlog,Sentimentdictionary,Emotionaltendency,WeightcalculatingNaturallanguageunderstanding华中科技大学硕士学位论文华中科技大学硕士学位论文华中科技大学硕士学位论文华中科技大学硕士学位论文IV目目目目录录录录摘要...............................................................................................................IAbstract............................................................................................................II1绪论1.1研究背景...........................................................................................