硕士学位论文中文产品评论的意见挖掘研究ResearchonOpinionMiningofProductReviewsinChinese作者:严孙荣导师:瞿有利北京交通大学2010年5月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日i中图分类号:TP391.3UDC:620学校代码:10004密级:公开北京交通大学硕士学位论文中文产品评论的意见挖掘研究ResearchonOpinionminingofProductReviewsinChinese作者姓名:严孙荣学号:08120510导师姓名:瞿有利职称:副教授学位类别:工学学位级别:硕士学科专业:计算机科学与技术研究方向:自然语言处理北京交通大学2010年5月ii致谢本论文的工作是在我的导师瞿有利副教授的悉心指导下完成的,瞿有利副教授严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢两年来瞿有利老师对我的关心和指导。尹传环老师悉心指导我们完成了实验室的科研工作,在学习上和生活上都给予了我很大的关心和帮助,在此向尹传环老师表示衷心的谢意。王志海和田盛丰教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心的感谢。在实验室工作及撰写论文期间,张美珍、张彦博和张尚超等同学对我论文中的意见挖掘研究工作给予了热情帮助,在此向他们表达我的感激之情。另外也感谢女朋友符蓉,他们的理解和支持使我能够在学校专心完成我的学业。严孙荣2010年5月于北京北京交通大学硕士论文摘要iii摘要随着电子商务的迅猛发展,用户购买和使用产品之后会在Web上发表对产品的评论,产品评论的自动挖掘对于商家和潜在的消费者有着重要意义。本文以中文产品评论为主要研究对象,从评论的整体褒贬分类和细颗粒的产品意见挖掘两个层面进行分析研究,论文主要内容如下:采用机器学习的方法对产品评论进行整体褒贬分类研究。构建用于产品评论褒贬分类的语料库;采用基于N-Gram文本特征抽取(分为基于词的unigram,bigram和基于字的unigram,bigram,trigram),结合不同的特征权重计算方法(TF,BOOL,TFIDF),在不同的分类算法(朴素贝叶斯、最大熵和支持向量机)进行分类实验。实验表明使用基于字的bigram特征表示并结合基于词频的加权方法在支持向量机分类器下取得了最好的分类性能,准确率为94.74%。在特征抽取上,采用基于后缀树结构的特征提取算法,提取关键子串组作为文本特征。实验表明基于后缀树的关键子串组的特征表现能力强而且特征维度低,分类的准确率略高于基于N-Gram文本特征表示的分类效果。设计并实现了基于依存句法分析的细颗粒意见挖掘算法和基于关键字匹配的细颗粒意见挖掘算法,并构建产品特征库和中文极性词典。实验表明关键字匹配方法好于基于依存句法分析方法。最后,设计并实现了一个产品评论意见挖掘系统,该系统可以自动抓取指定的评论页面并抽取评论内容,可从整体和细颗粒两个层面对产品评论进行意见分析,并将意见分析结果存入产品意见库中,提供可视化的统计展现。关键词:产品评论;情感分类;意见挖掘;自然语言处理分类号:TP391.3北京交通大学硕士论文ABSTRACTivABSTRACTNowadays,theelectroniccommerceplaysamoreandmoreimportantroleinourdailylife.ConsumersalwaysexpressopinionsontheproductviatheWebafterusingtheproduct.Theautomaticminingonthesecommentsisimportantforthepotentialconsumersandenterprises.WefocusonChineseproductreviews.Weanalyzedthecommentsontwolevelsincludingdocument-levelsentimentclassificationandfeature-basedproductopinionmining.Themaincontentsareasfollows:Weemploymachinelearningalgorithmtoperformthedocument-levelsentimentclassificationoftheproductreviews.Wecollectcorpusfromonlinereviews;investigatetheN-GrambasedfeaturerepresentationincludingWord-BasedUigram,BigramandChineseCharacter-BasedUnigram,Bigram,trigram;analysisdifferentfeatureweightingapproaches(TF,BOOL,TFIDF),comparedifferentclassificationalgorithms(NaiveBayes,MaximumEntropyandSupportVectorMachine).TheSVMusingChineseCharacterBigram-basedfeatureextractionmethodandwordfrequencybasedtextrepresentationhasthebestperformance,ofwhichtheaccuracywas94.74%.WeresearchedsuffixtreebasedstructurealgorithmextractingtheKeySubstringGroupfeatures.ExperimentsshowthattheKeySubstringGroupfeatureshavebetterdescriptionofthecommentssentimentclassification,lowerdimension,andbetteraccuracythanothertextfeaturesrepresentedinSVM.Weinvestigateddependencyparsingbasedalgorithmandkeywordmatchingbasedalgorithmforfeature-basedopinionmining.WeconstructaproductfeatureslibraryandaChinesepolarityDictionary.Experimentsshowthatthekeywordbasedmethodisbetterthanthedependencyparsingbasedmethod.Wedesignedandimplementedaproductreviewopinionminingsystem.Thesystemcanautomaticallycrawlandextractspecifiedcommentsonreviewpages,thenanalysisthereviews,savetheresultintotheproductsopinionlibrary.Userscangetvisualizedresultwhichwillbehelpfulfordecisionmaking.KEYWORDS:ProductReview;SentimentClassification;OpinionMinng;NaturalLanguageProcessingCLASSNO:TP391.3北京交通大学硕士论文目录v目录摘要.........................................................................................................................iiiABSTRACT.............................................................................................................iv1绪论.....................................................................................................................11.1研究背景..................................................................................................11.2选题意义..................................................................................................21.3研究现状..................................................................................................31.3.1文本情感分类研究现状................................................................31.3.2词的极性分类研究现状................................................................41.3.3产品特征抽取研究现状................................................................61.3.4产品评论挖掘系统构建研究现状................................................71.4论文主要工作..........................................................................................81.5论文组织结构..........................................................................................82文本分类相关基础理论.....................................................................................92.1文本表示..................................................................................................92.2特征权重计算..........................................................................................92.3文本分类算法........................................................................................112.3.1朴素贝叶斯.................................................