【开题】基于LDA-主题模型的电商产品评论数据情感分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

开题报告基于LDA主题模型的电商产品评论数据情感分析(1)LDA模型的相关研究目前我国对LDA主题模型的研究己经相当成熟,文本聚类、文本分类、信息检索等领域都己得到了广泛的应用,并且取得了一定的成果。刘江华(2017)提出一种基于Kmeans聚类算法的LDA主题模型检索方法,本检索方法以Kmeans算法为基础,对文本主题进行聚类和语义相关度分析,避免了传统LDA主题模型存在的诸多缺陷。任艺,尹四清,李松阳(2017)针对传统潜在狄利克雷分布(latentDirichletallocation,LDA)主题模型在进行图像场景识别时存在聚类方法效率低以及不能有效利用图像主要特征的问题,提出改进图像场景识别模型的方法。采用K-Means++聚类算法生成视觉单词,使用加权统计直方图完成图像表示,通过引入特征函数加强重要特征在分类识别中的作用,提出有特征函数的潜在狄利克雷分布(featuredlatentDirichletallocation,FLDA)主题模型。实验结果表明,对比于改进前的模型,该模型可缩短执行时间并提高识别准确率。李湘东,高凡,丁丛(2016)通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上进行分类的适用性及影响分类性能的原因。李晨曦,谢罗迪(2017)使用人工方式对于分类并提取其中有用的观点信息效率低下并且浪费大量的人力资源,因此通过自动分析和提取的方式发展观点挖掘的新方法有着一定的研究意义,LDA主题模型作为无监督机器学习模型的典型应用有着快速、高效的特点而被众多学者广泛研究。关鹏,王曰芬,傅柱(2016)对3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效(帮写论文加vx:17354321606/加q:947927387,硕博团队,专业写作,免费咨询)果进行评价。通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。储涛涛(2016)对微博短文本进行基于LDA主题模型的特征拓展处理。LDA主题模型引入隐含主题,通过主题相似性,在一定程度上拓展文本特征,弥补原文本特征稀疏的缺点。并且,在处理多义词时,主题相似性能明显区分不同词义,以解决上下文依赖问题。在此基础上,通过文本聚类方法提取用户兴趣。通过实验表明,在引入LDA模型下,聚类效果和用户兴趣抽取的到明显提升,有效解决的微博用户兴趣发现中文博短文本特征稀疏和上下文依赖问题。互联网环境下,热点话题识别成为一个非常重要的研究问题,余传明(2010)等通过对餐馆的评论为例,提出了一种基于LDA模型的评论热点挖掘方法。从挖掘结果可以看出,该方法可以有效的将各种热点词语归到相对应的主题中去。传统的文本表示方法存在数据空间极度高维且稀疏的缺陷,因此文本相似度计算结果往往不尽如人意,王振振(2013)等据此提出了一种基于LDA模型的文本相似度计算方法。他们利用LDA主题模型处理文本集,首先将文本语料库分配到各个主题,然后再发现不同主题与词之间关系,进而得到文本的主题分布,并通过文本分布结果计算语料库的相似度。结果发现,该方法可以明显提高相似度计算结果的准确率。(2)评论数据情感分析由于产品评论规模爆炸式的增长以及其巨大的商业价值,导致越来越多的研究机构和人员开始对产品评论信息进行研究工作,意在挖掘出当中有用的价值信息。早在上世纪90年代就有研究者对情感分析问题开始关注了,2000年之后情感分析渐渐成为热点研究问题,研究的方式主要采用语义分析技术和机器学习技术,同时也采用了自然语言处理的相关技术,直到目前情感分析问题仍然是自然语言处理领域和信息检索领域亚待解决的研究问题。本节将从篇章和句子级别的情感分析、细粒度情感分析、跨领域情感分析三个方面来概述当前国内外情感分析的研究现状。①篇章和句子级别的情感分析Dave等人提出一个数值函数,在评论情感分类研究中他们使用该函数对评论计算得分来确定评论的最终情感极性。Pang等人在Zooz年首次提出使用有监督机器学习分类算法对产品评论进行情感分类,分别比较了将最大嫡模型(MaximumEntropyModel,MEM)、朴素贝叶斯(NaiveBayes,NB)和支持向量机(SupportVectorMachine,SVM)这三种分类算法用于电影评论数据集文本语义倾向分类上的效果,结果表明利用朴素贝叶斯算法和支持向量机算法在3层交叉验证的情况下分别取得了81%和82.9%的分类精准率结果。②细粒度情感分析在细粒度情感分析中对产品属性词和情感词的识别尤为重要,通过对属性词和情感词的抽取,可以构建出与领域相关的属性词表和情感词表,除此之外,如果能正确识别出属性词与情感词的对应关系,那么还可以生成可视化的评论摘要。Hu和Liu提出了一种通过抽取属性词与情感词的方式用于生成评论摘要,他们认为常见的属性词通常是评价文本中的名词或者名词短语,因此他们利用关联规则的方法来抽取属性词,将最小支持率为1%的名词或者名词短语作为属性词,此最小支持率指的是含名词或者名词短语的句子数占总句子数的比例,另外他们还通过属性词出现的形式和位置来保证属性词抽取的准确度,对于情感词的抽取部分,他们仅将形容词作为候选情感词,当属性词抽取完毕后,再对那些包含属性词的句子抽取出修饰属性的形容词,作为最终的情感词。之后,他们还根据那些己经抽取出的常见属性词和情感词去抽取不常见的属性词,他们认为情感词既然可以修饰常见情感词,同样也可以对不常见情感词进行修饰。③跨领域情感分析在国外,Aue和Gamond等人提出了几种不同的算法分别对跨领域产品评论的情感分类问题进行研究,首先他们给每个领域都标注了一部分数据量不大的数据,然后利用这些数据去生成一个统一的分类模型,最后使用此分类模型对每个领域都进行了情感分类,在生成统一分类器的过程中,他们设计了四种不同的算法,通过实验结果,他们发现在不同的领域内使用不同的算法通常会有不同的表现,有些算法在一些领域上可以提高分类精准度,有些算法则会降低分类精准度。最近凡年,一些研究者逐渐采用迁移学习的方法对跨领域的产品评论进行情感分析,比如Blitzer,Dredeze等人将结构对应学习(StructuralCorrespondenceLearning,SCL)算法引入到跨领域的情感分析研究中,SCL是一种应用范围非常广的特征迁移学习算法,它的主要目的是将训练集上的特征通过枢轴特征尽量的对应到测试集中,通过特征的映射构建源领域与目标领域的桥梁,然后利用互信息方法去找出与源领域互信息最大的枢轴特征作为用于训练目标领域分类器的特征,实验结果表明,当仅使用源领域的标注数据进行训练时,相对基线的分类错误率降低了360fo,而当在之前的基础上引入少量目标领域标注数据进行训练时,相对基线的分类错误率降低了46%。总体来说,目前对于产品评论的情感分析研究点有很多,主要有如何对篇章、句子级评论进行情感极性的判定,如何对评价对象的属性和情感词进行抽取识别从而进行更细粒度的情感分析研究,如何解决在情感分析问题中产品领域移植性差的问题等。目前采用的情感分析方法策略也有很多,主要的倾向性判定方法有基于确定极性的种子词或词典资源的方式、基于模板和规则的方式、基于有监督机器学习的方式。参考文献[1]王洪伟,宋媛,杜战其,郑丽娟,华瑾,张艺伟.基于在线评论情感分析的快递服务质量评价[J].北京工业大学学报,2017,(03):402-412.[2]李宏媛,陶然.服装电商评论情感分析研究[J].智能计算机与应用,2017,(01):27-30+34.[3]李晨曦,谢罗迪.基于LDA模型的文本分类与观点挖掘[J].电子技术与软件工程,2017,(04):209-210.[4]钱慎一,杨铁松.基于微博电影评论的情感分析研究[J].现代计算机(专业版),2017,(05):48-51.[5]刘江华.一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证[J].情报科学,2017,(02):16-21+26.[6]赵刚,徐赞.基于机器学习的商品评论情感分析模型研究[J].信息安全研究,2017,(02):166-170.[7]朱琳琳,徐健.网络评论情感分析关键技术及应用研究[J].情报理论与实践,2017,(01):121-126+131.[8]李胜宇,高俊波,许莉莉.面向酒店评论的情感分析模型[J].计算机系统应用,2017,(01):227-231.[9]程惠华,黄发良,潘传迪.基于产品评论情感分析的用户满意度挖掘[J].福建师范大学学报(自然科学版),2017,(01):14-21.[10]李涵昱,钱力,周鹏飞.面向商品评论文本的情感分析与挖掘[J].情报科学,2017,(01):51-55+61.[11]储涛涛.基于LDA主题模型的用户兴趣发现方法[J].软件,2016,(12):38-42.[12]彭德焰,胡欣宇.基于SVM的产品评论情感分析系统的设计与实现[J].物联网技术,2016,(11):76-79.[13]唐晓波,兰玉婷.基于特征本体的微博产品评论情感分析[J].图书情报工作,2016,(16):121-127+136.[14]张贵林.互联网商品评论信息的情感分析研究[D].东南大学,2016.[15]马松岳,许鑫.基于评论情感分析的用户在线评价研究——以豆瓣网电影为例[J].图书情报工作,2016,(10):95-102.[16]李湘东,高凡,丁丛.LDA模型下不同分词方法对文本分类性能的影响研究[J].计算机应用研究,2017,(01):62-66.[17]杨艳霞.基于本体的旅游网络评论情感分析与预警系统[J].计算机与数字工程,2016,(04):649-652.[18]高琰,陈白帆,晁绪耀,毛芳.基于对比散度-受限玻尔兹曼机深度学习的产品评论情感分析[J].计算机应用,2016,(04):1045-1049.[19]关鹏,王曰芬,傅柱.不同语料下基于LDA主题模型的科学文献主题抽取效果分析[J].图书情报工作,2016,(02):112-121.[20]夏明星.基于情感分析的评论极性分类和电影推荐系统的设计与实现[D].安徽大学,2016.[21]肖璐,陈果,刘继云.基于情感分析的企业产品级竞争对手识别研究——以用户评论为数据源[J].图书情报工作,2016,(01):83-90+97.[22]彭浩,徐健,肖卓.基于比较句的网络用户评论情感分析[J].现代图书情报技术,2015,(12):48-56.[23]韩科伦,范英杰,郭昕,许研.在线评论的情感倾向对不同类型产品销量的影响研究[J].管理观察,2015,(36):69-71+77.[24]卜湛,伍之昂,曹杰,朱桂祥.在线评论情感计算与博弈预测[J].电子学报,2015,(12):2530-2535.[25]刘丽,王永恒,韦航.面向产品评论的细粒度情感分析[J].计算机应用,2015,(12):3481-3486+3505.[26]郑飏飏,徐健,肖卓.情感分析及可视化方法在网络视频弹幕数据分析中的应用[J].现代图书情报技术,2015,(11):82-90.[27]袁媛.情感分析研究综述[J].信息与电脑(理论版),2015,(21):49+55.[28]何成万,王格.一种基于领域情感词典的网络评论倾向分析方法[J].武汉工程大学学报,2015,(10):45-50.[29]邹海林,杨华.基于依存句法的评论情感极性分析[J].贵州师范大学学报(自然科学版),2015,(05):70-74.[30]任聪,李石君.面向网络新闻领域的评论情感极

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功