大数据在电子商务中的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大数据在电子商务中的应用——在线评论信息挖掘1.引言随着互联网的发展和普及,Web已经成为用户在线反馈观点的主要途径。网络购物、论坛发表意见无形中已经成为了大多数网友上网的乐趣,而网络机构也开始意识到通过提供在线评论能够增加与用户的互动,获得自身的改进。然而面对网上海量的良莠不齐的信息和数据,企业、政府和用户要想从在线评论中获得有用的信息,只有通过人工阅读的方式来获取,这不仅需要耗费大量的时间,而且极易产生错误。网民焦点话题消费经验经济发展趋势在线评论用户体验评论对像特征在线评论社会舆论导向在线评论的挖掘研究在线评论的挖掘研究自然语言处理数据挖掘机器学习信息抽取2.现状ISIWebofScience相关文献33733篇JournalofInteractiveMarketing、DecisionSupportSystems热点问题情感分析评论中产品特征挖掘评论中产品特征挖掘情感分析评论中主观内容识别等评论挖掘作为非结构化信息挖掘的一个信息领域英文评论领域,研究者已经初步取得一些成果,而针对中文网络评论的研究仍然处于起步阶段。目前,关于此问题的研究,国外研究者主要是从对网络评论信息特征的主观观点、评论的情感性分析及评论信息的可信度方面研究。在中国知网(CNKI)上检索(主题=中英文扩展(网络评论)或主题=中英文扩展(在线评论)),检索结果为934条。2.2在线评论信息挖掘时间分布02040608010012014016018019982003200820132018年份文献数量2.1在线评论信息挖掘中文关键词分布0100200300400500600700网络评论在线评论网络网络新闻评论新闻评论网络舆情文本分析网络口碑情感分类意见挖掘网络媒体网络舆论微博关键词文献数量Hu等利用从亚马逊及Barnes&Noble(全球第二大网上书店,仅次于第一名亚马逊)得来的图书评论信息来证明目前存在部分出版商、作者及卖家有意操纵评论信息的情况,其研究结果表明大多消费者会根据商品价格来判断商品质量,商家在不进行有意的评论操纵或者销售质量较高的产品更容易改变消费中的购买倾向性,由此建议可以通过增加操纵成本来缓和消费者被操纵产生的不良后果。Wang等选择采用半监督-交叉训练方法,以迭代的方式挖掘评论对象和评价词,通过朴素贝叶斯分类器在只有很少标注的语料的前提下取得结果。郭国庆等引入了霍夫兰德在耶鲁大学提出的基于信息传播过程的说服或态度改变模型,在模型本身提出的信息源、信息内容、接收者三个方面的基础上,加入社会因素,提出了在线评论可信度影响因素模型,并以第三方评论网站为例,进行了实证研究。3.在线评论信息挖掘方法观点句识别在线评论要素抽取在线评论信息挖掘技术方法基于知识规则方法基于机器学习的方法当前具有代表性的研究方法3.1基于知识规则方法该方法用于在线评论情感倾向性分析是,通常基于一个预先定义的情感词典,如WordNet、HowNet等词表,统计整个句子中的情感词的倾向性,进而得到句子的情感倾向。上海交通大学的娄德成等通过手工对HowNet包含的所有词条进行倾向性标注,并从网络上选取一定量的极性次于作为种子集合,得到了数量可观的褒贬次于字典,字典中不包含的新词,通过计算新词与种子集合中次于的互信息而得到新词的语义倾向。对于意见持有者的识别,Stoyanov采用命名实体识别的方法,将意见持有者看作一个实体,通过选择相同实体的意见持有者以解决互指问题;Kim等首先通过分析句子的句法结构识别动词或形容词等带有情感倾向的词语,在借助FrameNet标注其情感角色以识别出主题、意见持有者等信息。3.1基于知识规则方法基于知识的规则方法中通常还基于自然语言语义理解,使用句法分析方法从评论的文本结构分析定义一系列规则或模板,对文本的情感倾向性进行分析。例如,Nasukawa等借助一个句法剖析其进行语义分析并且取得了较高的准确率。Wilson开创了在短语层面进行主观性分析的研究工作,在他们将文档按特征分为词汇特征、修饰特征、句子特征、结构特征和文档特征五个类别,基于这五个特征集合构造了一个分类器,在细粒度主观性分析任务中完成得很好。刘鸿宇等通过分析情感剧举行,归纳相应的规则进行倾向性的判断。基于语义理解和句法分析方法的准确率和召回率较高,但定义推理规则需要花费成本较高。3.1基于知识规则方法基于知识的规则方法在小规模测试时效果较好,速度快。但是,人为编写规则需要语言专家对语言规则进行升入的理解,在此基础上编写规则,构造规则对语言知识要求较高,需要很大的人力、财力。另外,规则较多时还会引起规则之间的冲突,各语言间移植困难、通用性不强。3.2基于机器学习的方法主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题今年来模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法对减少标注代价,提高机器学习性能具有非常重大的实际意义机器学习领域半监督学习semi-supervisedlearning监督学习无监督学习3.2基于机器学习的方法通常使用支持向量机(supportvectormachines,SVM)、隐马尔可夫模型(hiddenmarkovmodel,HMM)最大熵(ME)等回归方法、序列标注方法进行在线评论信息挖掘。Akshay和Durant使用SVM进行情感分类。Pang等在2002年使用包括朴素贝叶斯、最大熵和SVM等多种机器学习方法,使用文本分类中常用的unigram(单个word)、bigram(双word)和词性等作为基本特征对电影评论进行了分类。Sakvetti等采用隐马尔可夫模型结合词性特征,对电影评论和产品评论进行分类。McDonald等把句子的褒贬标记看作一个情感刘问题,并利用条件随机场(conditionalrandomfields,CRFs)模型来给篇章中的每个句子打分,把句子级的褒贬标记和章篇级的褒贬标记放到一个图模型下求全局最优,该方法不仅考虑了句子的上下文关系,并且考虑了篇章的整体情感倾向性。3.2基于机器学习的方法线性CRFs模型用于倾向性分析没有考虑褒贬标记间的层级关系以及所包含的冗余信息,例如,强烈褒义和一般褒义是褒义的自己,所以影响到褒贬强度的分类结果。王根等考虑了褒贬标记间的荣誉关系,在CRFs基础上给出了一种一体式的框架,通过模型嵌入荣誉的状态标记表现了标记间的层级关系。刘康等基于层叠CRFs模型选择倾向性表示特征,利用主题词特征和转移词特征进行文本倾向性分析。

1 / 15
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功