第三届“泰迪杯”全国大学生数据挖掘竞赛优秀作品作品名称:基于电商平台家电设备的消费者评论数据挖掘分析荣获奖项:二等奖作品单位:暨南大学作品成员:邓伟雄童雪玉黄国南指导教师:张元标泰迪杯大学生数据挖掘竞赛论文报告页基于电商平台家电设备的消费者需求及产品数据挖掘摘要本文通过对电商评论数据的处理和分析,构建了垃圾评论识别模型、基于RAE词向量自编码的SVM文本情感极性分析模型和产品优劣势分析模型进行文本挖掘,最后基于对淘宝指数和百度指数的提取与分析,构建了用户购买行为的挖掘模型。针对垃圾评论的识别问题,将垃圾评论归为无关信息、水军评论和系统默认好评三种,并从根据不同的分类特征制定规则予以剔除。针对评论情感分析,尝试使用半监督的深层学习RAE模型,采用word2vec工具对8万多条评论进行训练得到词向量,再对评论进行情感极性分类,然后从情感的积极方提炼出产品的优势,从情感的消极方提取产品的劣势,但由于其对于不同软件的接口封装较难转移,参数繁多且较难设定和偏置函数无法获得等原因,进而改用基于RAE的递归自编码模型的有监督的SVM模型,进行情感极性识别,通过手工标示400条评论的情感极性,进而训练SVM模型,使其对剩下的评论进行情感极性分类,结果显示情感分类的正确率达85%。针对产品优劣势分析,由于消极情感只占总评价数的0.28%,样本过小,因此从消极的情感方提取产品劣势并不可行,转而使用用户关注度分析的方法对产品属性下的用户满意度进行统计分析,通过词频统计提炼出产品的优劣势所在。针对用户购买行为的挖掘,先确定一组搜索关键字,然后爬取对应关键字下的日搜索量,搜索人群年龄性别及消费能力等分布,进行确定产品的主要消费人群及其消费关注点关键词:词向量递归自编码SVM模型情感极性分析泰迪杯大学生数据挖掘竞赛论文报告’demandsandproductscharactersAbstract:Todeeplyminethecommentsofecomercialproducts,thispaperaimstobuildthemodelofinvalidcommentsrecognition,theSVMtextemotionalpolarityanalysismodelbasedonRAEautocodingandthendistinguishestheadvantagesanddisadvantagesviatextsanalysis.Atlast,itgrabsandanalyzestheTaobaoindexandBaiduindex,buildingthepurchasebehaviorminingmodel.Intheinvalidcommentsrecognitionmodel,itfirstlabelsthreekindsofinvalidinformation,likeirrelevantcomments,posterscommentsandsystemcomments.Thenseparatetheseinformationbytheirowncharacters.Asfortheemotionalpolarityanalysis,thispapertriedthesemi-superviseddeeplearningRAEmodelatfirst,usingtoolboxword2vectoinitialeightythousandstermvectorsseparatedfromourcommentlist.ThenclassifiedthecommentsbasedonthesevectorswithRAE,obtainingtheadvantagesfromthepositivecommentsandthedisadvantagesfromthenegative.However,giventhedifficultytotransferpackagesamongdifferentsoftwares,thenumericunknownparametersandoffsetfunction,ittriesanothersupervisedapproachesSVMmodelbasedonRAEautocoding.ByhandmadelabelingfourhundredscommentswithemotionalpolaritytotraintheSVM,thenusethewell-trainedmodelstoclassifytherestcomments,showingthatithasan85%accuracy.Intheadvantagesanddisadvantagesanalysismodel,thenegativecommentsjustaccountfor0.28%,asmallscale,makingtheplantoobtainnegativeinformationinfeasible.Henceit’stobetransferredintotheapproachestoanalyzethecustomers’attentiontothepropertiesoftheproduct,countthesatisfactiondegreeundereachproperty.Thengettheadvantagesanddisadvantagesviawordfrequencystatistics.Inthecustomers’behaviorminingpart,it’stosetagroupofkeywords,usedtogetthesearchclicksundereachterms.Andthenminingtheageandconsumptionleveltogetthemainconsumergroupsandtheirfocuspoints.Keywords:TermvectorsRecursivesincethecodingSVMmodelEmotionalpolarityanalysis泰迪杯大学生数据挖掘竞赛论文报告.结论..................................................................144.参考文献...............................................................14泰迪杯大学生数据挖掘竞赛论文报告挖掘目标本次建模目标是利用在各大电商平台抓取下来的真实评论数据,首先进行水军和随意发表的评论的识别与剔除,再采用数据挖掘技术,构建基于RAE自编码的SVM模型,进行有监督的分析,即先手工进行部分评论的情感极性标识作为训练语料,得到用户评论中所包含的情感极性。从而可以在情感极性为正的句子中提取产品优势和用户购买的原因,在情感极性为负的句子中提取产品劣势和个性化需求。从各大电商网站中重新爬取商家推荐的产品优势,再与我们从评论中提取出从各类产品优势中提炼不同产品的差异化卖点。最后,根据百度指数和淘宝指数对关键词热水器和净水机进行查找,能够找到热水器和净水机的消费人群,人群购买的关注点及搜索的关键字。2.分析方法与过程2.1总体流程本部分使用一个总体流程图描述建模方法及过程,并对各部分进行简要说明。流程图见图1.本用例主要包括如下步骤:步骤一:使用火车浏览器爬取相关数据,获得初始数据。步骤二:对评论的可信度进行分析可得评论中包含三类垃圾评论,制定规则分别对三类垃圾评论进行处理。步骤三:使用R语言对热水器和净水机的评论进行切词,将整个句子切成独立的词块。步骤四:使用word2vec将已经切碎的词转化成词向量。步骤五:构建SVM模型,同时进行手工标记样本的情感极性及产品属性。将手工标记的评论数据用于三方面:模型的训练、模型的准确度检测及模型的调整。步骤六:对模型进行优化重构后输入词向量重新组建的句向量,利用经过训练的SVM模型的处理输出情感极性。步骤七:通过对步骤六的计算可得非好评在用户评论中的比重很小,因此可以通过人工统计的方法找寻产品的优劣势。步骤八:使用SVM模型统计评论中用户对产品性能的认可,进而可以找寻各品牌间产品的差异,构建四分图可以得到产品的优势点。步骤九:对百度指数和淘宝指数进行分析,得到产品的目标消费人群、用户购买的关注点及用户购买的关注点及主要消费人群。泰迪杯大学生数据挖掘竞赛论文报告模型手工标记足够样本进行模型的训练有监督的表示评论的情感判断模型的准确度利用已标注的数据调整参数,进行模型的优化与重构输入评论输出情感极性根据提取出的小样本总结产品属性类别对已判断产品极性后的评论进行属性svm模型的构建在积极的评论中运行出表示产品优势及用户购买原因的属性向量在消极的评论中运行出表示产品劣势和用户需求的属性向量在输出层进行输出百度指数淘宝指数得到搜索关键字与用户购买的关注点及主要消费人群从网页中抓取所有品牌商家对该产品的推荐点使用svm模型统计评论中用户对产品性能的认可找寻各品牌间产品的差异图1建模方法及过程的总流程图2.2具体步骤2.2.1使用火车浏览器对题目所涉及的各品牌产品进行评论的爬取。2.2.2对垃圾评论进行处理:垃圾评论的定义:垃圾评论是指那些为了促销某种商品而给出的一些不实际不相符的积极评论,或是为了诋毁某种品牌而给出的一些虚假的负面评论,试图故意误导阅读的人或自动的数据挖掘和情感分析系统的:“不合法”的活动。【1】垃圾评论的分类:对数据进行预处理,根据垃圾评论的识别,将垃圾评论分为以下几种:a.无意义信息,即用户发布的单纯宣泄自己感情的语句,内容空洞,并没有对产品的特征进行分析和评价。b.系统评论,即系统自身默认给出的评论。泰迪杯大学生数据挖掘竞赛论文报告评论内容过短,即用户并不是出于对产品进行认真评价的目的进行评价,而是为了网站的积分赠送或者商家的优惠进行的敷衍的评价。在使用编程的过程中设立了几个规则进行作为删除垃圾评论的依据:a.由从各大电商网站抓取的评论可得如果用户未作出评论,系统会说默认好评,据此制定规则1,如果评论中含系统默认好评的,则删除该评论。b.由于认定评论内容过短无法包含实质信息,因此删除字符串个数小于6的评论,据此制定股则2,如果评论中含字符串个数小于6的,则删除该评论。c.再次对抓取的评论进行分析