基于Spark的个性化推荐系统设计与实现

7887444
1 ℃
2020-04-29

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

分类号TP391.3密级公开UDC004.4编号10299Z1308032硕士学位论文基于Spark的个性化推荐系统设计与实现DesignandImplementationofMovieRecommendationSystembasedonSpark指导老师杨鹤标教授作者姓名谢璐俊申请学位级别全日制工程硕士专业名称计算机应用技术论文提交日期2016年4月论文答辩日期2016年6月学位授予单位和日期江苏大学2016年6月江苏大学学位论文版权使用授权书江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊（光盘版）电子杂志社有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致，允许论文被查阅和借阅，同时授权中国科学技术信息研究所将本论文编入《中国学位论文全文数据库》并向社会提供查询，授权中国学术期刊（光盘版）电子杂志社将本论文编入《中国优秀博硕士学位论文全文数据库》并向社会提供查询。论文的公布（包括刊登）授权江苏大学研究生院办理。本学位论文属于不保密□。学位论文作者签名：指导教师签名：年月日年月日独创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已注明引用的内容以外，本论文不包含任何其他个人或集体已经发表或撰写过的作品成果，也不包含为获得江苏大学或其他教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：日期：年月日江苏大学硕士学位论文I摘要随着互联网技术的高速发展，网络上的资源逐渐由匮乏状态转变为现在的爆发式增长状态。在信息爆炸的时代，利用推荐系统处理过载信息，可以使用户更方便的找到自己所需的内容，电影推荐系统就是要在大量用户观影行为和电影数据上进行分析与计算，得到推荐结果并传达给用户。为了能够更快的处理大量信息，Hadoop应运而生，解决了大数据的可靠存储及处理问题。但是，随着大数据处理技术的普及，人们发现MapRecue也存在一些局限性，使用起来也较为困难。其问题有抽象层次较低，使用难以上手，只提供两种操作Map及Reduce表达力欠缺，中间结果也放在HDFS文件系统中，延时较高，对于迭代计算性能比较差。因此，技术发展的趋势将会是HadoopMapReduce被新一代大数据处理平台所替代，而Spark平台目前得到广泛的认可。本文的主要研究的内容是利用分布式Spark平台计算优势，帮助用户从庞大的影视信息中找出他们感兴趣的电影，并向用户推荐，避免让用户陷入信息过多的困扰。本文研究的重点主要有以下几个方面：1、设计一套基于分布式Spark平台的推荐系统及其相关协作系统。这些协作系统保证了推荐系统的正常运行。其中存储系统作为数据的存储支撑，保证系统数据的可靠性和存取效率，展示页面是联系推荐系统与用户的重要桥梁，利用Dubbox框架将系统改进成服务化架构，解耦整个系统，使系统能够横向扩展。2、本文着重介绍了推荐系统的核心——推荐引擎，深入研究其算法，包括协同过滤推荐算法和基于题材相关性推荐算法，改进原有的基于题材相关性推荐算法一些不足之处，使算法在满足长尾效应和并行优化方面得到提升，推荐结果更符合用户意愿。本文分析了当算法提交到Spark集群后，集群任务的划分及执行情况。3、列出整个系统运行和开发所需要的环境、软件及软件版本，详细阐述了系统一些关键技术的实现，包括缓存机制和服务化架构。最后展现系统原型。关键字：Spark，推荐系统，推荐算法，推荐系统冷启动基于Spark的个性化推荐系统设计与实现IIAbstractWiththerapiddevelopmentofInternettechnology,theresourcesonthenetworkgraduallychangedfromthelackofstatetothepresentexplosivegrowth.Intheeraofinformationexplosion,theuseofrecommendationsystemtoprocesstheoverloadofinformationcanmakeiteasierforuserstofindtheirdesiredcontent,movierecommendationsystemistocarryouttheanalysisandcalculationintheviewingbehaviorofalargenumberofusersandmoviedata,gettherecommendedresultsandcommunicatedtotheuser.Inordertobeabletodealwithalargeamountofinformationmorequickly,Hadoopappears,whichsolvedtheproblemofreliablestorageandprocessingoflargedata.However,withthepopularityoflargedataprocessingtechnology,peoplefoundthatMapRecuealsohassomelimitationssothatitisdifficulttouse.Theproblemsare,lowerlevelofabstraction,difficulttogetstarted,onlyprovidetwokindsofoperation，lackofexpressionofMapandReduce，intermediateresultsarealsoplacedintheHDFSfilesystemtoleadtohigherdelay,theperformanceoftheiterativecalculationisrelativelypoor.ThemaincontentsofthispaperarecalculatedtakingadvantageofdistributedSparkplatform,tohelpusersfindthemoviestheyareinterestfromthehugevideoinformation,andrecommendtothem,toavoidgivingusersmoreinformationintotrouble.Thispaperfocusesmainlyonthefollowingaspects:1.DesignarecommendationsystembasedondistributedSparkplatformandcooperativesystems.Thesecollaborativesystemsensurethenormaloperationoftherecommendationsystem.Asthedatasupportofthewholesystem,thestoragesystemensuresthestabilityandefficiencyofthesystem,displaypageisanimportantbridgebetweentherecommendationsystemandtheuserandtherecommendationsystemusingDubboxframeworkwillbechangedtoSOAarchitecture,decouplingthewholesystem,thesystemcanmakethehorizontalexpansion,improveoverallsystemfaulttolerance.2.Thispaperfocusesonthecoreoftherecommendationsystem,recommendationengine.Furtherresearchincludescollaborativefilteringrecommendationalgorithmandrecommendationalgorithmbasedontopicrelevance.Improvementofsubjectrelativityalgorithmofrecommendationsomedeficienciesbasedontheoriginalalgorithm,theimprovedtomeetthelongtaileffectandparalleloptimization,therecommendationresultsmoreinlinewiththewishesoftheuser.ThispaperanalyzesthealgorithmwhensubmittedtotheSparkcluster,clusterpartitionandtheimplementationofthetask.江苏大学硕士学位论文III3.Liststheenvironment,softwareandsoftwareversionsofthewholesystemoperationandsoftware,andexpoundstherealizationofsomekeytechnologiesindetail,includingthecachingmechanismandtheservicearchitecture.Finallyshowthesystemprototype.Keywords:Spark,Recommendationsystem,Recommendationalgorithm,coldstart基于Spark的个性化推荐系统设计与实现IV目录摘要......................................................................................................................................................IAbstract..................................................................................................................................................II目录...................................................................................................................................................IV第一章绪论............................................................................................................................................11.1研究背景及意义.......................................................................................................................11.2国内外研究现状.......................................................................................................................21.2.1国外研究现状..............................