基于深度学习的社交媒体分析与推荐系统设计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

本科生毕业设计说明书学院电子信息工程学院专业通信工程年级2011级姓名胡博宏指导教师金志刚2015年6月9日本科生毕业设计任务书题目:基于深度学习的社交媒体分析与推荐系统设计学生姓名胡博宏学院名称电子信息工程学院专业通信工程学号3011204125指导教师金志刚职称教授一、原始依据1、工作基础与背景随着Web2.0的快速发展,今天的互联网已经超越了门户时代、搜索时代,进入了社交媒体时代。社交媒体已成为人们日常生活中获取信息、分享信息的重要平台,与博客、BBS论坛等传统网络应用形式相比,社交网络的复杂性和大量的非传统、多模态特征致使传统的理论与模型难以描述社交网络中的用户行为方式。微博(microblog)正在成为互联网中越来越重要的信息交流平台,以新浪微博为例,根据新浪2011年第四季度财报,其注册用户已经突破3亿大关,用户每日发布信息量超过1亿条。微博在大量热点事件中扮演了传统媒体所不具有的信息快速发布的传播的角色,同时,微博平台可以在极短时间内汇聚相当数量的用户对同一热门事件的讨论信息,如2011年的“7.23温州动车追尾事故”、“郭美美事件”、“药家鑫事件”都是在微博平台首先发布并获得大量用户的迅速关注。这些特点是其它传媒平台所难以企及的。从微博信息抽取热门词语可以了解微博信息动态,掌握舆论动向。机器学习领域中一个叫“深度学习”的课题受到学术界广泛关注,到今天已经成为互联网大数据和人工智能的一个热潮。2013年4月,《麻省理工学院技术评论》(MITTechnologyReview)杂志将深度学习列为2013年十大突破性技术之首。深度学习的概念源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示,以发现数据的分布式特征表示。深度学习的多层非线性映射的结构,可以完成复杂的函数逼近,具有复杂特征的表示能力。2、研究条件目前,实验室已具备进行本课题的各项条件。硬件方面有运算存储功能强大的服务器支持,软件方面eclipse,java已经安装调试完毕,其他基本软件也已经完备。3、应用环境本课题构建出来的关系分析和自动推荐的方法可以广泛应用,为观点挖掘、观点分类、观点检索等提供了依据。此外,本课题完成的高质量代码可以直接使用。4、工作目的通过将深度学习应用于社交网络的链接预测,进而提高链接预测的准确度等指标。社交媒体推荐系统需要根据用户间的关联信息和用户的基本信息、兴趣爱好等信息,为用户推荐未关注但是有较高关注概率的其他用户,帮助用户发现其感兴趣的信息。二、参考文献[1]中国互联网络信息中心(CNNIC).2011.第29次中国互联网发展状况统计报告.[2]刘鸿宇,赵妍妍,秦兵,等.评价对象抽取及其倾向性分析[J].中文信息学报,2010(1):84-88.[3]EsuliA,SebastianiF.Sentiwordnet:Apubliclyavailablelexicalresourceforopinionmining[C]//ProceedingsofLREC.2006,6:417-422.[4]FayyadU,Piatetsky-ShapiroG,SmythP.Fromdataminingtoknowledgediscoveryindatabases[J].AImagazine,1996,17(3):37.[5]杜阿宁.互联网舆情信息挖掘方法研究[D].哈尔滨:哈尔滨工业大学,2007.[6]孔祥成,石建,苏春萍.基于因特网信息的挖掘与评价研究[J].现代图书情报技术,2002,4:019.[7]RicciF,RokachL,ShapiraB.Introductiontorecommendersystemshandbook[M].SpringerUS,2011.三、设计(研究)内容和要求1、设计与研究内容1)学习链接预测的相关算法、思想;2)学习深度学习的基本思想、算法,掌握深度学习基础模型的使用;3)利用机器学习中的分类算法实现基于社交网络拓扑信息特征值的链接预测;4)将深度学习的模型用于提取社交网络拓扑信息的抽象特征,基于该抽象特征实现链接预测;5)添加用户标签的特征,用深度学习提取拓扑信息和用户标签信息的抽象特征,基于多种特征实现链接预测;2、主要指标和技术参数1)设计和实现基于深度学习的链接预测2)设计和实现自动分类方法指导教师(签字)年月日审题小组组长(签字)年月日天津大学本科生毕业论文开题报告课题名称基于深度学习的社交媒体分析与推荐系统设计学院名称电子信息工程学院专业名称通信工程学生姓名胡博宏指导教师金志刚一、课题来源及意义随着Web2.0的快速发展,今天的互联网已经超越了门户时代、搜索时代,进入了社交媒体时代。社交媒体已成为人们日常生活中获取信息、分享信息的重要平台,与博客、BBS论坛等传统网络应用形式相比,社交网络的复杂性和大量的非传统、多模态特征致使传统的理论与模型难以描述社交网络中的用户行为方式。2006年以来,机器学习领域中一个叫“深度学习”的课题受到学术界广泛关注,到今天已经成为互联网大数据和人工智能的一个热潮。2013年4月,《麻省理工学院技术评论》(MITTechnologyReview)杂志将深度学习列为2013年十大突破性技术之首。深度学习的概念源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示,以发现数据的分布式特征表示。深度学习的多层非线性映射的结构,可以完成复杂的函数逼近,具有复杂特征的表示能力。因此,基于深度学习挖掘社交网络中的复杂信息、分析数据中隐含的特有属性,对于用户的个性化推荐等问题,具有重要研究意义与应用价值。二、国内外发展状况国内外对于社交网络链接预测的研究已有一段历史,方法大致可以分为三大类,第一类是基于特征值的分类方法,第二类是基于贝叶斯网络的方法,第三类是基于概率相关模型的方法。基于特征值的分类方法着重于根据特征值对节点进行分类,这是一种典型的二分类问题,可以使用逻辑回归(LogisticRegression,LR)、支持向量机(SupportVectorMachine,SVM)等流行方法,但是这种方法的难点在于特征值的正确选取;基于贝叶斯的监督模型的核心点是获得节点对同时存在的后验概率,此模型的优点是得分本身可以作为分类的特征;基于概率相关模型的方法不少是围绕节点相似性和节点属性的链接预测,这些链接预测方法可以获得较好的精确度,但是如何有效的结合节点的各个属性,从而达到最好的性能是该算法的一个难点所在,而且这些方法不是普适的,不适用于所有的场合。深度学习方面,其基础模型主要有以下几种:自编码器(AutoEncoder,AE)、深信度网络(DeepBeliefNetworks,DBN)、卷积神经网络(ConvolutionalNeuralNetworks,CNN)。卷积神经网络适合日常自然图像的特征表示,自编码器的拓展栈式自编码器(StackedAutoEncoder,SAE)和深信度网络常用于普通数据的特征表示。深度学习的基本训练方法为两步:自下而上的非监督学习和自上而下的监督学习。其中,自下而上的非监督学习从底层开始,一层一层向上传递,得到各层的参数(相当于获得一个较优的参数初始化,使参数能快速收敛);而自上而下的监督学习则用带标签的数据训练,误差自上而下传播,微调各层参数,进行全局优化,主要算法有反向传播(BackPropagation,BP)算法。目前国内外将深度学习应用于链接预测的研究并不多。Salakhutdinov和RuslanMnih等人提出用限制玻尔兹曼机实现协同过滤,学习用户与电影评分的联合分布,进而预测用户对电影的评分;LiuFeng和LiuBingquan等人提出用深信度网络学习社交网络拓扑结构的特征表示,进而用机器学习中的逻辑回归进行链接预测;ZhaoquanYuan和JitaoSang等人总结了社交网络分析存在的挑战,提出了基于关联生成深信度网络的社交网络分析的统一框架,并进行了链接预测和图像检索的社交网络应用实验。三、研究目标和内容本课题的研究目标是通过将深度学习应用于社交网络的链接预测,进而提高链接预测的准确度等指标。社交媒体推荐系统需要根据用户间的关联信息和用户的基本信息、兴趣爱好等信息,为用户推荐未关注但是有较高关注概率的其他用户,帮助用户发现其感兴趣的信息。因此,本课题运用深度学习突出的抽象特征表示能力,提取社交网络中的深层特征,并对提取的特征进行分析,实现更优的链接预测。本课题的主要研究内容如下:1)学习链接预测的相关算法、思想;2)学习深度学习的基本思想、算法,掌握深度学习基础模型的使用;3)利用机器学习中的分类算法实现基于社交网络拓扑信息特征值的链接预测;4)将深度学习的模型用于提取社交网络拓扑信息的抽象特征,基于该抽象特征实现链接预测;5)添加用户标签的特征,用深度学习提取拓扑信息和用户标签信息的抽象特征,基于多种特征实现链接预测;四、研究方法和手段本课题的研究方法:通过阅读深度学习和链接预测两方面的论文和资料,了解已有研究方向和研究成果,确定具体的实现方法,制定实验方案;查阅MATLAB的相关知识,为实验做好准备;最后按照实验方案完成实验,撰写论文。主要研究手段:掌握深度学习基础模型,利用基础模型提取数据的抽象特征;学习链接预测的机器学习算法以及相关的评价指标;最终在MATLAB上实现整个方案,并进行实验。五、进度安排1)2014年12月20日——2015年1月18日:查阅相关资料,明确课题方向,了解课题的研究内容和研究方法,并撰写开题报告。2)2015年1月19日——2015年2月15日:制定详细的实现计划以及社交网络数据的采集与整理。3)2015年2月16日——2015年3月1日:利用机器学习的分类算法实现基于社交网络拓扑信息的链接预测。4)2015年3月2日——2015年4月15日:利用深度学习提取拓扑信息的抽象特征,实现基于拓扑信息抽象特征的链接预测。5)2015年4月16日——2015年5月15日:利用深度学习提取拓扑信息和用户标签信息的抽象特征,实现基于多类抽象特征的链接预测。6)2015年5月16日——2015年6月6日:按要求完成毕业设计论文、准备答辩。六、研究条件和可行性分析本课题的核心是将深度学习应用于社交网络的链接预测,以达到更好的推荐效果。首先,社交网络的链接预测在计算机领域已经早有一些研究,各类方法的基本原理也较为成型,许多学者的研究论文都可提供有益的指导。其次,深度学习虽然从2006年才引起人们的关注,但之后学术界和工业界对其的火热程度,使得深度学习发展得非常快速,已经形成实际可行的框架。最后,最重要的是,在实验室的优良氛围下,导师、师兄师姐们耐心热情的支持和引导下,我有信心如期完成课题设计。软件条件:实验主机为Windows8.1操作系统,装有MATLAB2014a等其他相关软件。七、参考文献[1]余凯,贾磊,陈雨强,等,深度学习的昨天,今天和明天[J].计算机研究与发展,2013.50(9):第1799-1804页.[2]刘建伟,刘媛,罗雄麟,深度学习研究进展[J].计算机应用研究,2014.31(7).[3]SalakhutdinovR,MnihA,HintonG.RestrictedBoltzmannmachinesforcollaborativefiltering[J].InMachineLearning,ProceedingsoftheTwenty-fourthInternationalConference(ICML2004).ACM,2007:791--798.[4]GeorgievK,NakovP.Anon-IIDFrameworkforCollaborativeFilteringwithRestrictedBoltzmannMachines[J].ProceedingsofInternationa

1 / 57
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功