北京邮电大学硕士研究生学位论文开题报告学号:2014111557姓名:陈子豪学院:网络技术研究院专业(领域):计算机科学与技术研究方向:导师姓名:张晓冬攻读学位:硕士2015年12月9日北京邮电大学硕士研究生学位论文开题报告-1-论文题目在线教育中个性化推荐课程算法的研究与实现选题来源其他论文类型基础研究开题日期2015-12-09开题地点北京邮电大学一、立题依据(包括研究目的、意义、国内外研究现状和发展趋势,需结合科学研究发展趋势来论述科学意义;或结合国民经济和社会发展中迫切需要解决的关键科技问题来论述其应用前景。附主要参考文献目录)(不少于800字)现代的在线教育的兴起与发展,使得现有的教学资源数字化、网络化、信息资源的膨胀化。现代远程教育个性化推荐系统正是解决这一问题的途径之一。目前,已有很多高校搭建了自己的在线教育系统,并且应用于学生的教学活动中,随着在线教育系统的实践和应用以及系统中存在的日益增多的教学资源,学生往往需要花费很多的时间和精力在在线教育系统中查找自己所需的资源,甚至花费很多时间和精力以后却发现找不到自己所需的教学资源,这就使得学生的学习效率严重下降甚至使得学生放弃该在线教育系统。通过对当前在线教育系统的分析,我们发现,现有的关于学习资源的推送有以下几方面:关键字查询、新资源推荐、TOP-N推荐。近年来也出现了在个性化推荐算法的基础上进行学习资源推荐的系统,然而其重点却放在了如何解决“信息过载”和“情感缺失”的问题。以上的方法在一定程度上解决了学习资源推荐的问题,但是却没有在根本上解决个性化学习资源推荐问题,所以怎样在在线教育系统中进行具有个性化的学习资源推荐成为了本文中需要研究的一个主要问题。目前对于在线教育的定义,其实不仅仅是线上职业教育这一小部分,而是包括了青少年、早教、远程文凭培训、应试教育、就业培训等等O2O的项目也位列其中。在线教育是当前最热门的方向之一,仅仅是今年下半年,在线教育行业里的热点就层出不穷:注重K12应试的猿题库宣布获得C轮融资,新东方和腾讯联手开发了问答和题库机制的优答,做学生家教辅导的爱辅导宣布获得天使投资,然后是奥巴马猛推IT职业教育,还有就是这一周发生的,号称“双十二到了买买买”的YY连续收购:3亿收购郑仁强团队,1.2亿收购环球网校。YY旗下的100教育也仅仅成立于今年年初的2月份,如此频繁的并购和融资,侧面证明了在线教育在国内外市场的重要性。国内的在线教育市场,基本分为三大领域:1.以K12为主要受众的青少年教育;2.以在校大学生留学外语考试和公务员考试为主的应试教育;3.以IT、金融、会计等等职业技能为主的职业教育。在大数据时代,三大在线教育领域中并不缺乏学习资源,海量数据库支撑起来的教育平台,总是能够满足各个学生的需求。但是在课程查询方面,各个平台使用的推荐算法各不相同,导致学生不一定能够在短时间内找到自己最喜欢的课程进行学习,变相地降低了学生的学习效率。本课题意在对个性化课程推荐算法进行改进,不仅仅使用组合推荐算法,而且引入了专业老师的人工推荐,将人与机器推荐的课进行权重排序之后,推荐给学生进行选择学习。通过这种算法推荐的课程,不仅能够覆盖近期热门课程、相似学生最喜欢课程,还能改通过老师的人工推荐,将一些冷门知识从海量课程中挖掘出来,开发学生新的兴趣点,从而丰富学生的知识面,实现学生的全面发展。北京邮电大学硕士研究生学位论文开题报告-2-主要参考文献:[1]王荣.教育网站资源个性化推荐系统的研究[D].北方工业大学,2012.[2]宋瑞平.混合推荐算法的研究[D].兰州大学,2014.[3]鲁丹.个性化教育资源推荐系统的设计与实现[D].华东师范大学,2014.[4]刘荣橙.中小学教育资源个性化推荐系统研究与实现[D].东北师范大学,2014.[5]王娜.现代远程教育系统个性化推荐算法研究[D].电子科技大学,2011.[6]王凯.支持个性化学习资源推荐的在线辅助学习系统的研究与设计[D].陕西师范大学,2014.[7]SchaferJB,KonstanJA,RiedlJ.E-commercerecommendationapplications[M]//ApplicationsofDataMiningtoElectronicCommerce.SpringerUS,2001:115-153.[8]AdomaviciusGTuzhilinA.Towardthenextgenerationofrecommendersystems:Asurveyofthestate-of-the-artandpossibleextensions[J],KnowledgeandDataEngineering,IEEETransactionson,2005,17(6):734-749.[9]DasAS,DatarM,GargA,etal.Googlenewspersonalization:scalableonlinecollaborativefiltering[C]//Proceedingsofthe16thinternationalconferenceonWorldWideWeb.ACM,2007:271-280.[10]SaidA,TikkD,HothoA.Thechallengeofrecommendersystemschallenges[C]//ProceedingsofthesixthACMconferenceonRecommendersystems.ACM,2012:9-10.北京邮电大学硕士研究生学位论文开题报告-3-二、研究内容和目标(说明课题的具体研究内容,研究目标和效果,以及拟解决的关键科学问题。此部分为重点阐述内容)(不少于2500字)课题的研究内容主要分为三部分,第一部分是现有算法研究,第二部分是找出现有算法在在线教育平台上可改进的方向,第三部分是改进算法实现与测试。基于内容的推荐算法:充分利用信息的内容(如文本文档)和用户对某一信息兴趣的相似性来过滤是该推荐系统的特点。它被信息检索领域(InformationRetrieve)所提出来,所以又被称之为基于信息过滤,因而使用了许多信息检索领域的技术。把每个用户都看作成用户的感兴趣的模型,根据模型构成数据结构来描述其兴趣度是基于内容推荐的基本思想;提取每一个项目的内容的基本特征,组合成特征向量;当需要向某一个用户进行推荐时,系统通过相似度推荐文档,即系统就会把所有项目的特征矩阵同该用户的兴趣模型进行相关转化比较,从而得到二者之间的相似度。基于内容的推荐算法的主要优点有如下几项:1.可解释性好。推荐给用户的项目的内容特征和用户以前喜欢的项目的内容特征相似,用户容易接受。2.新的项目可以得到推荐。一个新的项目加入到推荐算法中,马上就可以利用它的内容特征去和用户偏好做匹配,其被推荐的可能性和老项目是相同的。它的侧重点不是用户,忽略用户行为的,只考虑了信息之间相似性的关系,从而没有考虑到用户,由于没有考虑用户,所以在解决协同式过滤中出现的稀疏性、特殊用户问题和第一评价的问题等缺陷。如:1.过度特征化问题。信息特征是它所依赖的,这种技术实现的模型下信息与信息之间关联性并不能很好的表达。比如一些试试从表面特征上看来他们并不具有相关的信息,但是他们有非常大的关联,这样就有可能得不到有效的推荐。2.较差的自我学习能力。建立的商品特征向量是基于内容的推荐依赖项,这种空间向量并不能快速自动地反映数据环境的变化,某种程度上会影响其推荐质量,例如大量新增商品或顾客购买行为的不断积累变化的情况。3.遇到的内容具有相同主题时,系统很难区分两者的质量高与低。例如:在对专业技术领北京邮电大学硕士研究生学位论文开题报告-4-域文章资源的推荐中,多篇文章具有相同科目的水平,但是两者相差很大,但是往往内容相近似。基于协同过滤推荐算法:它的基本出发点是:1.按自己的兴趣分类;2.对于一个未知信息的评价将和其相似兴趣用户的评价相似。3.当前用户的兴趣信息包含了对不同的信息评价;这三点构成了基础。通过比较对其感兴趣文件的相似程度,预测并计算出用户与用户之间的相似成度,产生了与当前用户行为兴趣相接近的用户结果集,将用户结果集作为最感兴趣的信息项的结果推荐给当前用户,所以也被称之为面向用户(user-based)的技术。其实用户所看到的信息项只是一个唯一性的标示符而己,与项的内容无关。相对于基于内容的推荐算法,协同过滤主要的优点主要有一下几点:1.适用于复杂的非结构化数据,例如:电影、音乐等数据。不像基于内容的推荐需要利用信息提取手段进行内容的提取,协同过滤利用的数据易于提取和表示,例如:用户评分、购买记录、浏览记录等。2.不需要专业领域知识。计算机专业技术人员不需要去了解需要做推荐的领域的专业知识就可以构建出推荐算法,使得推荐算法的研究变的更为容易。协同过滤可以推荐和用户以往喜欢的项目完全不同的事物,即可以发现用户可能喜欢但自己尚未发现的事物。3.智能性。不需要用户自己寻找适合自己兴趣点的内容,例如去填写调查问卷等。系统自动根据用户历史评分信息等显式信息或浏览信息等隐式信息为用户做出相应推荐。它可以推荐从表面的特征上看上去不同但是事实上有很大相关性的信息项,因为它不依赖于项目特征。而且更重要的是它可以通过不断积累顾客购买行为数据,从而更新和增加自己的知识。但是它也有着不同程度的缺陷,如:1.稀疏性的问题:大量的用户兴趣的评估数据是基于协同过滤技术的推荐系统所依赖的,整个项目——用户评估的矩阵非常稀疏,原因是由于每个用户都只对很少的项目做出评价而导致的。北京邮电大学硕士研究生学位论文开题报告-5-2.最初评价问题。一个新的信息项首次加入的时候,没有被用户作过喜好的评价,在早前的协同过滤是基于邻居用户资料推荐给目标用户,因此单纯的协同过滤无法对其进行预测和推荐。3.灰羊问题。一些用户由于他们的偏好比较特殊的缘故,所以导致找不到与其相类似的用户,因此在系统中就会很难获得正确的预测,无法为他们提供感兴趣的结果集。基于上下文推荐:上下文推荐算法的产生是随着移动智能终端的发展而出现的,从《中国互联网络发展状况统计报告》中显示,中国的手机网民数规模达到5亿,且年增长率为19.1%,这是一个庞大的数字,该具体的数字说明了越来越多的用户使用移动手机上网。移动用户数据的增加,也会对电脑上网用户有影响,会相对的减少用电脑上网的用户数据。这个时候对传统的推荐方法就提出了挑战,此时用户所处的上下文环境也对推荐结果产生影响,上下文成为影响用户对推荐结果满意度的一个重要因素。用户所处的位置不同,需要推荐结果的时间不同,兴趣就可能不同。因此,在推荐算法中融入上下文信息,可以为用户推荐更符合其兴趣的项目。社交网络推荐:目前,随着在线社交服务的流行,大量的互联网用户通过社交联系构成了一个庞大的社会网络。通常情况下,当我们面临很多种选择方式时,我们更愿意相信自己的亲人朋友给我们提出的建议,比如我们在选择看什么电影的时候,我们会询问亲人朋友等哪部电影好看,这些建议我们一般都会采纳。所以,在推荐系统中充分利用用户的社交信息对提高推荐质量有很大的帮助。由于社交网络平台的飞速发展,将一个用户与其它用户的关系关联了起来,这些信息在推荐系统中是非常有利的。因此,已经有很多研究者投入到了社交网络推荐系统的研究中。但是该算法的缺点是只是充分使用了人与人之间的关系,而没有用户自己一些兴趣偏好信息。混合推荐:由于协同过滤中基于内存的和基于模型的推荐算法各自都存在一定的缺陷,为了解决这些问题,研究学者们提出了混合推荐算法。混合推荐算法并不是一种新的推荐方法,而是将上述的各种推荐方法利用一定的手段组合到一起,充分发挥各个推荐方法的优势,避免各自的缺点,在一定程度上提高了协同过滤推荐算法的推荐质量。混合推荐算法目前已成为新的发展趋势。经过算法调研,本文拟定使用混合推荐算法,在在线教育平台进行推荐。其中混合推荐算法包括基于内容的推荐算法、基于邻居的协同过滤推荐算法,并加入教师指定课程推荐,实现最终的个性化推荐。