竞赛题目(在AB上打勾):AB竞赛队编号(参赛学生不填写):__________目录问题的提出……………………………………………………………3问题的分析与假设……………………………………………………3模型的建立与求解……………………………………………………6效绩评价………………………………………………………………12预测评估………………………………………………………………13信息推荐方案…………………………………………………………13模型的评价与推广……………………………………………………14附:给有关部门的信…………………………………………………15参考文献………………………………………………………………16高等院校教育信息化推荐模型摘要本文针对当前我国高等院校教育信息化过程关于信息推荐方面存在的问题,进行了分析研究,建立了包含满意度、准确率、覆盖率、实时性这四个方面的信息推荐评价指标体系,通过问卷调查的方式收集相关数据,确定了各指标的权重因子。主要利用奇异值分解法和LSA方法建立了信息推荐模型,并利用相关算法对我们设计出的模型的效绩进行检验,最后给出了具体的信息推荐方案,并对我们的模型进行了评价推广。问题一、我们对不同用户的评测标准进行了问卷调查,通过数据分析,给出了各个指标的权重,满意度是,准确率是,覆盖率是,实时性是。确定了外生变量:用户个体差异、网站建设。内生变量:信息资源建设如学术网站、期刊杂志、选修综合课。问题二、建立信息推荐模型,对奇异值分解后的矩阵进行降维,构建潜在语义空间。通过计算得出表面上没有关联的关键词和文章之间的相关性达,验证了模型的效绩,并对模型进行了优化,给出了信息聚类图。问题三、提出了我国高等院校教育信息推荐的具体方案。奇异值分解和LSA方法建立信息推荐模型的优势:1、应用条件易得;2、不在局限于计算方阵,可以适用于任意矩阵,更加具有普适意义。3、相比传统向量空间,潜在语义空间的维度更小,语义关系更明确。4、低维空间表示可以刻画同义词,同义词可对应相同或相似的主题。5、降维可去除部分噪声,使特征更明显。关键词:教育信息推荐模型、奇异值分解法、LSA方法、Spearmancoefficient相关系数一、问题的提出1、问题背景:21世纪是信息时代,随着信息技术越来越广泛的应用,互联网已经成为我们日常生活中必不可少的工具,而传统教育体系所暴露出来的弊端也日益明显,例如严重受到地域限制,教育资源分配不均,相互之间交流不够等,为使之适应对教育发展的新要求,建设更好的教育信息平台来满足学生互联网学习的需求,教育体系信息化改革刻不容缓。由于教育信息化表现出快捷高效、节约成本,不受地域时间限制、资源共享,交流开放等优势,所以在教育教学及管理的各个领域都开始推出各种形式的信息教育平台,例如远程教育,网站管理,网课、论坛等很大程度上促进了教育信息化的发展,然而,目前的教育信息体系还是不够完善的,例如信息推荐体系这一块被严重忽略,而现有的推荐体系仍存在推荐准确率不够高,推荐方式单一等一系列的问题,因此建立出合理的数学模型来完善教育信息推荐体系是一项迫切等待解决的工作。2、需要解决的问题:(1)建立信息推荐的指标体系,确定信息推荐的变量(2)建立高等学校信息推荐模型(3)就信息推荐模型设计推荐算法(4)给有关部门写一封信,推介你们的信息推荐模型。二、问题的分析及假设通过读题可知,有效信息推荐是目前教育信息化的重要问题,我们需要明确信息推荐的指标以及其推荐变量,然后为高等院校建立合理有效的信息推荐模型,设计其相应的算法,最后向相关部门推介我们的模型。1、信息推荐的指标体系为了提高信息推荐模型的准确度,我们的评测指标主要有包含以下四个方面的内容:(1)满意度O:即用户的需求被满足的程度。满意度是用户的一种心理状态,它能够反映推荐的信息和用户的期望之间的契合程度,用数学式量化表示如下:O=exp(a1*x1+a2*x2+a3*x3+a4*x4)(其中,x1是下载率、x2是点击率、x3是停留时间、x4是分享率,a1,a2,a3,a4分别是各自的权重,令a1=,a2=,a3=,a4=,这里我们假设用户的行为无出错。)注:O值越大,用户满意度越高。(2)准确率:信息推荐的准确性也是评价此体系的一个重要指标,可以有效的提高用户的搜索效率。我们这里用精确率P和召回率R来评测信息推荐的准确性[1]。假设:系统检索到的相关信息(A)系统检索到的不相关信息(B)相关但是系统没有检索到的信息(C)不相关且没有被系统检索到的信息(D)则:精确率P:P=A/(A+B),0P1召回率R:R=A/(A+C),0R1精确率P越大,说明检索到信息越准确,但检索范围相对较窄;召回率R越大,说明检索到的信息比较全面,但准确度会降低。综合考虑,我们用这两个指标进行调和后的指标F来反映信息推荐的准确率。F=当α=1时,F=注:F越大,准确率越高。(3)覆盖率:信息的覆盖率可以验证资源是否有效的传送给了用户,我们采用信息熵H和基尼系数G来量化这一指标[2]。假设,信息i的流行度是已知的。p(i)=b(i)/∑b(i),H=-∑p(i)logp(i),G=∑(2j-n-1)p(ij)(b(i)为信息i的流行度,ij是按照信息流行度p()从小到大排序的信息列表中的第j条信息)注:H和G越小,覆盖率越高。(4)实时性T:因信息具有更新速度快的特点,所以信息推荐的实时性更显得尤为关键。实时性反映所推荐给用户的信息是否是最新最有参考价值的。T=vff=m/n(v是推荐列表的变化率,m是新信息的数量,n是所有推荐信息的总数量)注:T越大,实时性越高。以上的评测指标可以通过在线或离线来计算。对于以上四个评测指标,我们对不同用户的评测标准进行了问卷调查,通过数据分析,给出了各个指标的权重,满意度是,准确率是,覆盖率是,实时性是。图(一)各指标的平均得分(5分制)图(二)各指标的比例2、信息推荐的变量外生变量:用户个体差异、网站建设用户个体差异:由于用户个人的文化水平,个人喜好,搜索习惯,对搜索内容的熟悉程度等的差异会对教育推荐的指标体系造成一些影响。网站建设:现在的浏览器五花八门、种类繁多,其网站建设质量也良莠不齐,有好多网站为了追求商业利益,更是商业捆绑,推荐一些用户不需要的广告娱乐八卦等垃圾推送信息,有些网站甚至其本身就存在着一些系统漏洞等问题,这无疑对用户高校的获取有用推送信息造成干扰,对教育信息推荐的指标体系造成一定负面影响。内生变量:信息资源建设,如学术网站,期刊杂志,选修综合课(包括校内课程与网络公开课)学术网站:作为用户获取信息的直接来源,其应该保持应有的学术严谨性,直接决定着用户获取信息的满意度、准确率、覆盖率、实时性。对信息推荐体系起这至关重要的作用。期刊杂志:市场上形形色色的期刊杂志百花齐放,竞争激烈,彼此之间也拉开了档次,用户的认可度也在很大程度上受到其知名度的影响,然而,无论是哪个档次的期刊,其收纳的文章都是层次不及的,只是比重有差异罢了,而由于认可度所带来的弊端暴露了出来,例如不能以批判理性的思维去辨别认可度高的期刊,更容易对认可度低的期刊产生偏见。另一方面,当今社会,期刊杂志已经成为了人们茶余饭后,休闲娱乐,候车等人时打发时间的不二之选,而且人们也乐于将自己喜欢的期刊杂志推荐给亲朋好友,或是坚持追某一系列的期刊杂志,所以期刊杂志也是构成信息推荐体系的重要组成部分。选修综合课:选课系统作为高校教务管理系统中必不可少的一部分,然而,选修综合课推荐系统还不够完善,学生很难高效准确的找到与自己的兴趣安好一致的课程,因此加强选修综合管理系统建设,会显着影响到信息推荐体系的评价指标。决策变量:用户需求3、确定主要的信息推荐方式:网络信息推荐。三、模型的建立与求解(一)理论方法介绍1、奇异值分解法[3]特征值分解是一个有效提取矩阵特征的方法,但是它只是对方阵而言的。在现实的世界中,我们看到的大部分矩阵都不是方阵,而奇异值分解法能适用于任意的矩阵。分解方式如下:TVUA(1)假设A是一个n*m的矩阵,那么得到的U是一个n*m的方阵(U里面的向量是正交的,称为左奇异向量),Σ是一个n*m的矩阵(除对角线的元素外都是0,对角线上的元素称为奇异值),VT(V的转置)是一个n*m的矩阵(V里面的向量是正交的,称为右奇异向量),即TnnnmmmnmVUA******(2)在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。所以,我们也可以用前r个奇异值来近似描述矩阵,这里定义一下部分奇异值分解:nrTrrrmnmVUA****(6)r是一个远小于m、n的数,这样矩阵的乘法形式如下:TnrrrrmnmVUA******(7)右边的三个矩阵相乘的结果将会是一个接近于A的矩阵,r越接近于n,相乘的结果越接近于A。2、LSA法[4]LSA(latentsemanticanalysis)潜在语义分析,也被称为LSI(latentsemanticindex),是ScottDeerwester,SusanT.Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型一样使用向量来表示词和文章,并通过向量间的关系(如夹角)来判断词及文档间的关系。(二)模型的建立假设:信息资源系统自动获取。采用奇异值分解法和LSA方法相结合建立模型,以用户查找文章的行为为例,假设用户需求为“文章”,其输入为“关键词”。1、分析关键词与文章之间的关联性,建立关键词-文章矩阵X。假设有m个关键词,n篇文章,X就是一个m*n的矩阵。其中,第i行、第j列的元素是Xij,是第i个词在第j篇文章中出现的次数。下边以m=12,n=9为例:X=观察这个矩阵,第一个词(b1)和第二个词(b2),他们没有在某篇文档中共同现过,他们的关系使用Spearmancoefficient相关系数来计算。具体代码及结果如下:即得到b1和b2的相关系数为,说明它们两者的相关性不大。2.对X进行奇异值分解。分解公式为X=USVT,代码及结果如下:矩阵U的每一行代表的是一个关键词,每一列表示一个语义相近的词类,元素Uij表示的是第i个词和第j个语义的相关性,数值越大越相关。矩阵V的每一行代表一篇文章,每一列表示一个主题,元素Vij表示的是第i个文章和第j个主题的相关性,数值越大越相关。矩阵S表示的是词的语义和文章的主题的相关性,数值越大越相关。因此,通过奇异值分解,我们不但可以得到词的语义分类和文章的分类,而且得到了每个词的语义和文章每个主题之间的相关性。3、对奇异值分解后的矩阵进行降维,构建潜在语义空间。对关联矩阵进行重构,然后选取S矩阵中最大的两个值,作为重构矩阵的条件,即X=U(:,1:2)*S(1:2,1:2)*V(:,1:2)'。U的第一列表示每一个词的出现频繁程度,虽然不是线性的,但是可以认为是一个大概的描述;V的第一行表示每一篇文章中的出现词的个数的近似;S表示的是U和V之间的重要程度,数字越大越重要。形成的潜在语义空间如下:4.计算语义空间的b1和b2的Spearmancoefficient系数代码及结果如下:可以看到b1和b2虽然在原始文章中并没有共同出现,但他们的相关联程度竟然达到了。5、判断是否进行推荐通过上面的分析,我们发现表面上并没有直接联系的关键词和文章可能也存在深层次的关联。因此,我们采用上述模型计算关键词和文章的语义相关系数,通过这个数据对比,来决定文章是否进行推荐。这里,我们设定相关系数大于时,就进行推荐,算法如下:row=size(y,1);%获取重构矩阵的大小x=1:row;num=;z=0;%用来存储相关性大于num的文章所代表的的行号coeff=zeros(1,row);fori=2:rowcoeff(i)=corr(y(1,:)',y(i,:)','type','Spearman');if(coeff(i)num)z=[z,i];endEnd通过这样的选择,就可以得到和第一篇文章相关性较强的文章,而这些文章