基于机器学习的学生成绩预测及教学启示

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

收稿日期:2018-02-07摇摇摇摇摇摇修回日期:2018-06-14摇摇摇摇摇摇网络出版时间:2018-12-20基金项目:上海市教育科学研究项目(C17014/17AR04);上海电机学院重点教研教改项目(A1-0224-17-009-05);上海电机学院计算机科学与技术优势学科(16YSXK04)作者简介:吕摇品(1973-),女,副教授,博士,CCF会员(60050M),研究方向为数据挖掘、情感分析。网络出版地址:基于机器学习的学生成绩预测及教学启示吕摇品,于文兵,汪摇鑫,计春雷(上海电机学院,上海201306)摘摇要:利用学习分析技术挖掘在线学习特征是理解与优化教学过程、实现教学决策和学业预警的重要依据。在采集在线学习者的人口统计信息、学习背景、家长参与以及学习者的行为特征等信息的基础上,首先使用感知机、支持向量机和神经网络等分类算法,分别构造了不同的学习成绩预测模型;通过比较模型的准确度、召回率、F值,误分类样本数量和精确度,最终选择基于支持向量机的成绩预测模型。其次,通过分析模型参数,得出了影响学习成绩的主要因素是学习者参与小组讨论、课堂举手、访问与课程相关资源以及浏览通告等学习者行为特征的结论。最后,提出教师应该关注学生的学习行为特征,合理运用价值动机理论和内隐智力信念调节机制,激发学生的学习投入和学习动力的教学启示。关键词:教育数据挖掘;感知机;支持向量机;神经网络;学习成绩预测;教学启示中图分类号:TP39摇摇摇摇摇摇摇文献标识码:A摇摇摇摇摇摇文章编号:1673-629X(2019)04-0200-04doi:10.3969/j.issn.1673-629X.2019.04.040Students爷PerformancesPredictionandTeachingCogitationBasedonMachineLearningLYUPin,YUWen-bing,WANGXin,JIChun-lei(ShanghaiDianjiUniversity,Shanghai201306,China)Abstract:Theuseoflearninganalytictechnologiestomineonlinelearningfeaturesisanimportantbasisforunderstandingandoptimizingtheteachingprocess,realizingteachingdecisionsandlearningearlywarning.Onthebasisofcollectingonlinelearners爷demographicin鄄formation,learningbackground,parents爷participationandlearners爷behaviorcharacteristics,wefirstlyconstructdifferentlearningper鄄formancepredictionmodelsbyperceptron,supportvectormachineandneuralnetwork.Bycomparingtheprecision,recall,F-score,thenumberofmisclassifiedsamplesandaccuracyofthesemodels,thesupportvectormachineisselectedasthefinalperformancepredictionmodel.Secondly,itisconcludedthatlearners爷participationingroupdiscussions,raisinghandsinclass,accesstocourse-relatedre鄄sourcesandbrowsingnoticesarethemainfactorsaffectingtheiracademicperformance.Finally,itissuggestedthatteachersshouldpaycloseattentiontothecharacteristicsofstudents爷learningbehavior,rationallyapplythetheoryofvaluemotivationandthemechanismofimplicitintelligencebelieftostimulatestudents爷learningengagementandimpetus.Keywords:educationdatamining;perception;supportvectormachine;neuralnetwork;performanceprediction;teachingcogitation0摇引摇言随着数据科学的快速发展,越来越多的教育研究者开始将目光聚焦于教育数据的挖掘分析[1-3]。目的是利用挖掘得到的结果帮助教师改进教学方法,帮助学生改善学习过程,帮助教育管理者们优化管理决策。而实现教育数据挖掘的重要技术支撑是机器学习算法。研究者们通常利用决策树分析学生的在线学习数据,并以此预测学生的期末考试成绩[4];利用朴素贝叶斯算法分析学生入学申请背景,帮助教育机构预测学生的累计平均绩点[5]。尽管这些研究在一定程度上实现了学习期预警的作用,但是,它们关注的重点是学生的到课率和作业提交情况等,忽视了影响学习成绩的其他行为特征,如学生在课堂上是否积极举手、积极参与讨论以及关注与该课程相关信息等。因此,有必要在学习成绩预测研究中深入研究这些行为特征,分析它们对学习成绩的影响,以提高学习成绩预测的应用价值。第29卷摇第4期2019年4月摇摇摇摇摇摇摇摇摇摇计算机技术与发展COMPUTERTECHNOLOGYANDDEVELOPMENT摇摇摇摇摇摇摇摇摇摇Vol.29摇No.4Apr.摇20191摇研究对象与研究步骤1.1摇研究对象文中利用学生活动跟踪工具xAPI,从Kalboard360[4]学习管理系统中收集了某国际学校高一年级学生春季和秋季2个学期的学习数据,共480个样本。其中,春季学期245名学生,秋季学期235名学生。研究目的旨在通过构建学生学习成绩预测模型,挖掘分析影响学生成绩的关键因素,试图结合挖掘得到的结果提出可操作性的教学策略。Kalboard360学习管理系统是一个基于云平台的学习管理系统,由Nidalkhalifeh设计,其应用遍布世界50多个国家[4]。它的核心特征是内嵌了教室管理系统,使得学生可以通过各种移动设备来体验教室内外的学习环境,真正实现了BYOD(bringyourownde鄄vice)的学习理念。此外,教师,学生家长,教育管理者也可通过合适的接口连接到Kalboard360,使得学生的学习成为一个真正的整体过程。在研究的480名学生的样本数据中,每个样本具有16个特征。这些特征分为四类:人口特征,如性别,国籍,出生地和父母对孩子的监管,等等;学习背景特征,如教育阶段,成绩(90-100分的成绩类别为优,用H表示;70-89分的成绩类别为中,用M表示;60-69分的成绩类别为差,用L表示),年级,上课地点,学期,科目,缺勤天数,等等;家长的行为特征,如父母回答调查、父母对学校的满意度等;学生的行为特征,如课堂举手、参与小组讨论、访问资源和浏览通告等。学生的行为特征描述了学生在学习过程中的参与情况。1.2摇研究步骤文中的研究步骤主要包括数据采集、数据预处理、模型构建、模型评价以及模型分析等。数据采集阶段,利用xAPI接口,收集480名学生在Kalboard360学习管理系统中春季和秋季2个学期的学习数据;数据预处理阶段,首先分析原始数据的特征,以获得有利于提高模型分类性能的特征子集,其次处理数据集中的异常值,最终得到可用于构建模型的数据集;模型构建阶段,在经过数据预处理阶段后得到的数据集上训练各种机器学习算法,得到各种预测模型;模型评价阶段,基于评价标准选择性能最优的模型;模型分析阶段,从教育的角度解释模型参数的含义,为教师改进教学方法提供参考。2摇数据预处理2.1摇原始特征分析许多特征(学生的性别/父母的受教育程度/父母对孩子的监管/学生的学习行为)对学生的学习成绩都有影响[6-14]。为了对原始特征进行筛选,利用可视化方法分别分析了每一特征与学习成绩的关系。得到了缺勤天数、学生的监护人、参与小组讨论、课堂举手、访问课程资源以及浏览与该课程相关通告等特征与学习成绩具有清晰模式的结论。为了从理论上进一步验证这些行为特征对学习成绩的影响,继续利用特征选取方法对16个原始特征进行了重要性排序。2.2摇特征选取特征选取的目的是从理论角度分析各个特征的有效性,并选择最有代表性、分类性能最好的特征子集来有效地描述输入数据,是构建预测模型之前的一项重要任务。常用的特征选取方法有2类:基于过滤的方法和基于包装的方法。由于包装方法的性能优于过滤方法,因此文中选用了基于包装的特征选取方法—XGB算法(extremegradientboosting)分析了原始特征重要性的排序情况。分析特征选取的结果发现:学生参与课堂讨论、访问课程资源、课堂举手以及浏览与课程相关的通告是最重要的4个特征,其次是学生学习的科目、学生所处的教育阶段、家长对学校的满意程度以及学生缺勤次数。由于文中研究的焦点是研究学生的行为特征对学习成绩的影响,因此,结合原始特征分析的结果与特征选取的结果,从16个原始特征中选取了参与小组讨论、访问课程资源、课堂举手、浏览与课程相关的通告、性别、监护人以及缺勤天数这7个特征构成的特征子集用于构建学习成绩预测模型。尽管父母的满意度、学生所处的教育阶段以及学习科目这3个特征也比较重要,但是,由于它们并没有包含学生在课堂上的任何行为信息,因此,构建模型时不予考虑。3摇成绩预测模型构建基于预处理后的数据集,采用10折交叉验证的形式,分别采用感知机、支持向量机和神经网络构造了3种成绩预测模型。实验运行的环境为:Windows8.1专业版、Python3.6、Inteli54210-U以及8G内存。其中,在训练阶段,感知机使用随机梯度下降算法估计参数;支持向量机的分类决策函数使用高斯核;使用误差逆传播算法训练网络。在测试阶段,利用训练阶段得到的模型对测试集中的数据进行预测。10次预测得到的性能评估值的均值如表1和表2所示。使用的性能评价标准为正确率、召回率、F值、精确度以及误分类样本个数。正确率是指预测为某一类别的样本中真正属于该类别的样本的比例;召回率是指预测为某一类别的真实类别占所有真实类别的比例;F值是指正确率与召回率的调和平均值;精确度是预测正确的样本占所有样本的比例。·102·摇第4期摇摇摇摇摇摇摇摇摇摇摇摇吕摇品等:基于机器学习的学生成绩预测及教学启示表1摇三种模型的正确率、召回率与F值的对比成绩正确率召回率F值感知机支持向量机神经网络感知机支持向量机神经网络感知机支持向量机神经网络H(好)0.400.720.630.260.460.490.310.560.55M(中)0.590.690.430.580.830.040.590.760.08L(差)0.680.850.301.000.850.940.810.850.45摇摇表2摇三种模型的精确度与误分类样本数量的对比指标感知机支持向量机神经网络误分类的样本数量593852精确度0.590.740.67摇摇在以上三种算法构建的模型中,除了基于神经网络的成绩预测模型在H类别上的召回率上稍高于支持向量机,基于感知机的成绩预测模型在L类别上的召回率上稍高于支持向量机之外,基于支持向量机的成绩预测模型在三种类别上的正确率、F值均最高。此外,在三种成绩预测模型中,利用支持向量机构建的模型误分类样本数量最少,预测的精确度最高。因此,文中选择支持向量机构建成绩预测模型,

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功