数据挖掘在调串课中的应用研究摘要:针对我校近三年来的调串课情况,应用数据挖掘技术,对海量的教师调串课数据进行分析整理,得出了教师调串课的一般规律,将规律应用在课程编排过程中,解决了资源浪费等问题,取得了良好的效果。关键词:调串课、数据挖掘、决策树、增益率。TheapplicationofdataminingfortransferlessonsZhanglei(TheacademicadministrationofJiamusiUniversityHeiLongjiangprovince)Abstract:Inconnectionwiththesituationoftransferlessonsfornearlythreeyears,usethedatamining,analysisthemananimitydataofteacherswhichtransferlessons,obtainthelawsofteachertransferlessons.usethoselawsincoursearrangingresolvetheproblemsofresourcewasteandgoodeffectivenessisgained.引言日常教学中经常会有教师因为各种各样的问题要求进行调串课,这样不仅打破了正常的教学规律,给日常的课程安排和教学检查带来麻烦,而且造成了很大的人力、教室资源等方面的浪费。如何在教师的基本数据中提取出有用的信息和知识,对潜在的调串课现象进行预处理,减少调串课对正常教学的影响,成为各高校教学管理中亟待解决的问题。但是由于各学校调串课的数据量巨大,仅以我校为例,2009年9月就多达上百份,使用简单的统计学方法无法满足需求,因此,综合本校的具体情况,应用数据挖掘技术中的决策树算法,解决本校调串课所带来的不良影响。由于调串课是比较典型的分类问题,并且某些训练样本可能缺少属性,所以本文使用C4.5决策树模型。一、数据清理教师的调串课基本情况包括如:姓名、性别、年龄、学历等,具体数据情况见表1。(教师姓名为虚构,数据以2008年春季学期部分数据为例。)编号学院姓名性别年龄学历职务是否调串课08090701音乐学院高亮女30本科调课08090702材料学院繁荣女53硕士教研室主任调课08090703人文学院王民女45本科院长调课08090802材料学院杨斌男40硕士教研室主任调课08090804教育科学学院许美女40硕士院长调课外国语学院孟秀女33本科未调课08091102药学院于丽女45硕士副院长调课08071403教育科学学院闫华男29本科调课理学院咸淳男45本科副院长未调课08091406材料学院李博男28本科调课08091701基础医学院刘波男50本科调课信息学院王梅女40硕士未调课08092403生命科学学院董文男41博士教研室主任调课机械学院杨华女26本科未调课国际学院王元男39硕士未调课(表1)由于表中样本存在缺少属性的现象,所以针对不同属性的缺失采用不同的方法进行预处理。如:缺失姓名的样本将直接抛弃,缺失年龄的采用箱平均值平滑法进行处理,缺失学历的直接填充为本科。将无课教师筛选出去计算中不作考虑。二、计算增益率选取属性在决策树建立过程的选择点上,增益率最大的属性是用来进一步细分树结构而选取的属性。属性的增益率计算公式[1]:GainRatio(A)=Gain(A)/SplitInfo(A)Gain的计算公式:Gain(A)=Info(I)-Info(I,A)其中:Info(I)=-1##niinclassiinIlog(##inclassiinI)将I划分为k个结果后Info(I,A)=-1#()#kjinclassjInfoclassjinISplitInfo(A)=-1##log()##kjinclassjinclassjinIinI将(表1)中的除编号外的各个属性分别代入到公式中,其中#inI取为在选定属性下是否调串课的数据总个数,#inclassi(#inclassj)所取的值为调课的数据个数。通过计算机自动计算出每个属性大的增益率。三、构建决策树计算取得增益率之后,根据所得的增益率最高选取该属性作为选定节点构建决策树。构建决策树的算法为[2]:Decision_tree(samples,attr_candidate)将属性设为决策树的点并计为C;ifsamples都在同一类then返回C作为叶节点并计为leaf;ifattr为空then返回C作为叶节点;根据相应策略选择属性attr_candidate;依次测试该选定属性的测试值ia;在符合条件的测试值节点上长出一个条件为test=ia的分支;设is为samples中test=ia的样本集合;ifis为空then加上一个叶子;else通过Decision_tree(is,test)进行构造。其中,C作为表1中具体属性在程序中的变量,ia为每个属性中的测试条件,在具体的情况下ia因属性不同而不同。在我们的研究中需要取得的结果是教师参与调串课,因此我们将本学期有过调串课的教师设为yes,没有过调串课设为No,然后根据计算机得出的属性增益率构建决策树[3],(数据选择为2007-2008年各学期数据进行训练,2009年春季学期所有数据留作检验)完成操作,最终得出如下模型:其中得出院长、副院长均有调串课,这里不再叙述。(图1主任、副主任调串课决策树)(图2无职务教师调串课决策树)根据以上决策树,生成IF…THEN规则:规则1:IF“职务=副院长”THEN该教师可能调串课。规则2:IF“职务=主任、副主任”AND“年龄51岁”AND“学历为学士”THEN该教师可能调串课。无职务教师21-30岁51岁以上No41-50岁学士Yes硕士男女NoYes硕士31-40岁学士Yes男女NoYes硕士学士Yes男女Yes博士YesYes学士硕士学士51岁以上41-50岁31-40岁主任、副主任硕士男女男女NoYesNoYesNoYesYes规则3:IF“职务=主任、副主任”AND“年龄51岁”AND“学历为硕士”AND“性别为女”THEN该教师可能调串课。规则4:IF“无职务教师”AND“年龄51岁”AND“学历为学士”THEN该教师可能调串课。规则5:IF“无职务教师”AND“年龄在21-30岁之间”THEN该教师可能调串课。规则6:IF“无职务教师”AND“年龄31-50岁之间”AND“学历为硕士”AND“性别为女”THEN该教师可能调串课。规则7:IF“学历为博士”THEN该教师可能调串课。四、检验决策树的准确度取得以上规则后,为检测决策树的有效性,我们采用测试数据进行检查,得出如下准确度:(表2)规则准确度规则准确度规则168.82%规则280.34%规则361.33%规则487.30%规则578.56%规则653.21%规则789.21%五、结语使用数据挖掘中决策树算法得出规则之后,在我校新的一轮课程安排时,事先考虑到可能调串课的教师,并作出了充分的准备,在新学期的教学过程中节省了大量的人力物力,经过实际应用取得了良好的效果。参考文献[1]RichardJ.Roiger、MichaelW.Geatz著翁敬农译数据挖掘教程.清华大学出版社,2003.[2]邵峰晶、于忠清.数据挖掘原理与算法.中国水利水电出版社,2003.[3]JiaweiHan、MichelineKamber著范明、孟小峰等译.数据挖掘概念与技术.机械工业出版社,2001.