SPSS在英语试卷统计分析中的应用刘宝权席仲恩上海外国语大学研究生部,上海200083摘要:本文旨在通过演示,使没有系统学过教育统计学的外语研究者和广大外语教师能够借助SPSS对日常考试试卷进行必要的分析。重点介绍SPSS在项目分析和试卷整体定量统计分析中的应用,包括原始数据的输入、项目难度、项目区分度以及试卷信度内容,以消除外语研究者及广大外语教师对于试卷定量分析的神秘感和恐惧感,从而使我们的学校考试或者课堂考试更科学,更好地服务于外语教学,最终大面积地提高我国的外语教学质量和效率。关键词:SPSS;英语试卷分析;项目分析;信度分析AnalyzingEnglishLanguageTestwithSPSSLIUBao-quan,XIZhong-enGraduateSchool,ShanghaiInternationalStudiesUniversityAbstract:Thispaperdemonstratestotheforeignlanguageresearchersandteachershowthey,whohavehadnosystematictrainingineducationalstatistics,cananalyzetheirclassroomorschool-basedtestswithSPSS.Astep-by-stepapproachistaken,startingfromvariabledefinition,inputtingdata,analysistounderstandingtheresult.OurfocusisontheinterpretationofSPSSprintoutconcerningitemdifficultyanditemdiscrimination.Ouraimistodemystifyquantitativeitemandtestanalysisforhumanistic-mindedforeignlanguageteacherssoastomakeitpossibleforthemtomakeclassroomtestandschool-basedtestmorescientificandbetterserveforeignlanguageeducation.Ultimately,thequalityandefficiencyofforeignlanguageteachinginChinawillbeimproved.Keywords:SPSS;AnalysisofEnglishTest;ItemAnalysis;ReliabilityStudy1引言测试既是教育系统的有机组成部分,又是教育系统中不可缺少的“魔鬼”。然而,显而易见,在当今社会教育资源相对落后的现实情况下,谁掌握着测试,谁就掌握着学校的课程安排和教学情景。于是,怎样驯服测试这个“魔鬼”,让其更好地服务于我们的教育和社会,就是一个摆在每一位政治家和教育工作者面前的既现实而又棘手的问题。由于测试目标的隐蔽性、模糊性以及对于测量对象测量的不完备性,使得测试工具(即考试试卷)的开发/制作、分析评价以及测量结果的报道不得不依赖一定的统计学理论。于是,就给测试涂上了一层神秘的色彩,使得一般的教师——特别是外语老师——对科学的测试理论望而却步。一方面,由于几乎完全凭借自己的经验出题而不能保证试卷应有的质量,对学生有欠公正;另一方面,由于缺乏必要的简单统计知识,使考试结果中蕴藏的大量信息白白浪费,或者对考试结果做出不够正确的解释。本文的目的就是帮助广大的外语教学研究者和工作在教学第一线的外语教师消除对于测试,特别是对于试卷定量分析的神秘感和恐惧感,使最广大的外语教学研究者和老师了解、并进而掌握试卷的定量分析技术,提高自己的课堂考试试卷的质量,增强科学解释考试结果以及从考试结果中提取有用信息的能力。SPSS是一种在世界社会科学范围内应用最为广泛的统计软件之一,其界面的友好性和操作的简便性,使得它备受广大社会科学工作者的青睐。因此,本文拟运用SPSS软件,对一份想象的客观考试试卷进行全程定量分析和评价,包括数据输入、项目分析和整卷分析等,目的是让有意学习试卷定量分析的读者,按照本文中的操作示例学会对自己的试卷进行独立分析,至于这份微型试卷的具体质量并没有任何实际意义。我们假定读者已经熟悉Windows95及以上版本操作系统和Word字处理软件以及EXCEL统计软件的界面及其操作。2具体操作2.1数据输入本文中,我们假定试卷中的所有题目都是多项选择题或者有具体唯一客观答案的填空题,并假定每道题都被赋予相同的分数值,这样,答对一道题计1分,答错一道题计0分。于是,我们的原始数据就都是0、1数据。象启动Word一样启动SPSS,于是我们就进入SPSS的数据编辑器界面,如图1所示。SPSS的数据编辑器界面酷似EXCEL的界面。当看到SPSSprocessorisready(SPSS处理器已经就绪)字样时,说明启动成功。这时便可以命名并定义变量。用鼠标左键单击数据编辑器下方的VariableView(变量表)字样,就进入变量命名及定义界面。在第一列输入变量名:在第一行的第一个单元格中输入“姓名”,在第二行的第一格输入第一个题目名(本文用v1),余此类推。单击第二列的相应单元格,选择适当的变量类型,和学生名字或者代号对应的变量类型为String(字符串),和题目名对应的为Numeric(数值类型)。第三列可以不管,第四列Decimals(小数点后的位数)选择0。最后一列Measure(量表水平),对应于学生姓名的选择Nominal(称名),对应于题目的选Scale(规度)。其余均用SPSS的默认值。变量一一定义完毕,左键点击下面的DataView(数据),返回数据编辑器界面,开始输入数据。输入数据时,第一列输入考生的名字或者编号,从第二列起直接输入题目成绩,以后依次每列输入一个题目的成绩,答对这个题目输入1,答错输入0。为了方便,本文假定考生的人数为22,题目(词汇)的个数为20。实际分析题目时,学生的人数一般要远远多于22人,题目的个数也多于20个。我们的原始数据表如图1。图1.SPSS原始数据表2.2试卷分析2.2.1试卷分析的操作步骤原始数据准备就绪后,我们便可以进行项目(题目)分析。左键单击数据编辑器上面菜单栏的Analyze(分析),将鼠标移动到下拉菜单的Scale(量表)处,左键单击更下一级菜单的ReliabilityAnalysis(信度分析),进入项目分析和信度分析对话框。在左框中选中要进入分析的项目(本例为v1—v20),左键单击左右框之间的箭头,将选中的项目移至右边的框中。左键单击右框下面的Statistic(统计)钮,进入项目及试卷统计对话框。选中其中的Item,Scale,Scaleifitemdeleted,Means,Variance,左键单击Continue钮,返回项目分析和信度分析对话框。左键单击OK钮,计算机就完成了所有的项目和信度分析。其输出结果如下。剩下的工作就是解释分析结果,提取必要的信息。2.2.2试卷分析结果的解读用SPSS进行试卷分析,一次性可以提供大量的信息。下面,我们逐个解读几个分析结果输出表。图2.项目难度分析结果RELIABILITYANALYSIS-SCALE(ALPHA)MeanStdDevCases1.V1.2273.428922.02.V2.5909.503222.03.V3.3182.476722.04.V4.6818.476722.05.V5.6364.492422.06.V6.5000.511822.07.V7.4091.503222.08.V8.4545.509622.09.V9.3182.476722.010.V10.2727.455822.011.V11.6364.492422.012.V12.5000.511822.013.V13.0909.294222.014.V14.5000.511822.015.V15.1364.351322.016.V16.5909.503222.017.V17.5455.509622.018.V18.1364.351322.019.V19.4545.509622.020.V20.1818.394822.0图2向我们提供的是项目难度(也就是通常所说的p)的信息。第一列是项目的序号,第二列是项目的名称,第三列(Mean)就是项目的难度(实际上是易度),第四列是项目的标准差,第五列是考生的人数。这里,我们只需要第三列----项目的难度就可以了。对于四选一的项目,其难度取值一般在0.475-0.85之间。低于0.475和高于0.85的题目一般认为不合适,应舍弃。图3.试卷统计结果StatisticsforMeanVarianceStdDevNofVariablesSCALE8.18187.58442.754020图3向我们提供的是整卷的总结信息。也就是说,这22个考生的平均分为8.1818,他们分数分布的标准差为2.7540,这份试卷由20个项目组成。如果我们用这份试卷测量任何一组和这22个考生能力分布一样的其他考生,得到的结果也应该是这样。值得注意的是,在项目分析阶段,试卷的统计结果是没有多大意义和用处的,因此可以忽略。但是,如果是用通过分析筛选过的合格项目构成的试卷做施测前的试测,则这部分关于整卷的总结信息就至关重要了。图4.项目区分度及试卷的信度RELIABILITYANALYSIS-SCALE(ALPHA)Item-totalStatisticsScaleScaleCorrectedMeanVarianceItem-AlphaifItemifItemTotalifItemDeletedDeletedCorrelationDeletedV17.95458.0455-.2651.5061V27.59097.6818-.1257.4896V37.86366.5996.3093.3926V47.50006.5476.3318.3873V57.54557.0216.1228.4347V67.68186.4177.3489.3795V77.77277.2316.0368.4543V87.72737.3506-.0094.4650V97.86367.5519-.0743.4762V107.90917.2294.0600.4475V117.54556.1645.4816.3484V127.68186.7987.1963.4174V138.09097.6104-.0693.4611V147.68186.7987.1963.4174V158.04557.8550-.2001.4846V167.59097.3009.0111.4600V177.63646.6234.2673.4001V188.04557.1883.1448.4316V197.72736.0173.5229.3341V208.00006.8571.2764.4065ReliabilityCoefficientsNofCases=22.0NofItems=20Alpha=.4458图4向我们提供项目区分度的各种信息和试卷的信度信息。第一列是项目名称,第二、三、四、五列全部是关于项目区分度的信息。通常,我们根据第四列判断项目区分度的优劣。具体的标准要根据考试的重要性决定。如果是非常重要的考试,例如高考和硕士入学考试,一个合格的项目,其区分度不应该低于0.3,最好在0.4以上。如果是一般的考试,区分度也不应该低于0.2。如果我们的标准定为0.4,根据我们的分析结果,只有v11和v19两个项目合格,其余都不合格,因此应该淘汰,不能进入正式的试卷。图4下面提供的便是试卷的信度信息。一般说来,在项目分析阶段,信度信息自身是没有多大用处的,可以不去理会它。因为,项目分析的目的是选出优秀的项目,剔除不合格的项目。如果我们经过多次的项目分析,将每一次选择的合格项目连同它们的难度和区分度参数(即