初中生科学探究能力评价的公平性问题研究作者:罗国忠一、引言在国际上,一般把与纸笔测验相对立的评价方式称为表现性评价。科学探究能力的表现性评价主要包括现场观察和工作单。有研究者认为,现场观察和工作单是比纸笔测验更加有效的关于科学探究能力评价的评价方式。然而,一些研究者却从评价的公平性角度来看这个问题,他们认为任何一种评价方式都不具有天然的公平性,不谨慎地使用某种评价方式可能会使某些学生群体处于不利地位。针对科学探究能力评价的公平性问题,即不同学生群体在不同评价方式中的表现差异,国际上一些研究者进行了很多实证研究。这些研究与发现无疑为我们认识科学探究能力评价的公平性问题提供了一个开端,但其中一些矛盾的发现也让我们看到了认识该问题的复杂性,而且这些国际性的研究发现对我国的适切性尚未得知。因此,本研究采用纸笔测验、工作单和现场观察三种方式来评价初三学生的科学探究能力,以进一步研究不同性别、不同认知风格、不同物理成绩的学生群体在这三种评价方式中的表现差异。二、方法(一)被试被试选自广西6所中学的178名初三学生,男女生分别为90名和88名。这些学生在本次测评之前已经有过5次以上较完整的科学探究经历。(二)材料和过程1、物理中考模拟题:采用一套物理中考模拟题集体测试学生的物理成绩,共35道题目,满分100分,要求90分钟内完成。由两位评分老师评分,评分者信度为0.95。测试后把85分以上的学生划为物理成绩高水平学生,共37名;70分至84分的学生划为物理成绩中等水平学生,共102名;70分以下为物理成绩低水平学生,共39名。2、认知风格量表:采用北京师范大学修正的《镶嵌图形测验》量表集体测试学生,18分钟完成。由两位评分老师评分,评分者信度为1.00。经过把学生的所得分数与相应的百分数转换表对照,可直接查出各学生相应的百分数。我们把低于50分的84名学生划为场依存型,分数越低,依存倾向越强;高于50分的94名学生划为场独立型,分数越高,独立性越强。3、纸笔测验:我们从近几年我国各地物理中考科学探究试题中抽样,组成了一套科学探究纸笔测验试题,共35道题目,满分100分。采用集体测试方式,在90分钟内完成。由两位评分老师评分,评分者信度为0.96。4、工作单:工作单包括三个新的探究任务,分别为“拉力与木板的倾角、木块的接触面积有什么关系”,“单摆的周期与单摆长度、质量有什么关系”以及“双锥体向上滚动的距离与槽边夹角、槽边倾角有什么关系”,满分100分。工作单采取集体施测方式,把每个学校的学生都分成两组,分别安排在本校的两个实验室进行。单人单桌,每个学生先后独立完成三个探究任务,同时把探究过程和结果写在工作单上。每个探究活动的时间为30分钟,中间休息10分钟。探究结束后两位评分老师各自独立对工作单进行评分,评分者信度为0.86。5、现场观察:现场观察包括三个新的探究任务,分别为“探究木块被小车撞开的距离与小车高度、斜面倾角的关系”,“探究弹簧振动周期与弹簧长度、钩码质量的关系”以及“探究木块最小的倾倒角度与重心高度、支持面积的关系”,满分100分。现场观察采取个别测试方式,每个学生先后独立完成三个探究任务。每个探究活动的时间为30分钟,中间休息10分钟。每两位评分老师为一组,每组教师自始至终负责一项探究任务的观察、评价。每个教师各自独立观察,即时评分,评分者信度为0.87。最后,把测试所得的数据输入SPSS13.0进行各种平均分差异检验和相关性检验。三、结果(一)不同学生群体在不同评价方式中的得分情况从表1中可以看到,学生在纸笔测验、现场观察、工作单中的表现一般,而且平均分依次递减。另外,不同学生群体在每一种评价方式中的表现也有所不同。首先,测评显示男、女生在三种评价方式中的表现有所不同。尽管在纸笔测验、工作单、现场观察中,男生的平均分都高于女生的平均分,但在纸笔测验中男女生的差异不显著。而在工作单和现场观察这两种评价方式中,男女生的差异都较显著,且后者的差异更为明显。也就是说,在不用动手探究的纸笔测验中,男女生表现相当,但在动手探究的表现性评价中,男生的表现比女生强。其次,不同认知风格的学生在三种评价方式中的表现也不同。在纸笔测验中,场独立型学生的平均分低于场依存型学生的平均分,但差异不显著。在工作单和现场观察这两种评价方式中,场独立型学生的平均分都高于场依存型学生的平均分,而且差异都极其显著。也就是说,在不用动手探究的纸笔测验中,两种认知风格的学生表现相当,但在动手探究的表现性评价中,场独立型学生的表现比场依存型学生好。最后,物理成绩不同的学生在三种评价方式中的表现也不同。在纸笔测验中,物理成绩高、中、低水平学生的平均分依次递减,而且差异极其显著。在工作单和现场观察中,物理成绩高水平学生与物理成绩中水平学生之间、物理成绩高水平学生与物理成绩低水平学生之间的差异极其明显。然而,在工作单评价方式中,尽管物理成绩中水平学生的平均分(64.46)高于物理成绩低水平学生的平均分(61.79),但两者差异不显著;在现场观察中,尽管物理成绩中水平学生的平均分(66.81)高于物理成绩低水平学生的平均分(64.37),但两者差异也不显著。也就是说,物理成绩中、低水平的学生在纸笔测验中的表现有差异,但在表现性评价中的表现却相当。(二)不同评价方式之间的相关性检验为了进一步检验不同评价方式间的相关程度,表2给出了在不同群体学生中两两评价方式间的相关系数。首先,对于纸笔测验和工作单这两种评价方式,男生的得分相关性显著,但女生的得分相关性不显著;场独立型学生的得分相关性显著,但场依存型学生的得分相关性不显著;物理成绩高水平学生的得分相关性极其显著,物理成绩中水平学生的得分相关性显著,但物理成绩低水平学生的得分相关性不显著。其次,对于纸笔测验和现场观察这两种评价方式,男生的得分相关性显著,但女生的得分相关性不显著;场独立型学生的得分相关性显著,但场依存型学生的得分相关性不显著;物理成绩高水平学生的得分相关性极其显著,物理成绩中水平学生的得分相关性显著,但物理成绩低水平学生的得分相关性不显著。最后,对于工作单与现场观察这两种评价方式,男生的得分相关性极其显著,女生的得分相关性也极其显著,但前者的相关系数高于后者;场独立型学生的得分相关性极其显著,场依存型学生的得分相关性也极其显著,但前者的相关系数高于后者;物理成绩高、中、低水平学生的得分相关性极其显著,且相关程度依次递减。总的来说,男、女生得分在不同评价方式之间的相关程度依次递减;场独立型、场依存型学生得分在不同评价方式之间的相关程度依次递减;物理成绩高水平学生、中水平学生、低水平学生的得分在不同评价方式之间的相关程度依次递减。从表2还可以看到,工作单和现场观察之间、纸笔测验和工作单之间、纸笔测验和现场观察之间学生得分的相关程度也依次递减。四、讨论及结论研究发现,各种学生群体在纸笔测验、现场观察、工作单等评价方式中的得分都是依次降低,这与一些研究者(Lawrenz,Huffman,&Welch,2001)的发现不同,后者发现各种学生群体的工作单得分高于纸笔测验的得分。这两个相反的结果可能是由于国情不同而造成的:美国学生动手探究机会更多,在动手探究的工作单评价中理应得分最高,而我国学生对科学探究进行过大量的纸上谈兵式训练,但实际动手探究机会较少,因此在纸笔测验中得分最高,在动手探究的现场观察和工作单评价中得分较低。另外,工作单评价需要学生用文字描述探究过程,而一些学生的文字能力较差,描述过于简略或模糊,损失了一些探究信息,因此在工作单评价中得分较低。研究发现,各类学生群体在纸笔测验和表现性评价中得分的相关性都不显著,而且每种学生群体在纸笔测验和表现性评价中的平均分高低排列不一致,表明纸笔测验和表现性评价不能相互替代。但是,每种学生群体在工作单和现场观察表现性评价中得分相关性极其显著,而且每种学生群体在这两种评价方式中的平均分高低排列很一致,这表明工作单和现场观察这两种评价方式,能够相互替换使用。研究发现,不同性别的学生在三种评价方式中的表现不一致。在纸笔测验中,男女生的表现基本相当;但在工作单和现场观察评价中,男生强于女生,该发现与其他研究者的发现有相异之处,这些不同的发现既可能是性别和评价方式交互的复杂性造成的,也可能是不同研究者采用不同的评价任务造成的,因为有研究者发现科学探究任务有抽样变异性。学生能做好某些探究,未必就能做好另一些探究。研究发现,不同认知风格的学生在三种评价方式中的表现不一致。在纸笔测验中,场依存型学生与场独立型学生表现相当,这与Genzo(1988)的发现基本一致;但在工作单和现场观察中,场独立型学生强于场依存型学生。这是因为场独立型学生具有更强的主动性、独立性,而场依存型学生具有较强的合作性,但比较被动。在纸笔测验中,各道题目之间没有相互联系,其静态性、解析性更适合于场依存型学生,但工作单和现场观察的探究任务都是真实情境中的科学探究,是一个整体的、流动的活动,探究中的决策和行动都需要学生在新情境中作出独立判断,因此更适合场独立型学生。研究发现,不同物理成绩的学生在三种评价方式中的表现不一致。在纸笔测验中,物理成绩高水平、中水平、低水平三类学生的得分差异都达到显著以上。但是,在工作单和现场观察中,尽管中水平学生的平均分高于低水平学生的平均分,但差异不显著。这与其他发现有类似之处,可能是纸笔测验抽象、缺乏趣味性,需要学生凭想象构建探究过程,认知负荷较大,以致学业低水平学生在这种纸上谈兵的探究中表现较差。相反,在工作单和现场观察评价中,学生可以动手探究,这样对激发低水平学生的探究动机更加有效,从而拉近了中、低水平学生之间的差距。综上所述,每种学生群体在工作单和现场观察等评价方式中的表现基本一致,表明不同学生群体与工作单和现场观察没有交互作用,也就是说工作单和现场观察这两种评价方式可以相互替代;但是,每种学生群体在纸笔测验与表现性评价中的表现有差异,表明不同学生群体与纸笔测验和表现性评价有一定的交互作用,也就是说纸笔测验与表现性评价不能相互替代。五、意义我国物理新课程提倡用多种方式评价学生的科学探究能力,此举无疑有助于改变使用单一纸笔测验的现状,但我们也要克服非此即彼的思维模式,避免从一个极端走向另一个极端。从研究看来,纸笔测验、工作单和现场观察的确都不具有天然的公平性,使用某种单一的评价方式都可能会使某些学生处于有利地位,而使另一些学生处于不利地位,因而应该综合采用多种评价方式。但是,在这三种评价方式中,尽管现场观察效度高,但成本也最高,显然难以大规模采用。因此,在我国现实情况下,可以综合采用纸笔测验和工作单两种评价方式,让所有学生都有同等机会公平地展示他们的科学探究能力。