物理教学测量与评价一、测量与评价的概念二、测量与评价的内容和方法三、编制测验的基本步骤四、测量数据的初步处理五、测量的质量分析与评价六、物理教师的评价七、物理观摩课的评议八、高中物理模块终结性考试教育部课程中心“新思考”网“学业成绩评价网站”评价理论探讨学业评价过程性评价评价论坛=15评价博客考试改革……高凌飚教授谈“高考采用原始分和标准分的利弊分析”本科毕业论文张军朋(学业成绩评价)例:新课程下物理教师的考试命题技能研究詹伟琴(教育测量与评价选修课)例:高中学生物理探究性学习过程的评价例:物理第二课堂的表现性评价的探讨王笑君(如何利用网络资源来做评价?)例:电子成长档案袋一、有关测量评价的一些基本问题测量:依据一定的法则,对事物及其属性用数字或符号加以确定的过程。1.什么是测量2.测量的要素任何一个测量都包括三个要素:(1)事物及其属性——测量的对象或目标。(2)法则——在测量时,给事物及其属性指派数字的依据。(3)数字或符号——测量结果的数学表述数字或符号仅代表某一事物或事物的某一属性,只有当我们赋予它以意义时,在一定条件下,它才具有量的特性。数字系统的特性:区分性,序列性,等距性,可加性注意:数字所代表的事物的某一属性是否也具有同样的性质呢?只能根据事物本身所有的特性来使用数字系统的某此性质。(1)等值单位(2)参照点(3)准确性和可靠性(量表)根据一定的客观标准,运用各种手段和统计方法,对某个学科领域内的事物或现象进行严格考核,并依一定的规则对考核的结果予以数量化描述的过程。(1)间接性:不可消除的系统误差(2)随机性:不可避免的随机误差(3)相对性:结果只能提供一种顺序关系(4)目的性:明确的目的指向性4.教学测量的特点3.测量的条件二、常见的测量方法观察法:个人等级水平(兴趣,态度,思想行为表现)——评定量表月晕效应(HalloEffect)又称晕轮效应,意即当人们看到月亮的同时,周边的光环也会被注意到;当一个人的“印象确立”之后,人们就会自动“印象概推”将第一印象的认知与对方的言行联想在一起。用在管理学上指上司在考核员工时,只根据某些工作表现(好的或坏的)来类推做为全面评核的依据1.观察法教育调查法(表格法,问卷法,谈话法,个案调查法):集体等级水平着重描述现有事件和现象,在自然的条件下,收集有关资料。例:广东省三水地区初中物理学习方式的调查报告新课程背景下职前物理教师专业素养调研广州大学城教育资源共享研究广东高校集邮活动状况调查2.教育调查法最常用的评价方法。课程改革提出要改变以知识记忆为主、脱离实际的书面测验内容和方法,试题要努力创设引起学生兴趣和联系实际的情境,加强试题的综合性、探究性和开放性。试卷是测量的最基本工具考查目标的确定试卷的编制施测评分分数的解释3.书面测验三、教育测验的种类按目标分类:学业成就测验智力成就测验能力倾向人格测验与个性倾向创造力测量按时机分类:准备性(诊断性)形成性终结性按对测量结果的评价标准分类:(定量)常模参量(排名次)以学生团体的平均分作参照物目标参量(评等级)以课程标准规定的教学目标作为参照物按试题的提供者分:自编测验标准化考试背景:看到孩子成绩单上的数学测验成绩为82分,语文测验成绩为70分,父母们对此是如何评价的?某学校的负责人在学期结束时的总结会上对某学科教师说他的教学效果不好,其依据是该学期学生在此学科上的考试平均成绩低于其他学科。有老师对学生说,你上次数学测验的的成绩是78分,这一次测验只得了71分,你为什么退步了。在教育测量学中,测验直接得到的分数称为“原始分数”,各次测验所得的“原始分数”是不宜直接比较的,更不能由此得出孰优孰劣的结论。为什么不能用原始分数直接进行比较?原始分数的两个主要缺陷:原始分数的起点0是没有明确意义的学科知识测验得0分并不代表该学生一点知识都不掌握80分只能说明他在此次测验中答对了80%左右的测题内容分数并不能确切说明考生对知识掌握了多少测验分数单位的大小无法固定,即不同次测验的每“1”分的价值不同。一个完整的教育测量过程,最后一个步骤是对测验分数进行转化、解释。要正确的解释、评价和使用测验的分数,必须借助于某种参照标准才能解释测验分数的含义,从而作出正确的评价。参照测验的常模资料对被试的测验结果进行解释和评价是最常用的方法。例:甲乙丙丁四人在某次语文考试中的得分为:72、60、48、90分,全班的平均成绩为60分,标准差为12分。求四人的标准分数?某校高二学生期末语文、数学、英语成绩的平均数是80、70、85分,标准差分别是10、15、12分。某学生的三科成绩分别是85、82、90分,问该生三科成绩哪一科最好?5.2126009112608401260061126072丁丙乙甲ZZZZ英语数英数语ZZZZZZ42.01285900.81570825.0100858标准分数Z的性质和特点1.Z0表示测验成绩在平均数之上,Z0表示测验成绩在平均数之下,Z=0表示测验成绩与平均数相等。2.标准分数Z的取值范围在-3到+3之间,Z分数的意义可以用正态分布曲线下的面积比例作出最好的解释。34.13%34.13%13.59%2.14%720.13%13.59%2.14%0.13%48平均分6096842436例:平均分=60标准差=12标准分数的线性转换:ZTOEFLZEPTZCEEBZTTTZbabZaT70500420903100500210501,托福考试:美国教育测验中心举办水平考试:为出国人员举行的英语分数:美国大学入学考试报告分数:教育与心理测量中的常见的有如下几种:为线性变换分数为标准分数,为常数,标准分数常模的建立方法:所谓标准分数常模,即通过上述公式在原始分数序列和标准分数序列之间或者与标准分数之间,建立起对应关系,从而形成某种测验的标准分数常模,以便解释其他分数。iXiZiT原始分量表分(T=50+10Z)原始分量表分(T=50+10Z)1006970609066605780635054标准分数常模示例标准分数在我国高考中的试点应用现状:两种分数制度原始分数制度高考标准分制度原因高考标准化的重要环节高考中使用原始分数的局限性不能反映考试分数相对于团体的位置信息不同科目/同科不同次考试之间分数可比性差高考标准分制度:是根据教育统计、教育测量、教育评价等科学原理,按照一定规则把原始分数转化为具有相同意义、相同单位和共同参照点并能刻画考试分数在总体中位置的分数制度。由常模量表分数(包括全国常模和省常模)、等值量表分数组成。能准确刻画考生成绩在总体中的位置,使不同学科的成绩能够进行比较学科语文数学外语物理化学综合分标准分591732662681581694百分等级81.998.894.796.579.197.4高考成绩通知单四、良好测验的特征1、测验的科学性可靠性(信度):刚性的尺子多次测量所得成绩的一致性程度有效性(效度):我要考的正是我要所获得的吗?如何保证:列双向细目表1、试卷内容的覆盖面如何?2、各级行为目标所占的分数比例是否恰当?3、各个题目的内容是否合理?是否与要求相符?实用性(难度,区分度)难度(1)用试题的答对率(或通过率)计算难度(2)用考生答对某题的百分比表示难度(3)用“两端分组法”估计试题的难度首先把考生的总分进行由高分到低分的排列;其次从最高分开始向下取27%的考生作为高分组,从最低分开始向上取27%的考生作为低分组;然后计算高分组答对该题的百分比PH,低分组答对该题的百分比PL;1.什么是试题的难度难度是指测验试题的难易程度,它是试题对学生的知识和能力水平的适合程度的质量指标。表示难度的数量指标叫做难度指数,用P表示。难度只具有统计意义。2.估计难度的方法①考查知识点的多少。②考查能力的复杂程度或层次的高低。③考生对题目(或内容)的熟悉程度。④命题的技巧性(题目中的信息与干扰)。另外,试题的难度与学生的素质(知识、能力水平)有关。最后由下式计算该题的难度。P=3.评判试题难易的一般标准4.影响难度的因素评判等级难较难一般较易易难度指数0.00--0.190.20—0.290.30—0.590.60—0.790.80—1.002LHPP区分度1.什么是区分度试题的区分度是指试题对不同知识和能力水平的考生的区分程度和鉴别能力2.用“两端分组法”计算试题的区分度D=PH-PL式中,D称为区分度指数。-1≤D≤+1。当D=+1时,表示高分组全部答对,而低分组全部答错;反之,D=-1;若两组答对的百分比相同,则D=0。3.评价标准区分度指数D评价0.40以上非常良好0.30—0.39良好,如能改进更好0.20—0.29尚可,用时需作改进0.19以下必须淘汰或加以修改,以提高区分2、自编测验题的基本步骤1、确定测验目的与目标测量什么,以及测量到什么程度,即要确定测量的内容范围和能力要求。2、编制双向细目表3、定题型主观题(自由应答型),客观题(固定应答型)4、定试题总数:视题型,时间,学生水平而定5、试题难度目标--难:中:易=1.5:2.5:6常模---难:中:易=2:5:36、试题编排作答,得分说明,易→难,同类型(主客)的组合一般应有正题、副题以及补考题等,几份试卷要等价平行。7、试答8、编制标准答案,规定评分标准布卢姆的“教育目标分类学认知领域主要分类”识记:对知识的简单回忆理解:把握教材的意义(解释与翻译)应用:在特殊情况下使用概念和原则分析:区分和了解事物的内部联系综合:把思想重新组合为一种新的完整的思想,产生新的结构评价:根据内容的证据或外部的标准作出判断五、测验数据的初步处理(一)次数分布表对一批数据按一定的次序排列并加以分组,编成反映这群数据在各组上出现次数的统计表格,就是次数分布表。(二)统计的特征量数1.集中量数:平均数2.差异量数:标准差标准分Z:一标准差为单位,表示一个分数在团体中所处相对位置的一个量数niixxn12)(1SXXS=Z=两列数据协同变化,但之间又不存在严格的线性或比例关系的情况,为了表示这两列数据之间协同变化的程度,引入相关量数。常用的相关量数:积差相关量数、点二列相关量数、等级相关量数。(相关量数的算法不做考试要求,但本科毕业论文要做统计调查类的同学需要掌握,会用到相关量数的计算)3.相关量数六、什么是评价评价:对测量结果的价值判断教学评价:依据教学目标,通过系统地收集和处理教学信息,对教学活动地过程和成就进行价值判断的过程,并为改进教学实践活动提供参考。测评是从特定的目的出发,根据一定的标准,通过特定的程序对已经完成或正在从事的工作(或学习)进行检测,找出反映工作(或学习)进程的质量或成果的水平的资料或数据,从而对工作(或学习)的质量或成果的水平做出合理的判断或解释。测验结果的解释1、原始分2、平均分(集中量数)3、标准差(差异量数)4、标准分(Z分数)5、T分数评价的价值取向(是建立在客观描述基础上的主观活动)甲乙平均数标准差858970107062655687269853405067287758348350(原始总分)750655(T分数)T=10Z+50我坦白告诉你们,其实前200名学生都没有什么差别,前200名跟前10名没有什么差别。你要换一套卷子的话,排序就变了。高考状元是偶然性造成的。对于我们学校,能招前200名的学生就行了。——中国人民大学校长纪宝成对社会过分热捧高考状元的现象作如此回应。高凌飚教授的博客