第三章考试的质量指标教案(2周)

xaleo
1 ℃
2019-12-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1沈阳大学教案课程名称：英语语言测试技巧编写时间：年月日授课章节第三章考试的质量指标目的要求要求学生掌握衡量考试质量的四个主要指标，运用效度和信度对考试的质量进行分析。要求掌握难度和区分度的计算的方法和影响难度和区分度的主要因素。重点难点效度的概念、效度的分类;信度的概念、影响信度的因素、信度与效度的关系难度的计算方法、影响难度的因素;区分度的计算方法、其与难度之间的关系教案内容：I.教学方法:交际式教学法II.教学过程复习与导入1.讨论题:外语测试有哪些分类？本章导读本章的一些基本概念虽比较抽象，却与提高考试质量有着密不可分的关系。建议学员在学习本章时，结合考试实践展开讨论，这样有助加深对本章的理解。本章是“语言测试”最重要，也是最抽象、难懂的一章，但可以毫不夸张地说，掌握了本章，也就掌握了“语言测试”的精髓。建议学员在这一章多化一些时间，把基本概念梳理清楚。在衡量考试质量的四个主要指标中，效度和信度是最重要的两个指标。要求能够运用这两个概念对日常教学考试的质量进行分析。而难度和区分度则要求掌握计算的方法和影响难度和区分度的主要因素。本章的一些基本概念虽比较抽象，却与提高考试质量有着密不可分的关系。建议学员在学习本章时，结合考试实践展开讨论，这样有助加深对本章的理解。“相关系数”的概念对于加深理解“效度”和“信度”有一定帮助，但不作为必读的材料。练习中的难度和区分度的计算题一定要做，这样可以检验一下是否正确理解了这两个概念和计算公式。本章的一些基本概念虽比较抽象，却与提高考试质量有着密不可分的关系。建议学员在学习本章时，结合考试实践展开讨论，这样有助加深对本章的理解。讲授新课一、效度的概念与分类1）效度的概念考试的效度指的是考试在多大程度上测出预期要测量的东西，或者说考试在多大程度上完成了预期的测量任务，达到了预期测试的目标。效度概念包含了两层含义，一是考试究竟测量的是什么(what)；二是测出的程度有多大(howwell)。例如，我们举行一次英语考试目的是想测定学生使用英语进行交际的能力，那么这次考试Teachingaids:（教学手段）10′60′2的质量高低可以用效度这个指标来衡量，效度高表明：（1）这次考试测量的的确是学生的交际能力，而不是其他东西；（2）这次考试能很好的测出学生的交际能力。如果考试考的不是学生的交际能力，则认为它效度很低。因此，效度也可以理解为从测验的成绩中能作出什么样的推断，它的有效程度如何（《教育评价百科全书》），或根据美国心理学会的定义，效度是一个从测验分数中能恰当地推断出什么结果的问题。效度是一个相对的概念。效度的有效性总是相对于一定的目的、功能和范围而言。对于某一目的是有效的考试，用于另一目的就未必有效。效度相对性的另一层含义是程度的相对性，即效度不是有或无的关系，而只是高低程度上的不同。由于语言能力是一个抽象的概念，我们只能通过测量学生的语言行为，间接地推断出他的能力，因此不可能说一次考试是绝对有效的；另一方面，由于影响语言能力的各种因素是相互联系的，所以不同形式的语言考试总有一定的相关，这也决定了语言考试也不存在绝对无效的情况。根据美国心理学会1974年出版的《教育与心理测验标准》一书，考试的效度可分成三大类：内容效度、结构效度和效标关联效度。严格地说，我们可以从以上三个方面来评估考试效度的高低。2）效度的分类内容效度(ContentValidity)内容效度指考试内容是否真实地代表了它所要测量的内容，或者说，考试的题目在多大程度上能代表它所要测量的目标。它可以从三个方面进行判断：（1）测试内容是否和测试目标有关；（2）测试内容（试题）是否具有代表性；（3）测试内容是否适合测试对象。内容效度对于成绩考试和标准参照考试都具有特别重要的意义。因为成绩考试的用途是测定学生对过去学过的知识和技能实际掌握的程度，因此教学大纲是成绩考试的命题依据；，标准参照考试以原先制订的标准作为评价考试成绩优劣的依据，所以这两类考试都必须重视内容效度。构想效度(ConstructValidity)考试的构想效度指考试实际测得的东西与理论所假设的能力要素或心理特征相吻合的程度。就语言测试而言，构想效度指考试结果能在多大程度上解释人的语言能力及与语言有关的心理特征。如果考试所测得的东西与理论对语言能力的构想相吻合，我们就认为考试有很好的构想效度。我们通过外语考试，除了想了解学生掌握语言知识情况外，最希望了解学生的语言能力和交际能力。能力是一个抽象的概念，我们无法对学生的语言能力进行直接测试，而只能通过测定可以看得见的语言行为，并借助有关的语言学习理论来间接地推断学生的语言能力。这样就存在着考试所测得的结果与理论所构想的能力结构之间是否吻合的问题。由于我们需要借助理论构想来判断考试成绩是否能代表一个人的真实能力，所以构想效度也称理论效度。3构想效度是一个相对的概念，它是相对一定的理论构想而言的。随着语言理论的发展，对构想效度的研究也应不断改进。效标关联效度(Criterion-relatedvalidity)效标是效度标准的简称，是检定考试效度的一个参照物。所谓效标关联效度就是以考试分数与效标分数之间的相关来表示的一种效度，也称为统计效度。效标关联效度表示的是考试与效标之间彼此拟合的程度。根据测验分数和效标分数获得的时间关系，可以将效标关联效度分为预测效度和共时效度。预测效度的考试分数获得在前，效标分数获得在后，这两个分数获得的时间间隔可能数周，数月，甚至数年；而共时效度两个分数几乎可以同时获得。这两种效度的共同之处在于都利用数理统计的方法通过相关系数来表示效度的高低。二、不同的考试对效度的不同要求效度是一个相对的概念，效度的高低是相对一定测试目的而言的，因此不同目的的考试对各类效度的要求也不尽相同，它们之间的关系可以用表3.2表示。表3.1考试类别与效度之间的关系考试类别效度判断标准方法成绩考试水平考试学能考试诊断考试内容效度效标关联效度(预测、共时)构想内容效度大纲将来要从事的任务语言学习理论大纲专家判断相关系数统计法理论判断因素分析专家判断上表所列各类考试和效度之间的关系并不意味着一类考试只需一类效度。对所有考试来说都要注意构想效度。表3.1所列关系只表明各类考试应特别注意的效度。表3.2效度分类及其测试方法类型所要解决的问题方法目的举例内容效度是否考了要考的内容；试题是否有代表性将题目与考试大纲规定的内容作比较检查成绩期中、期末考试、毕业考试构想效度是否与理论构想一致；是否与经验一致与理论、实际经验进行比较对心理特征与能力倾向作检验学能考试预测效度对未来的工作和对比学习前后的选拔分类大学入学考试、4学习做出预测成绩水平考试共时效度对目前的学习成绩做出估计对比考生同时参加的两次考试的成绩建立常模把某一考试和另一标准化考试成绩比较三、信度的概念信度(Reliability)是指考试结果的可靠性和稳定性。所谓考试的信度是指同一个测验（或相等的两个或多个测验）对同一组考生测试两次或多次，其结果的一致性程度。也就是说，考生多次参加某种测验，如果每次得到近乎一样的分数，那么可以认为该测验的信度是高的；如果每次分数忽高忽低，说明该测验可靠性不够、信度低。任何考试只有可靠才能有效。因此信度高是效度高的必要前提。信度通常以两次测验结果的相关系数来表示，称之为信度系数(Coefficientofreliability)。相关的程度越高，信度也越高。信度也可用测量的标准误差表示。凡是测量都会有误差，信度实际上表示的是测量的精度。从理论上讲，每一个考生在测验中所获得的分数都包括两部分，一部分是真分数，它完全由学生的实际语言能力决定的；另一部分是测量误差。这一关系可以表达为：或用图表示为：四、影响信度的因素影响测试信度的因素有很多。在诸多因素中，下列因素对信度有较大影响。1）测验的长度所谓测验的长度就是通常所指的试题的数量。在可能情况下，一次测验的试题越多越好。但一次测验包括的题目太多，考试时间过长会使学生筋疲力尽，结果反5而影响测验的信度。对于年龄较小的学生，应注意保持适当的测验时间，不至于因注意力等心理因素而影响测验的信度。2）考生的能力差异考生的能力越是参差不齐，利用这组考生所计算出来的信度系数就越高。这一情况能很好地说明为什么大规模测试一般更为可靠，因为人数越多，能力差异就越大，从而信度就越高。这也就是为什么我们要求大规模考试的信度应比课堂考试信度高的原因。3）答题时间答题时间必须充裕。如果测验时间不够，考生在规定时间内完不成所有的试题，必然增加他们的紧张情绪，以及猜题、随意答题的可能性。在考试中偶然因素起的作用越大考试的可靠性就越小。4）评分的客观性评分越主观片面，考试的信度越差。评分是否客观是影响信度的一个重要因素。为了提高考试的信度，应该注意主观型试题在试卷中占适当比重，或提高主观型考试的评分客观性。除了上述因素外，还有一些其它因素也能影响测试的可靠性，如考试的环境条件、考生的应试心理等，。为了提高考试信度应注意如下几个方面：1)在许可的情况下，试题的覆盖面要广，题量要尽量大；2)试题的难度要恰当，题目的要求要准确、清楚；3)考试时间应充裕，考试的程序应严格划一；4)评分必须有客观统一标准，尽量提高评分的客观性；5）增强考生对应试环境的适应性，端正考试动机。五、信度与效度的关系（见“术语与难点解释”）六、难度的计算难度(Power或difficulty)指试题的难易程度。表示试题难易度的数量，称为试题的难度指数，一般用P表示。由于试题的记分方法不同，所以难度的估计方法也不同。在外语考试中有两种计算方法：0、1记分（间断记分法）和非0、1记分法（连续记分法）。所谓0、1计分的测验，就是二分记分法的测验，即每题答对给1分，答错给０分。这种记分法只有得分与不得分之分，分数是间断的，用于多项选择题、配对题等客观型试题。非0、1记分法指连续记分法，常用于主观型试题，例如，英语写作题总分为25分，学生的得分可以从０分、1分到25分不等，这种试题的得分是连续的。1）0、1记分法试题的难度估计0、1记分法试题的难度指数的计算一般采用如下公式：6其中：P表示试题的难度指数R表示某题答对的人数N表示考生的总人数2）非0、1记分法的试题难度估计非0、1记分法的试题难度可以用下列公式进行计算：在计算和解释难度指数时应注意如下三点：（1）在计算试题的难度指数时，所选择的考生样本越有代表性，算出的试题难度指数越准确。（2）考生的样本容量不得少于32人。人数过少，计算出的结果误差就比较大。(3)以难度指数作为评估考试质量的依据时，应从试题本身的难度、学生的水平和教学质量等因素全面的考虑问题、分析原因。七、影响难度的因素根据难度的定义，试题的难度应该由试题本身的复杂性所决定，但是根据难度指数的计算公式，一个题目的难度不仅受该题特征的影响，而且是下列三个因素的一个函数，即题目的复杂程度、学生的能力水平及教学质量（是否分析过类似的题目）。首先，题目本身的复杂性决定了题目的难度。但是难度指数是由答对该题的人数占总人数之比表示的，同样一道题目，如果参加考试的人中，能力强的比较多，那么计算出来的难度指数就大，表示题目较易；相反如果能力差的人占考生总数的比例大，计算出的难度指数就小，表示题目较难，因此，目前计算难度指数的方法（或称经典测试理论）难度指数受考生能力的影响。此外，试题难度指数还受第三个因素——教学质量的影响。同样的题目，同样能力的学生，如果教师在教学中讲解过类似题目的解法，学生得分率就高。反映出来的题目难度就小。因此，一个题目的难度指数实际上是题目复杂性、学生水平和教学质量这三者相互作用的一个产物。八、区分度的计算试题的区分度(Discrimination)是指试题区分学生水平的鉴别力。计算试题区7分度的方法很多，最常用的一种方法是用每个试题与试卷总分的相关系数来表示。一个试题的区分度的估计是基于这样的假设：能力强的学生（以考试的总成绩表示）应该比能力差的学生答对该题的比例要大。因此某一试题得分和总分之间的相关性越高，说明区分度越大。