西南大学研究生课程考试答卷纸考试科目教育测量与评价院、所、中心外国语学院专业或专业领域研究方向级别学年2013-2014学年学期2014年秋季学期姓名学号类别③(①全日制博士②全日制硕士③教育硕士④高师硕士⑤工程硕士⑥农推硕士⑦兽医硕士⑧进修)2014年7月18日研究生院(筹)制课程类别课程考试方式题号得分教师评价一二三四五六七八九十总分任课教师签名:备注:成绩评定以百分制或等级制评分,每份试卷均应标明课程类别(①必修课②选修课③同等学力补修课)与考核方式(①闭卷笔试②口试③开卷笔试④课程论文)。课程论文应给出评语。西南大学外国语学院免师教育硕士2014级“学科(英语)教育测量与评价”课程作业要求:保留原题题干及数据,然后在其下面插入空白来呈现答案。不得篡改问题或者数据。在编辑将要提交的作业的Word文件时,需确保欲呈现的内容能被打印出来。一、简答题(50分)1.测量的基本要素有哪些?(1分)答:测量的量具、测量的单位和测量的参照点是测量的三个基本要素。2.什么是教育测量?(1分)答:教育测量就是针对学校教育影响下学生各方面的发展,侧重从量的规定性上予以确定和描述的过程。3.教育测量有哪些量表类型?(1分)答:有称名量表、顺序量表、等距量表和比率量表。4.什么是教育评价?(1分)答:教育评价是指根据一定的标准,对教育事物或现象进行系统的调查,在获取足够多的资料事实(定性与定量资料)基础上,做出价值分析和价值判断。5.教育测量与教育评价有什么不同?(1分)答:教育测量时一种以量化为主要特征的事实判断,而教育评价是指根据一定的标准,对教育事物或现象进行系统的调查,在获取足够多的资料事实(定性与定量资料)基础上,做出价值分析和价值判断。所以教育评价最根本的特征是做出价值判断;而教育测量过程的完结,在给出数量事实的描述与判断之后,不一定都要做出价值判断。6.教育评价与教育评估有什么异同?(1分)答:教育评估和教育评价是两个近义词,他们在内容上有交叉,也有区别。教育评估可能有价值判断,也可能没有价值判断当教育评估过程含有价值判断时,它和教育评价是一样的;当教育评估过程没有价值判断时,它和教育评价就有一定的差别。7.教育测验、考试与教育测量有什么不同?(1分)答:教育测验是教育测量的一个工具,在教育评价和教育评估过程中常被用来收集资料(如有关态度测验、民意问卷测验、学科成就测验等)。教育考试是根据教育内容和目标,选择有代表性的内容与问题,按照一定的方式,对应试者的知识、技能等进行测量与评价的过程。考试也是一种教育测验。测验或考试皆是教育测量与评价的一种工具。8.教育测量与评价,按照实施的时间阶段的不同,可以区分为哪几种类型?各自使用的目的是什么?(1分)答:可以分为形成性测量与评价、诊断性测量与评价和终结性测量与评价。形成下测量与评价的目的对于老师而言是为了获得教学延续性的反馈,了解学生的学习效果、学习历程、学习特点、学习困难等信息,随时修正自己的教学参考;对于学生而言可以根据反馈的结果获知自己学习后的表现情况。从而肯定或修正自己的学习方式。诊断性测量与评价的目的是对个人的问题行为及原因进行诊断。终结性测量与评价的目的有两个,一是在教学目标之下,检查学生一学期的学业达到了什么程度,从而判断教学效果的得失;二是评定学生的学业成就,并将评定结果通知家长或记入档案。9.教育测量与评价,按照参照点的不同,区分为哪几种类型?各自适用的情形是什么?(1分)答:分为常模参照、标准参照和潜力参照。常模参照适用于评价被团体中的相对地位;标准参照测量与评价是将被试的表现与既定的教育目标或行为标准相比较,以评价被试在多大程度上达到标准;潜力参照测量与评价是将被试实际水平与其自身潜在水平相比较,以评价被试有无充分发挥自身潜力的目的。10.教育测量与评价,按照被测量与评价的行为的性质,区分为哪些类型?它们各自适用于什么情形?(1分)答:分为最佳行为测量与评价和典型行为测量与评价。最佳行为测量与评价适用于以能力为基础的评价情景,例如学校教学后的考试或升学考试;典型行为测量与评价适用于测量被试的态度、情感、人格、兴趣等。11.按照教育测量与评价的内容,教育测量与评价区分为哪几种类型?它们各自适用于什么情形?(1分)答:分为智力与评价、能力倾向测量与评价、成就测量与评价和人格测量与评价。12.什么是重测信度?(1分)答:重测信度指的是用同一个量表(测验和评价表)对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数。13.什么是复本信度?(1分)答:复本信度指的是两个平行测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。14.Kappa一致性分析可以用来说明教育测量与评价的哪些类型的信度?(1分)答:Kapa一致性系数是指实际别评定为一致的百分比与在理论上被评定为一致的最大可能次数百分比的比率。15.肯德尔和谐系数分析的功能是什么?(1分)答:肯德尔和谐系数时表示多列等级变量相关程度的一种方法,既让K个评价者对N个被试的试卷(或作品)进行登记评定,每个评价者都对N份试卷(或作品)排出一个等级顺序。16.什么叫分半(half-split)信度?(1分)答:分半信度指的是将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。17.什么叫克伦巴赫alpha系数?(1分)答:克伦巴赫alpha系数是一套常用的衡量心理或教育测验可靠性的方法,依一定公式估量测验的内部一致性,是目前社会研究最常使用的信度指标,它是测量一组同义或平行测总和的信度其公式为:a=[K/(K-1)][1-(∑S2i)/(S2x)].其中,K为量表中题项的总数,S2i为第i题得分的题内方差,S2x为全部题项总得分的方差.从公式中可以看出,a系数评价的是量表中各题项得分间的一致性,属于内在一致性系数.这种方法适用于态度、意见式问卷(量表)的信度分析。18.什么叫效度(validity)?什么叫效度验证(validation)?(1分)答:效度指的是一次测量的有效程度,通过收集大量资料和证据来检验测量效度的工作过程叫做效度验证。19.什么叫内容效度?什么叫表面效度?什么叫反应效度?(1分)答:内容效度指的是测验样本对于应测内容与行为领域的代表性程度,表面效度指的是在被试和非专业人士看来,测试表面上是否在有效的测量着应测特质的量的程度。20.什么叫构念(construct)?什么叫构念效度(constructvalidity)?(1分)答:构念指的是心理学或社会学上的一种理论构想或特质,结构效度指的是测验能够测量到理论上所定义的某一心理结构或特质的程度。21.什么叫效标(Criterion)?什么叫效标效度(criterion-relatedvalidity)?(1分)答:效标志的检验测量效度的外在的、客观的标准,即效度标准,效标关联效度指的是一个测验对于处于特定情境中的个体行为进行预测时有效性。22.什么叫同期效度(concurrentvalidity)和预测效度(predictivevalidity)?(1分)答:测验分数与效标资料的取得约在同一时间内连续完成,计算这两种资料的相关系数即代表测验的同时效度,在测验分数取得一段时间后才获得效标资料,计算这两种资料间的相关系数即代表测验的预测效度。23.试题的难度系数可以怎么计算?(1分)答:对于二值记分题可以用题目的答对率来表示,对于多值记分题可以用平均分和满分的比值来表示,此外还可以全体被试失分率为难度系数,以两端被试得分率的均值为难度系数。24.什么是测试题目的区分度(DiscriminationIndex)?题目的区分度如何计算?(1分)答:区分度就是题目区分被试谁批能力的量度,计算区分度可以用点双列相关系数法,二双列相关系数法,积差相关系数和高低分组法来计算。25.什么是级差相关(Pearsoncorrelation)?(1分)答:级差相关指的是对非二分法积分的项目,因得分具有连续性,在被试团体较大时,可以认为题目分数服从正态分布,题目总分与测验总分级差相关系数。26.什么是等级相关(Spearmancorrelation)?(1分)答:对不服从正态分布的资料、原始资料等级资料、一侧开口资料、总体分布类型未知的资料不符合使用积矩相关系数来描述关联性。此时可采用秩相关(rankcorrelation),也称等级相关,来描述两个变量之间的关联程度与方向。27.什么是点二列相关(point-biserialcorrelation)?在SPSS中,怎么计算点二列相关系数?(1分)答:点二列相关指的是两个变量都是正态连续变量,但其中一个变量因为某种原因被人为地分成两类。28.什么正相关?什么是负相关?(1分)答:正相关指的是因变量随着自变量的增大而增大,负相关因变量随着自变量的增大而变小。29.什么是相关系数显着性检验中的双侧(2-tailed)检验和单侧(1-tailed)检验?(1分)答:在相关系数显着性检验中,1-tailedtest和2-tailedtest分别指单侧检验和双侧检验,单侧检验具有方向性,更有针对性,而双侧检验是指一组数据的方差可能大于,等于或小于另一组数据的方差的情况,不具有方向性。30.什么是独立样本(independentsamples)?什么是相关样本(relatedsamples)?(1分)31.什么是独立样本t检验中的双侧(2-tailed)检验和单侧(1-tailed)检验?(1分)32.通常情况下,教育评价表的构成要素有哪些?(1分)答:(1)评价指标(2)指标权重(3)评价标准33.什么是评价标准的标度,标号,强度或频率?(1分)答:标度是达到标准的程度,它说明什么样的程度属于什么等级。所谓的标准强度和频率,是指评价标准的内容,也就是各种规范行为或对象的程度或相对次数。标准强度和频率属于评价的主要组成部分。所谓标号,是指不同强度的频率的标记符号,34.什么是客观性试题和主观性试题?客观性试题和主观性试题分别有些什么类型?(2分)答:客观性试题评分客观,不同评分者独立评分,所得结果基本上是相同的,客观性试题主要包括选择题、匹配题和供答题中地简答题、填空题;主观性试题指的是答案不固定,被试可以自由作答,被试只要在题目所限的范围内,在深度、广度、组织方式等方面享有很大的自由,包括论述题、作文题与表现性测验题等题型。35.什么是表现性测验?表现性测验有些什么类型?(2分)答:所谓表现性测验是指以行动、作品、表演、展示、口头回答、操作、写作、科学研究、制作等更真实的行为表现,来测量与评价学生在真实情景或模拟真实情景下的所知所能的一种测验类型。表现性测验分为(1)纸笔的表现性测验、辨认的表现性测验、结构化的表现性测验、模拟情景的表现性测验、工作样本的表现性测验。36.教育目标,教学目标,测验目标几者之间有什么关系?(2分)答:教育目标分为终极教育目标、中程教育目标和具体教育目标。教学目标是中程教育目标,是对终极教育目标的细化和具体落实,他对学生应掌握的知识,应发展的能力和应该形成的优良品德提出了明确要求,将教学目标进一步分化,用测试题的形式加以表达就是测验目标。37.布卢姆教育目标分类的认知领域的内容,在早期理论和修订版框架之间,有什么异同?(2分)38.答:原始的分类法(1956)分成知识和心智的能力与技巧两部分,共6个类别。除了应用外,每一个类别都包含了子类别。这些类别是从简单到复杂、具体到抽象进行排列,强调累积性的阶层概念。修订版将教育目标的分类分成知识向度和认知历程向度。知识向度包含四个主要的类别(事实、概念、程序、元认知)。前三个类别包括了原始分类中知识的子类别。元认知知识是新增加的类别。认知历程向度分成6个类别,由较低层级的记忆、了解、应用和分析,到较高层级的评价和创造,其中记忆和学习保留有密切的关联,其余五者和学习迁移较有关。原始分类中的三个类别被重新命名,两个类别的顺序被交换。39.布卢姆教育目标分类的经典理