第一章语言测试的性质、目的及类别1.测量:按照一定的规则给事物的属性指派数字或者符号的过程就是测量。三要素:事物及事物的属性、指派数字或者符号、法则2.测试:实质上是对行为样本所做的客观的标准化的测量。(行为样本、客观的测量、标准化的测量)行为样本——表征:指对语言能力变现行为的有效抽样。客观的测量:测试题目的难易度和区分度如何;测试结果的可靠程度如何;测试结果的有效性如何。语言测试的目的:用于诊断及反馈;用于筛选或选拔;用于编班;用于科研或调查。3.评价:是指为作出某种决策而收集资料,并对资料进行分析,作出解释的系统过程。(含义更广,综合性更强)三者的关系:总的来说,并非所有的测量都是测试,并非所有的测试都属于评价,并非所有的评价活动都涉及到测量或测试。4.语言测试的类别按照学习阶段分:编班测试;随堂测试;期中测试;期末测试。按照用途来分:水平测试,成绩测试,潜能测试,诊断测试水平测试:用来测量学生的语言能力,既看看考生是否达到某一水平,从而决定其是否能胜任某一任务。于过去的教学内容和学习方式没有直接联系。成绩测试:考察学生对所学知识的掌握,他一般要参考某种教学大纲,甚至考虑到教学方法。潜能测试:预示学生学习某种语言的能力和天赋。诊断测试:与成绩测相反,关注的是失败程度,即学习者在那些方面犯了错误并借此找出补救的方法。按照对考试分数的解释来分:常模参照性测试,标准参照性测试常模参照性测试:参照某一个常模对考生的分数做出解释。(专升本,四六级)标准参照性测试:参照某一个事先定好的尺度或者标准,于这个尺度或者标准相比,看他是否达到了既定的要求。(驾照,六十分标准)按照阅卷的评阅方式来分:主观性测试,客观性测试语用测试一定是综合性测试,综合性测试未必然都是语用测试。第二章语言测试的理论基础1.语言测试的体系或者模式第一代:科学前语言测试,将语言当做一门知识去教。(完全以教师或命题人员的经验或主观判断来判断)第二代:心里计量-结构主义语言测试,语言是一套形式系统。(分立式测试)第三代:交际语言测试,Bachmann,CLA2.Bachman的语言测试模式特点:对于语言能力的认识更加全面深刻;指出了测试工具与目标语言语境的关系。构成:语言能力;策略能力;心理生理机制语言能力:语言组织能力(语法能力,语篇能力);语言使用能力(语义能力,功能能力,社会语言能力)策略能力:评估策略;确定目标策略;制定计划策略;执行计划策略心理生理机制:语言使用阶段所牵涉的神经的和生理的过程3.语言测试的真实性问题:情景真实性;交际真实性;第三章语言测试的总体设计确定考试类别→确定考试内容→确定考试题型→确定试卷类型→制定考试细目表→命题及编辑试卷1.确定考试目标Bloom在《教育目标分类》中将教育目标按照从低到高的次序分为六个层次:知识、理解、应用、分析、综合、评价。就外语测试而言,设计题目时,理解、应用及综合等能力的题目应多一些,知识、分析、评估的题目应少一些。2.确定考试题型主观试题和客观试题多项选择题优点:可以测试各个层面的语言知识和技能;具有很好的诊断作用;答案固定,评分客观,不受评卷人主观影响,可以用机器阅卷,省时省力;试题覆盖面广,适用于大规模的测试,测试信度高。缺点:题目很难设计,费时费力;不能测量考生的表达能力和推理、论证能力。多项选择只能考察考生的语言输入能力,不能考察考生的语言输出能力。标准的多项选择题由题干和选择项(包括答案和干扰项)组成。常见的多项选择题:填空型;取代型(词汇);配对型;辩错型。命题步骤:确定考点→根据考点写出题干和答案项→写干扰项。词汇多项选择的四个选项可以是词义相近,也可以是形式相近,如果做不到四个选项都相近,两两相近也是可以的。多项选择的命题要求:语言正确、地道、得体、简洁;避免试题的偏颇性;选择项与题干的相容性问题;尽可能保持选择项的相似性;题干或者干扰项不要为答题提供线索;避免出现轨迹题。4.填充题:测量的是语言的运用能力,而不是辨认能力,测试效度高。综合填充题型又称完形填空。3.制定考试细目表:包括考试内容所占比重、题型、题量、考试时间分配。第五章完形填空1.完形填空最初叫做完型程序。2.完型测试的几种形式:定距删词完形填空;合理删词完形填空;选择式完形填空;完词式完形填空;3.评分方法:唯一选择法;可接受选择法第六章如何设计词汇测试1.词汇有积极词汇和消极词汇之分。积极词汇是指学生在口头表达和书面表达中熟练应用的词汇。消极词汇是指学生在阅读时应能够认知的词汇。2.词汇测试的效度、信度、区分度,主要依据词汇的代表性和档次的划分。3.词汇测试的题型:配对型、取代型、填空型。词的使用牵涉三方面的因素:意义、搭配、语法。4.语法测试常见题型:多项选择、识别错误、填空、句型转换、配对。5.测试阅读能力的方法:正误判断、完成句子、简答题、组句成段、多项选择、完形填空。6.听力测试材料的选择,应当注意:听力材料必须是口语材料,而非书面材料;听力材料的难度不要过高,要比阅读测试的材料容易;听力材料的量不要过大;听力材料的类型要真实多样,内容要有新意。第十章如何设计口语测试1.口语测试的模式:直接型口试;半直接型口试(录制在磁带上);间接型口试(笔试)。2.直接型口试的方法:朗读、问答、复述、看图说话、扮演角色、口头作文、讨论等。3.口语测试的评分方法:分析法、综合法。第十一章如何设计写作测试1.写作测试的最大优点是效度高,它不仅能考察考生的输出性技能,同时也能考察考生的接受性技能,同时能测试语言的各个层次和范畴,对教学有很好的反拨作用。缺点是信度低,因为它属于主观测试,评分无法客观化。2.写作测试的评分方法:机械法、印象法、分析法。第十三章如何评判测试的质量1.评估的主要标准:效度、信度、难度(p)、区分度、实用性(试题是否便于使用以及实施起来是否可行)、后效作用(考试对教学工作和外语学习的影响)。2.效度:效度又称有效性,它是指一套测试所考的是否就是设计人想要考的内容,或者说,在多大程度上考了想要考的。内容效度:是否考了考试大纲规定考的,或者说考试的题目多大程度上能代表他所要测量的目标。结构效度:指测试是否以有效的语言观为依据。预测效度:测试结果多大程度上能够预测出某些将来会发生的可能性。共时效度:效标关联效度3.信度:是指考试结果的可靠性和稳定性。测试信度的方法:考后复考法、试题半分法,平行试题法。影响信度的因素:试题的量是否够大;题目是否属于同一性质;题目的区分度是否高;考试之间的差异是否大;题目难以是否适中;评分是否客观。效度和信度之间的关系:信度和效度是衡量测试质量的最重要的两项指标,他们之间既相互依存,又相互排斥。一项测试如果可靠,那么他的效度可能很高,也可能很低;但是,如果一项测试不可靠,该测试必然无效。因此这样说,信度和效度的关系是单方面的。信度差则效度差,但效度差不一定信度差。4.验证测试是否具有实用性应考虑一下问题:试卷印刷是否清楚醒目;考试所需要的时间是否估计恰当;题目的措辞是否清楚易懂;设计的题目是否涉及各种器材设备。第十四章测试成绩的分析与解释1.描述分数集中趋势的统计指标:平均数、中位数、众数平均数:将一组数据中的每个数据相加,然后再除以该组数据的个数,得到的值即为该组数据的平均数。中位数:中数,将一组数据按照从低到高或者从高到低的顺序排列后位于中间位置的数,如果得到的数据的个数是偶数,那就去中间两个数的平均数。众数:又称范数,是指一组数据中出现次数最多的那个数值。2.描述数据离散趋势的统计指标包括:全距、四分位区间距、方差、标准差。3.全距:将一组数据按照从小到大的顺序排列,用最高分减去最低分,所得值就是全距。四分位区间距:第三个四分位值减去第一个四分位值就是四分位区间距。间距越大,离散趋势越大;间距越小,离散趋势越小。方差:先将一组数据中的每一个数据与该组数据的平均指数之差进行平方,求其和,然后再除以数据个数。标准差:用来表示考试成绩差异程度的最好指标,其值越大,说明分数分布的离散程度越大;其值越小,说明分数分布集中,离散程度越小。4.正态分布图:横轴X表示考生的成绩,越往右分数越高;纵轴Y表示考生人数。曲线越抖说明分数越集中,越缓说明分数越分散。正偏态:说明考试太难,多数考生的得分很低,分数集中在低分区,而不是正中,两侧也不对称。偏态值和峰值都为0或者接近0,说明分数分布呈正太。