选项可猜测性评判与控制实证研究

thecrown
1 ℃
2020-01-27

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

选项可猜测性评判与控制实证研究上海外国语大学2008级博士生湖南师范大学外国语学院副教授——邓杰摘要•命题期间对选项的可猜性进行评判和控制–可猜性专家评判指标–猜测概率计算方法–可猜性控制措施目的：了降低选项的可猜程度，提高多选题的命题质量。•我国高考英语命题对选项可猜性的控制情况–整体可猜程度（2008年国家卷I与某省卷）–可猜项分布情况（试卷部分和试题类型）一、问题的提出•多项选择题使用广泛，但又饱受争议，其主要原因之一即是猜测概率高•如何控制选项的可猜测性–如何对选项的可猜测性进行评判？–从哪些方面对可猜测性进行控制？–高考英语试题的可猜测情况如何？二、相关研究•命题原则研究(Downing&Haladyna)从正面通过强调遵守原则来控制猜测因素，目的是研究如何使选项不可猜以提高测试效度•应试策略研究(Allan,Nevo)从反面通过分析项目缺陷来揭示猜测因素，目的是研究可猜项对测试效度的负面影响可猜项的存在，–有损测试效度–致使测试不公对于本研究的意义在于–为评判指标提供效度证据–为实证研究提供可借鉴的方法三、实证研究1.研究假设1）选项可猜性在命题期间可以得到准确评判和有效控制；2）我国高考卷对选项可猜性的控制情况不理想，但全国卷要比省卷控制得好。2.具体研究问题1）能否建构一套效度较高且可操作性强的专家评判指标？2）专家评判是否具有较好的一致性？3）高考卷可猜项的比例及分布情况如何？4）导致选项可猜的主要因素有哪些？5）如何对选项可猜性进行控制？3.研究对象•实验试卷选项共有3套，分别为全国卷I、全国卷II和某省高考卷。其中，全国卷II全部20道阅读题80个选项用于试验实验；全国卷I和某省卷的全部听力和阅读共74道题259个选项用于正式实验。•培训材料选项（见附录B）均选自我国全国性高风险测试真题，除部分项目是非高考题以外，其他所有项目均为我国2008年的高考真题。4.评判专家•语言测试方向博士研究生4人，其中高考英语命题人员2人、大学英语四六级考试题库建设的兼职命题人员2人；1人负责指标建构、专家培训和数据分析，另3人负责实验卷的评判工作。•英语语言学和外语教学方向硕士研究生3人，主要负责试验实验阶段的评判工作。5.研究工具•初始指标：分语言形式、语境意义、相互关系3类共28项•修正指标1：个人试评判后，修正为独立题项特征、前后题关联、选项-题干关联、选项相互关系4类共16项•试点实验I–21名研究生培训(TOTWESL)–高考例题试评(2008各省)–高考试题评判(2008年全国I卷和湖南卷，17份)•修正指标2：选项自身特征和题项相互关系2类共9项(见选项可猜测性评判变量）指标示例1-限定(Det)Fromthewriter’sexperience,wecanconcludethat_________.A.noteveryoneenjoysjoggingB.heistheonlypersonwhohatesjoggingC.nothingotherthanjoggingcanhelppeoplekeepfitD.joggingmakespeoplefeelgreaterthananyothersport指标示例2-暗示(Clu)6.WhydidthewomangotoNewYork?A.Tospendsometimewiththebaby.B.Tolookafterhersister.C.Tofindanewjob.7.HowoldwasthebabywhenthewomanleftforNewYork?8.Whatdidthewomanlikedoingmostwiththebaby?指标示例3-题干关系(Stm)Aproperwaytoreleaseafishisto________.A.moveitinwatertillitcanswimB.takethehookoutofitsstomachC.keepitinabucketforsometimeD.letitstrugglealittleinyourhand指标示例4-包含关系(Inc)TheunderlinedsentenceinParagraph4indicatesthatanywrongstepwillpossibly______.A.decreasethepopularityofacelebrityandthesalesofhisproductsB.damagetheimageofacelebrityintheeyesofthegeneralpublicC.cutshorttheartisticcareerofacelebrityinshowbusinessD.influencethepriceofacelebrity’sproducts6.猜测概率计算方法定义1：选项正误猜测的确定性程度等级量表为集合K，记为：其中，k为确定性程度等级，k=0表示完全不确定（无法猜），k=n表示完全确定（肯定错或肯定对）。例如：0-完全不确定；1-不太确定；2-比较确定；3-完全确定)3}(,1,0|{nnkkK6.猜测概率计算方法定义2：选项正误猜测的方向为集合R，R的元素为r，记为：且其中，r为猜测方向，r=-1干扰项；r=1答案项。定义3：猜测评判等级量表为集合Q，则会有：其中，q为猜测评判等级，q=-k肯定错，q=k肯定对。例如：-3肯定错；-2很可能错；-1有可能错；0无法猜；1有可能对；2很可能对；3肯定对}1,1{RRr},1,,2,1,0,1,2,,1,|{kkkkqqQ6.猜测概率计算方法定义4：若评判等级为q，选项的猜测概率为g，猜则有：)3(221kqkkkqg且6.猜测概率计算方法•设评判准确性集合为Z，且Z={-1,0,1}；选项类别集合为O，且O={0,1}。则有：)21,20(1)11(0)21,20(1momommomoz且或者且且或者且四、结果与讨论-I评判指标的效度分析1.指标预测功能分析表格1逐步回归模型摘要更改统计量模型RR方调整的R方估计的标准差R方更改F更改df1df2显著F更改10.3810.1450.1430.177.14570.7651418.00020.5550.3080.3050.159.16498.6101417.00030.7510.5650.5620.126.256245.0651416.00040.8750.7660.7640.093.201357.2271415.00050.9370.8770.8760.067.111373.6711414.00060.9540.9100.9080.058.032148.0661413.00070.9670.9340.9330.049.025156.8851412.00080.9770.9550.9540.041.020185.1181411.00090.9860.9730.9720.032.018271.7791410.000a预测变量:(常量),暗示。b预测变量:(常量),暗示,排除法。c预测变量:(常量),暗示,排除法,常识性。d预测变量:(常量),暗示,排除法,常识性,语义突显。e预测变量:(常量),暗示,排除法,常识性,语义突显,题干-选项关系。f预测变量:(常量),暗示,排除法,常识性,语义突显,题干-选项关系,限定词。g预测变量:(常量),暗示,排除法,常识性,语义突显,题干-选项关系,限定词,对立关系。h预测变量:(常量),暗示,排除法,常识性,语义突显,题干-选项关系,限定词,对立关系,形式突显。i预测变量:(常量),暗示,排除法,常识性,语义突显,题干-选项关系,限定词,对立关系,形式突显,包含/交叉。j因变量:猜测概率1）9个预测变量能建立9个有效的回归模型(方差分析表中每个模型的显著性p值都是0，完全拒绝回归系数为0的原假设，限于篇幅略去方差分析表)，说明每一项评判指标都可以对猜测概率进行有效预测；2）模型5已能解释总离差方差和的87.6%，且前5个模型的R方更改量都在10%以上，说明前5项指标是预测猜测概率的主要因子；3）模型9能够解释总离差方差和的97.2%，说明使用9项指标足以对选项可猜性进行有效评判；4）回归诊断显示(略去残差统计量表)残差均值为0，标准差为0.031，说明预测值与观测值几乎没有差异。上述分析表明，评判指标对猜测概率具有很好的预测功能。2.专家评判一致性检验专家评判结果基本致，但专家培训还应加强。专家1专家2专家3Pearson相关性1.310(**).548(**)专家1显著性（双侧）.000.000Pearson相关性.310(**)1.487(**)专家2显著性（双侧）.000.000Pearson相关性.548(**).487(**)1专家3显著性（双侧）.000.000N3Kendall'sW(a).606卡方252.675df258渐近显著性..000表格2相关性表格3肯德尔W检验统计量主效应io:ir交互效应iror:i估计值0.014530.001170.00480估计值0.013070.00681表格4概化分析对各效应的变差分量估计3.专家评判信度分析三位专家评判时概化系数已超过0.7，说明整体评判具有较好的信度。可以在此基础上对选项的可猜性进行进一步分析。专家人数概化系数可靠性指数20.648620.5858230.730470.6760640.779660.7324750.812490.7710760.835960.79915表格5评判专家侧面变化D-Study分析结果结果与讨论-II选项可猜性对比分析1.整体可猜性检验值=.5差分的95%置信区间试卷猜测概率均值tdfSig.(双侧)均值差值下限上限全国卷I.806023.880139.000.3060.2806.3313某省卷.712911.414118.000.2129.1760.2498表格6单样本t检验对比分析两套试卷整体上的可猜性都比较大，或者说，对选项可猜性的控制情况都不太理想，干扰项的干扰功能和答案项的构念效度不容乐观。2.猜项的分布及评判准确性全国卷I某省卷可猜可猜试卷部分选项类别不可猜猜错猜对准确率合计不可猜猜错猜对准确率合计2331482.4%40261787.5%34干扰项57.5%7.5%35.0%100%76.4%2.9%20.6%100%1604100%201403100%17听力答案项80.0%.0%20.0%100%82.4%.0%17.6%100%3931885.7%604011090.9%51合计65.0%5.0%30.0%100%78.4%1.9%19.6%100%2523394.3%601213897.4%51干扰项41.7%3.3%55.0%100%23.5%2.0%74.5%100%1406100%20511191.7%17阅读答案项70.0%.0%30.0%100%29.4%5.9%64.7%100%3923995.1%801724996.1%68合计48.8%2.50%48.8%100%25.0%2.9%72.1%100%表格7可猜项的分布及评判准确率对比分析结果与讨论-III选项可猜性控制措施1.加强命题培训•导致选项可猜的根源在于命题人员–要么是因为重视不够，命题人员没有将可猜性控制作为命题质量管理的重要内容；–要么是由于经验不足，命题人员不知道该从哪些方面来对可猜性进行控制。•一种错误的观点：只要确保选项没有错误，可不可猜无关紧要。有人甚至还有可能主张故意使用一些明显可猜的选项来降低项目难度。•笔者认为：不加控制是有背测试原则的，而为了降低难度而故意使用明显可猜的选项更是不智之举。–明显可猜项会使得测试效度在卷面即已受损；–这种削足适履的做法并不一定能达到降低难度的目的，反而会导致测试不公平，因为这对那些善于猜题的考生来说，猜测将会变得更加轻而易举。2.控制猜测因素使用频率高的评判指