浅析概化理论的误差观

wmclqc
3 ℃
2019-12-24

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

浅析概化理论的误差观杨志明(作者简介：杨志明，教授，香港中文大学博士生，湖南师范大学，E-mail：yzm506jx@yahoo.com)摘要：概化理论是在经典测验理论的基础之上，借用实验设计和方差分析的思想和方法而发展出来的一种测验理论。通过与经典测验理论的比较，发现其误差观具有以下四个特点：误差来源的多样化、误差估计的参数化、测量误差与决策误差的区别化和误差解释的目的化。了解概化理论的这些特点，对于正确地使用概化理论是十分重要的。关键词：概化理论；测量误差；决策误差在心理与教育测评领域中，控制测量误差一直是人们追求的目标之一。中国是考试的故乡，大规模的科举考试历经了l300年之久，它在控制测评误差的方式方法方面积累了大量的经验，可惜一直没有上升到理论的高度。到上个世纪初，西方逐渐确立了测验标准化的概念和方法，并于上个世纪中叶逐渐上升为经典测验理论(ClassicalTestTheory，CTT)。但CTT的误差观点过于简单，要求的前提条件也比较严，不利于发现误差的真正来源和改进测评工作，因此，克龙巴赫(Cronbach)等人以CTT为基础，通过引入实验设计和方差分析的思想和方法，提出了测评的概化理论(GeneralizabilityTheory，GT)。显然，对GT的误差观进行深入的剖析，对于正确地理解和使用GT是很有价值的。一、误差来源的多样化概化理论误差观的首要特点是误差来源的多样化观点。在CTT中，测量误差指的是在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。其来源主要有三个方面，即测量工具、被测目标和施测过程。通常，心理与教育测量工具是一套以测量题目(问卷)为核心的刺激反应系统(通常称作量表)。当量表在测查人的某种心理特质时，若项目所测的东西与我们欲测的目的之间出现偏差(如项目取样太少或太偏)，则测量会出现系统误差。例如，当语文考试出现偏题时，押中题的人就会得到好成绩，没押中题的人则得不到好成绩，无法反应各人的真实水平。又如，数学测验的好坏若取决于文字理解能力的高低，则认为该测量出现了系统偏差。当一个量表对同一批人前后几次测查结果极不一致时，则认为该量表缺乏足够的稳定性。心理与教育测量量表是否稳定、是否真正测到了我们所要测的东西，是测量工具造成误差的两个主要方面。在测量目标方面，造成测量误差的主要原因是考生真正水平是否得到正常发挥。一般地，受测者的某种心理特质水平是相对稳定的，但是他在接受测量时的生理和心理状态会影响其水平的正常发挥。比如，当受测者过份疲劳、突然生病或过分焦虑、紧张时，其接受测量的成绩会低于其真实水平。如果他在接受测量的技能技巧方面经验不足，也同样会出现测量误差。此外，受测者应试动机的强弱、受训时间的长短、受训内容的多少、答题反应的快慢等等都会产生测量误差。在施测过程方面，产生测量误差的原因主要是一些偶然因素(恒定因素较易控制)，比如，在物理环境方面：施测现场的温度、光线、声音、桌面好坏、空间阔窄等等会造成误差；在主试者方面：主试者的年龄、性别、外表及其施测时的言谈举止、表情动作、是否按规定实施测验等等也都会造成误差。此外，评分记分环节也是容易出现差错的地方，若是出现意外干扰(如：考场突然停电、有人作弊、计时表停了、试卷印刷或装订出错等)，则同样会让考生分心或造成考场混乱，导致测量误差。显然，CTT也是持误差来源多样化观点的，但是，它对这些误差来源仅仅做了概念上的定性描述，而且不够全面，更没有从理论构建和方法技术层面上做进一步的分析。因此，概化理论进行了改进，从影响观测分数的各种条件因素(facets，侧面)着手，通过构建观测全域(Universeofadmissibleobservations)与概化全域(universeofgeneralization)等概念的方法，正确地指出了误差的多种来源，认为每个测量侧面都可能是系统误差的来源，而测量侧面以及测量目标自身的稳定性以及它们之间的交互作用均可能是其随机误差的来源。例如，在一次测量中，假设研究者用ni道题去测np个被试的某种潜在心理特质，并由nr个评分者逐人逐题评分，则测量误差可能有以下来源：1．被试水平之间的差异(属测量目标引起的有效变异)；2．评分者自身在不同时间给同一试题打分的差异(随机误差引起的变异)；3．不同评分者在同一时间给相同试题打分的差异(系统误差变异)；4．同一测量内容内部不同试题的差异(随机误差变异)；5．不同的测量内容所引起的差异(系统误差变异)；6．被试者临考发挥不当引起的差异(随机误差变异)；7．其他因素：如初测与复测之差异、平行测验之间的差异、不同施测环境之间的差异、不同体力状况之间的差异等。二、误差估计的参数化CTT是采用标准化和随机化的方法来控制测评误差的，GT则是在CTT的基础之上，运用统计调整技术，通过把测评条件因素(侧面)作为模型参数的方法来估计和控制测评误差的。现以随机双面p.i.r设计的测量模式为例给予说明。记Xpir为任意一个被试p作答任意一道试题i并由任意一个评分者r给出的分数值(p=1,2,……,np,i=1,2,……,ni,r=1,2,……,nr)，这时，假若每个被试自身水平能完美地被反映出来，且所有被试水平完全相同，每个评分者自身的评分标准均不会波动，且评分者之间的评判水平完全相同，以及每道试题本身均能准确代表欲测的知识和能力水平，且试题之间完全(至少难度)相同，则所有的墨。，都应为平均每个被试被每个评分者评定的每道题目的均值：rippirpirnnnXX/)(。但是，现实中是无法达到这种状况的，因为这里涉及到三个方面的抽样误差问题以及三个方面之间的各种交互作用问题。即，对于不同的p，i和r值，Xpir是很难一样的。根据实验设计和方差分析的思想，我们可以考察总的离均差的平方和的内部结构。即像方差分析一样把观测分数的总变异分解成若干种变异分量，进而探讨分数之间的差异可以归结为何种因素等问题。于是有概化理论的G研究模型为：Xpir=µ(总均值)+µp-µ（被试效应=vp）+µi-µ（试题效应=vi）+µr-µ（评分者效应=vr）+µpi-µp-µi+µ(被试和试题交互效应=vpi)+µpr-µp-µr+µ(被试和评分者交互效应=vpr)+µir-µi-µr+µ（被试和评分者交互效应=vir）+Xpir-µpi-µpr-µir+µp+µi+µr-µ（残余效应=vpir,e）（2.1）或，Xpir=µ+vp+vi+vr+vpi+vpr+vir+vpir,e(2.2)其中，µp是被试p在整个观测全域上的平均得分。即被试对于试题全域中任意一道题上的作答结果由评分者全域中任意一位评分者评定的得分的平均值。其定义为：pirripXEE(2.3)类似的，可以定义：piripiXEE（2.4）piriprXEE（2.5）pirrpiXE（2.6）piriprXE（2.7）pirpirXE(2.8)pirripXEEE(2.9)概化理论假定：就总体和全域而言，除了总均值µ以外，模型(2.2)右边的每个分量均是一个随机变量，每个随机变量又都有自己的分布，且分布的均值都为零。不过，在实际工作中，人们对被试水平做推论是根据他在条件样本上的表现来进行的，因此，实际测量时的ni道题可以理解为从容量无限的题目全域中随机抽取的一个样本，nr个评分者也可以理解为从容量无限的评分者全域中随机抽取的一个样本，这样就构成了一个概化全域，其D研究模型为：XpIR=µ+vP+vI+vR+vpI+vpR+vIR+vpIR,E(2.10)其中，pirRIpXEE类似于CTT中的真分数，只不过它强调该“真分数”是基于两个侧面I和R条件样本上的均值，因此，概化理论称之为全域分数。与µp类似，模型(2.10)中其他项的含义与G研究类似，只不过用大写字母表示该变项是基于样本均值的。根据以上模型，观测分数Xpir在总体和全域上的总变异数σ2(Xpir)可以分解为：σ2(Xpir)=σ2(p)+σ2(i)+σ2(r)+σ2(pi)+σ2(pr)+σ2(ir)+σ2(pir)(2.11)其中，σ2(p)为被试的变异分量(方差分量)，它源于被试水平之间的差异。当被试水平是测量目标时，该变异分量被看做是测验分数总变异中的有效变异(类似CTT中的测验效度公式中的分子)。σ2(i)为试题变异分量，它源于试题之间难度等方面的差异。在本模型中，由于它属于测量侧面，所以其变异分量属系统误差变异之一。(当我们研究题目质量时，该变异又可作为有效变异对待，而先前的σ2(p)转变为误差变异。)σ2(r)为评分者变异分量，它源于评分者之间评分水平等方面的差异。在本模型中，由于它也是测量侧面之一，所以其变异分量也属系统误差变异之一。(若我们的任务是选拔评分者，则此变异转化为有效变异，其他变异均转化为误差变异)。σ2(pi)是被试与试题间交互效应的变异分量，它是被试水平在不同试题上发挥不一致引起的。σ2(pr)是被试与评分者之间交互效应的变异分量，它是评分者对不同被试给分宽严不一致所引起的。σ2(ir)是试题与评分者之间的交互效应，它是评分者因试题不同而给被试打不同分数所引起的。σ2(pir,e)是三者之间交互效应的变异分量，源于评分者、试题及被试三者之间的交互作用和其他一些未知的非系统的误差，其值等于总变异与上述各变异分量之差。当我们的测量目标是被试的潜在心理特质时，上述σ2(P)便被看做是有效的方差变异，而σ2(i)和σ2(r)则被看做是测量面引起的分数变异，这些测量面引起的分数变异便可以看做是CTT中系统误差所引起的分数变异。σ2(pr)与σ2(pir,e)可以归结为CTT中的随机误差所引起的分数变异，它们实质上是由各种侧面之间或侧面与测量目标之间的交互作用以及其他一些无法去除的干扰因素所致。由上可知，测量误差的各种来源不仅得到了明晰的分解，而且通过实验设计和方差分析的技术，已经把各种误差的效果完全用参数的方式进行了刻画。三、测量误差与决策误差的区别化与CTT非常不同的是，GT把测量误差与决策误差区别对待。其主要观点是：决策误差与测量误差密切相关，但测量误差不等于决策误差；测量误差与观测全域上的G研究有关，决策误差与概化全域上的D研究有关。(一)明确区分测量误差与决策误差概化理论认为，在测量工作中，决策误差比测量误差更为重要。并且，测量误差小，决策误差并不一定就小，测量误差大并不一定决策误差就大。如，当测量的误差变异数为0．8，而决策误差的要求是误差变异不能大于0.1时，其决策误差就不合要求，因为实测误差变异与所要求的误差变异相比0.8／0.1=8；再如，当实测误差变异为l.5、决策要求的误差变异1不大于3.0时，其决策误差就很小，因为实测误差变异与要求的误差变异之比为1.5/3=0.5。这就是说，抽象地讨论测量误差的大小是意义不大的，只要根据测量结果所做出的决策不会导致很严重的决策错误或决策误差被限制在可以容忍的范围之内，则该测量就是有效的。若记误差变异为E(error)、记决策要求的误差变异(或误差变异容忍度)为T(Toleranceforerror)，则E／T可以作为决策精度指标(Kane，1996)。(二)区别对待测量误差与决策误差的方法在GT中，测量误差与决策误差的区别是通过G研究和D研究两个步骤来实现的。G研究的任务主要是确定观测全域、估计测量过程中所有误差来源的变异分量，D研究则是为了某种特殊的决策需要，首先确立概化全域，并以G研究所得到的这些变异分量估计值为基础，通过调整测量过程中各方面的关系等方法，如调整全域中各个侧面的样本容量、调整测量的模式(如把随机模式改为固定模式等)、或调整测量结构(如将交叉设计改为嵌套设计或混合设计)等方法，减低某些侧面或其他条件因素之间的交互效应，使得决策误差最小。一般情况下，基于同一个观测全域，研究者可以构建多个很不相同的而又符合决策需要的概化全域。例如，张三参加2001年8月份TOEFL考试得600分的成绩，就可以分别从时间范围和应用范围等许多方