测量的效度

giggs06
4 ℃
2020-01-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

测量的效度效度概述•效度心理特质的程度。在测量理论中，效度被定义为：在一列测量中，与测量目的有关的真实变异数（由所要测量的变因引起的有效变异）与总变异数（实得变异数）的比率，即：•效度=S2v／S2x=r2xy•式中r2xy代表测量的效度系数，S2v代表有效变异数，S2x代表总变异数。关于效度的概念，我们要特别注意以下几点：•（ｌ）效度是一个相对的概念。这种相对性表现在两个方面：第一，效度是相对于一定的测量目的而言的。测量某一特质有效的量表，若用它来测量另一种特质，则必然会无效或效度极低。第二，心理特质是较隐蔽的特性，只能通过个体的行为表现来进行推测，因此，心理测量不可能达到百分之百的准确，而只能达到某种程度上的准确。•（２）效度是测量的随机误差和系统误差的综合反映。当一个测验随机误差较大时，实测结果当然会偏离真值，造成结果的不准确。如果测量中还存在系统误差，则系统误差也会加大测量误差。只要出现测量误差，测量的效度必受影响。•（３）判断一个测量是否有效要从多方面收集证据。由于描述心理特性的角度可以是理论上的，也可以是实践上的，途径很多，因此，获取测量效度的途径也是多样的。例如，智力测验是否测得了人的智力，我们就可以从理论上做逻辑分析，也可以从他在工作、学习中的实际表现等许多方面加以证实。内容效度•内容效度指的是测验题目对有关内容或行为范围取样的适当性。这种测验的效度主要与测验内容有关，所以叫内容效度。一个测验要有内容效度必须具备两个条件：•首先，要有定义得完好的内容范围。内容范围，可以是一个明确而有限的题目总体，也可以是由编制者界定的一些范围较广的材料与技能；可以包括具体的知识，也可以包括复杂的行为。•其次，测验题目应是所界定的内容范围的代表性取样。所谓代表性取样。指根据材料与技能的重要性来选题目，而非随机取样，以便选出的题目能包含所测内容范围的主要方面，并使各方面题目比例适当。测验题目并不需要包罗该范围的所有材料，而只需包含测验编制者认为是重要的材料。•确定内容效度的方法主要有以下几种：•逻辑分析法–确定内容效度常用的方法是逻辑分析法，即请有关专家对测验题目与原定内容范围的吻合程度作出判断。这种方法又叫做专家判断法。其具体步骤是：–（1）定义内容总体。明确所测内容的范围，包括知识范围和能力要求两个方面。这种范围的确定必须具体、详细。–（2）划分细纲目，并要根据一定目的规定好各纲目的比例。–（3）确定每个题目所测的内容，并与测验编制者所列的双向细目表（考试蓝图）对照，逐题比较自己的分类与制卷者的分类，并做记录。–（4）制定评定量表，考察题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异，还要考察各种题目数量和分数的比例以及题目形式对内容的适当性等等，对整个测验的有效性作出总的评价。•双向细目表是描述试题按学科内容和能力分布情况的一种图表。美国教育家布卢姆曾将认知活动的教育目标从低级到高级，划分为六类：–识记：对以前遇到过的信息的再认或再现；–理解：对知识的解释和说明；–应用：将抽象的概念运用到实际；–分析：将整体分解为部分并确定各部分的关系；–综合：将要素或部分整合为新的观念体系；–评价：形成自己的价值标准并对事物进行评价。•统计分析法:克伦巴赫认为，内容效度可由一组被试在取自同样内容范围的两个测验复本上得分的相关来作数量上的估计，所以这种方法又叫复本法。其具体作法是：从同一个教学内容总体中抽取两套独立的平行测验，用这两个测验来测同一批被试，求其相关。若相关低，则两个测验中至少有一个缺乏内容效度；若相关高，则测验可能有较高的内容效度（除非两个测验取样偏向同一个方面）。•再测法:这种方法的操作过程是：在学习某种知识之前作一次测验，在被试学过该知识后再作同样的测验。这时，若后测成绩显著地优于前测成绩，则说明所测内容正是被试新近所学内容，进而证明该测验对这部分内容而言具有较高的内容效度。•经验法:检查不同年级的学生在测验上的得分和在每个题目上的反应情况。由于高年级学生比低年级学生水平高，所以一般来说，若测验总分和题目通过率随年级而提高，便说明测验具有内容效度。•内容效度主要应用于成就测验，因为成就测验主要是测量被试掌握某种技能或学习某门课程所达到的程度的。在这种测验中，题目取样的代表性问题是内容效度的主要考察方面。内容效度高，则可以把被试在该测验上的分数推论到他在相应的知识总体上去，说他在某个方面水平处在一个什么样的位置。反之，内容效度低，则这种推论将是无效的。•内容效度也适合于某些用于选拔和分类的职业测验。职业测验所要测的内容就是实际工作所需的知识和技能，编制这种测验应首先对实际工作做较细的分析，否则，题目取样的代表性就难以令人满意。•应该指出的是，内容效度不适合用于能力倾向测验和人格测验。•在实际应用中，要注意避免将内容效度与表面效度相混淆。表面效度是外行人从表面上看某个测验是否有效，是主观的。虽然表面效度不能真正反映测量的有效程度，它不是效度的客观指标，但是，由于表面效度能够影响被试的动机，从而影响测验的效果，所以，在编制测验时，表面效度不容忽视。•内容效度具有许多优点，但是也有一定的局限性。它的主要缺点是缺乏可靠的数量指标，因而妨碍了各测验间的相互比较。结构效度•结构效度是指一个测验实际测到所要测量的理论结构和特质的程度，或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。这里，构想或结构是指心理学理论所涉及到的抽象而属假设性的概念或特质，如智力、焦虑、动机等等，它们通常用某种操作来定义，并用测验来测量。•结构效度有三个特点：•第一，结构效度的大小取决于事先假定的心理特质理论。一旦人们对同一种心理特质有着不同的定义或假设，则会使得关于该特质测验的结构效度的研究结果无法比较。例如，同样是智力测验，由于当今理论界对智力持有不同的定义，所以，有些智力测验的结构效度的研究结果是不宜进行比较的。•第二，当实际测量的资料无法证实我们的理论假设时，并不一定就表明该测验结构效度不高，因为还有可能出现理论假设不成立，或者该实验设计不能对该假设作适当的检验等情况。•第三，结构效度是通过测量什么、不测量什么的证据累积起来给以确定的，因而不可能有单一的数量指标来描述结构效度。•结构效度的确立一般包括三步：第一步，提出理论假设，并把这一假设分解成一些细小的纲目，以解释被试在测验上的表现。第二步，依据理论框架，推演出有关测验成绩的假设。第三步，用逻辑的和实证的方法来验证假设。例如，韦氏智力测验就是根据这３步来确立结构效度的。•确定结构效度的方法有：•1、测验内部寻找证据法（简称测验内法）。测验内方法主要是通过研究测验内部构造来界定所测量的构想的范围。其具体操作方法有：（1）考察该测验的内容效度，因为有些测验对所测内容或行为范围的定义或解释类似于理论构想的解释，所以，内容效度高实质上也说明结构效度高。（2）分析被试的答题过程。若有证据表明某一题目的作答除了反映着所要测的特质以外，还反映着其他因素的影响，则说明该题没有较好地体现理论构想，该题的存在会降低结构效度。（3）通过计算测验的同质性信度的方法来检测结构效度。若有证据表明该测验不同质，则可以断定该测验结构效度不高。当然，测验同质只是结构效度高的必要条件。•2、测验之间寻找证据法（简称测验间法）。测验间方法是通过研究几个测验间的相互关系，找出它们的共同特点，从而推断出所测的共同特质是什么，以确定这些测验是否有结构效度。其具体操作方法有：•（1）相容效度法。即考察新编测验与某个已知的能有效测量相同特质的旧测验之间的相关。若二者相关较高，则说明新测验有较高的效度。•（2）区分效度法。即考察新编测验与某个已知的能有效测量不同特质的旧测验间的相关。若二者相关较高，则说明新测验效度不高，因为它也测到了其他心理特质。值得说明的是，二测验间相关不高只是新测验效度较高的必要条件，并不是充分条件。•（3）因素分析法。通过因素分析的方法来了解测验的结构效度的原理是：通过对一组测验进行因素分析，找出影响测验的共同因素。每个测验在共同因素上的负荷量（即测验与各因素的相关）就是测验的因素效度，测验分数总变异中来自有关因素的比例即是该测验结构效度的指标。•3、考察测验的实证效度法。如果一个测验有实证效度，则可以拿该测验所预测的效标的性质与种类作为该测验的结构效度指标，至少可以从效标的性质与种类来推论测量的结构效度。这里有两种做法：•第一，根据效标把人分成两类，考察其得分的差异。例如，一组被公认为是性格外向的人在测验中得分较高，另一组被公认为是性格内向的人在测验中得分较低，则说明该测验能区分人的内向与外向特征，进而说明该测验在测量人的性格内外向方面有较高的结构效度。•第二，根据测验得分把人分成高分组和低分组，考察这两组人在所测特质方面是否确有差异。若两组人在所测特质方面差异显著，则说明该测验有效，具有较高的结构效度。此外，对于一些被认为是较稳定的特质，若在短期内两次施测的结果差异不太大，则说明该测验符合理论构想。•除了以上常用的三类方法外，确定结构效度的方法还有考察实验变量对测验分数的影响以及搜集某些变异上的证据等方法。•与内容效度不同，结构效度主要用于智力测验、人格测验等一些心理测验方面。•结构效度是一个有争议的概念，有人赞赏它反映了效度的本质，但也有人批评它无法直接考查。总的来说，结构效度促使研究者把着眼点放在提出假设、检验假设上，使得测验成为理论研究的重要工具，而不再只是实际决策的辅助工具，从而使测验有了更广阔的发展前景。结构效度的主要缺点是，有些构想概念模糊，没有一致的定义，确定效度时没有明确的操作步骤，没有单一的数量指标来描述有效程度。实证效度（效标关联效度）•实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。也就是说，一个测验是否有效，应该以实践的效果来作为检验标准。例如，当我们用机械能力倾向测验测查了一大批机械工人之后，若有证据表明测验高分组的实际工作成绩确实优于低分组的实际工作成绩，则可以认为该测验具有较高的实证效度。在这里，被估计的行为是检验测验效度的标准，简称为效标。实证效度主要重视那些与测验独立的效标行为，而不太注重测验内容或结构。实证效度也称效标关联效度。•根据效标资料搜集的时间差异，实证效度可以分成同时效度（效标资料与测验分数同时搜集）和预测效度（效标资料在测验之后根据实际工作成绩来确定）两种。同时效度主要用于诊断现状，在于用更简单、更省时、更廉价和更有效的测验分数来取代不易搜集的效标资料。预测效度的作用在于预测某个个体将来的行为。•无论是同时效度还是预测效度，其目的都是想通过对测验在一个有代表性的样本上，用实证的方法来证明测验有效，于是在今后就可以用简便的测验去预测类似于样本的其他团体或个体的行为。因此，有人把二种效度都称作预测效度，并把测验称作预测源。•估计测验的实证效度的首要条件是必须具有效标。所谓效标指的是衡量一个测验是否有效的外在标准，它是独立于测验并可以从实践中直接获得的我们所感兴趣的行为。不过，我们所感兴趣的行为往往是一个观念上的东西（观念效标），它必须用一个数字或等级来进行表达（效标测量）。•显然，同一个观念效标可以有多个效标测量（多样性），而且每一种效标行为往往都是由多种特质构成，因此效标测量是件极为复杂的事（复杂性）。又因效标测量有多种多样，所以有些效标测量只可以反映测验在某一特殊方面的有效性程度，即，在一种情况下有效的测量，在另一种情况下未必有效（特殊性和时间性）。这就要求测验的编制者和使用者要特别小心。•一般说来，效标测量要想较好地体现观念效标，那效标测量本身就必须是有效的和可靠的，而且还必须客观、实用。•效标可以是连续变量，也可以是离散型变量；可以是自然的现成指标，也可以是人为设计的指标；可以是主观判断，也可以是客观测量；可以是自我评定，也可以是他人评定等等。常用的效标主要有：学业成就、等级评定、临床诊断、专门的训练成绩、实际的工作表现等。•实证效度是通过考察测验分数与效标的经验关系确定的。一般来说，确定实证效度可以分为三个