关于试卷分析的序列概念辑要

wangyc1028
1 ℃
2020-01-06

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

关于试卷分析的序列概念辑要1、方差：是各个数据与平均数之差的平方的平均数。在概率论和数理统计中，方差（英文Variance）用来度量随机变量和其数学期望（即均值）之间的偏离程度。在许多实际问题中，研究随机变量和均值之间的偏离程度有着很重要的意义。如下面的例子：已知某零件的真实长度为a，现用甲、乙两台仪器各测量10次，将测量结果X用坐标上的点表示如图：甲仪器测量结果：乙仪器测量结果：两台仪器的测量结果的均值都是a。但是用上述结果评价一下两台仪器的优劣，很明显，我们会认为乙仪器的性能更好，因为乙仪器的测量结果集中在均值附近。方差，通俗点讲，就是和中心偏离的程度！用来衡量一批数据的波动大小（即这批数据偏离平均数的大小）并把它叫做这组数据的方差。记作S²。在样本容量相同的情况下，方差越大，说明数据的波动越大，越不稳定。2、标准差（StandardDeviation）：也称均方差（meansquareerror），是各数据偏离平均数的距离的平均数，它是离均差平方和平均后的方根，用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的，标准差未必相同。简单来说，标准差是一组数据平均值分散程度的一种度量。一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。3、偏度：在机率论和统计学中，偏度（Skewness）衡量实数随机变量概率分布的不对称性。偏度的值可以为正，可以为负或者甚至是无法定义。在数量上，偏度为负（负偏态）就意味着在概率密度函数左侧的尾部比右侧的长，绝大多数的值（包括中位数在内）位于平均值的右侧。偏度为正（正偏态）就意味着在概率密度函数右侧的尾部比左侧的长，绝大多数的值（包括中位数在内）位于平均值的左侧。偏度为零就表示数值相对均匀地分布在平均值的两侧，但不一定意味着其为对称分布。偏度分为两种：负偏或负偏态（negativeskew）：左侧的尾部更长，分布的主体集中在右侧。这种情形又可被称为左偏态（skewedtotheleft）[1]。正偏或正偏态（positiveskew）：右侧的尾部更长，分布的主体集中在左侧。这种情形又可被称为右偏态（skewedtotheright）[1]。如果分布对称，那么平均值=中位数，偏度为零（此外，如果分布为单峰分布，那麽平均值=中位数=众数）。负偏态（左）和正偏态（右）4、峰度：峰度的概念：峰度是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏态系数都相同，但他们分布曲线顶端的高耸程度却不同。峰度系数公式：峰度系数（Kurtosis）用来度量数据在中心聚集程度。在正态分布情况下，峰度系数值是0。正的峰度系数说明观察量更集中，有比正态分布更长的尾部；负的峰度系数说明观测量不那么集中，有比正态分布更短的尾部，类似于矩形的均匀分布。峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性。如果该比值绝对值大于2，将拒绝正态性。偏度系数（Skewness）用来度量分布是否对称。正态分布左右是对称的，偏度系数为0。较大的正值表明该分布具有右侧较长尾部。较大的负值表明有左侧较长尾部。偏度系数与其标准误的比值同样可以用来检验正态性。5、全距：全距是用来表示统计资料中的变异量数(measuresofvariation)，其最大值与最小值之间的差距；即最大值减最小值后所得之数据。其适用于等距变量、比率变量，不适用于名义变量或次序变量。全距也称为极差，是指总体各单位的两个极端标志值之差，即：R=最大标志值－最小标志值因此，全距（R）可反映总体标志值的差异范围。例：有两个学习小组的统计学开始成绩分别为：第一组：60，70，80，90，100第二组：78，79，80，81，82很明显，两个小组的考试成绩平均分都是80分，但是哪一组的分数比较集中呢？如果用全距指标来衡量，则有：R甲=100－60=40（分）R乙=82－78=4（分）这说明第一组资料的标志变动度或离中趋势远大于第二组资料的标志变动度。6、直方图：在质量管理中，如何预测并监控产品质量状况?如何对质量波动进行分析?直方图就是一目了然地把这些问题图表化处理的工具。它通过对收集到的貌似无序的数据进行处理，来反映产品质量的分布情况，判断和预测产品质量及不合格率。直方图又称质量分布图，柱状图，它是表示资料变化情况的一种主要工具。用直方图可以解析出资料的规则性，比较直观地看出产品质量特性的分布状态，对於资料分布状况一目了然，便于判断其总体质量分布情况。在制作直方图时，牵涉学的概念，首先要对资料进行分组，因此如何合理分组是其中的关键问题。按组距相等的原则进行的两个关键数位是分组数和组距。是一种几何形图表，它是根据从生产过程中收集来的质量数据分布情况，画成以组距为底边、以频数为高度的一系列连接起来的直方型矩形图，如图所示。直方图的作用(1)显示质量波动的状态；(2)较直观地传递有关过程质量状况的信息；(3)通过研究质量波动状况之后，就能掌握过程的状况，从而确定在什么地方集中力量进行质量改进工作。7、难度：难度即测试题目的难易程度．一般在能力方面的测试中，它作为衡量测试题目质量的主要指标之一．它是衡量试题质量的一个重要指标参数，它和区分度共同影响并决定试卷的鉴别性。难度的计算一般采用某题目的通过率或平均得分率。测试的难度水平多高才合适，这取决于测试的目的、项目的形式和测试的性质。两种定义：（1）P=1—x/wx为某题得分的平均分数，w为该题的满分。这种定义法，难度值小时表明试题容易，值大时表明试题难，最小值为0，最大值为1。（2）P=x/w这种定义法，难度值小时表明试题难，值大时表明试题容易，最小值为0，最大值为1。我们惯常使用这个定义。8、区分度：区分度是测量学中的专有名词，区分度是衡量题目质量的主要指标之一，是在编制测验时筛选题目的依据。区分度是指一道题能多大程度上把不同水平的人区分开来，也即题目的鉴别力。区分度越高，越能把不同水平的受测者区分开来，该道题目被采用的价值也就越大。什么情况下区分度高呢？或者说什么样的题目才能最大限度地区分不同水平的人群？这就引出了试题项目评价的第二个指标：难度。题目的难度过高，很少人能答对，大部分得分都很低；难度过低，很少人会答错，分数分布在高分端。因而过难或过易的题目都不能很好地区分不同水平的个体。因而当题目的难度为中等时，区分度最高。一个好的测验中是不是要求所有题目都是中等难度？那高考、研究生入学考试这样的高水平测试为何还有难度很大或很小的题目？这是因为在一个测验中如果都是中等难度的题目，就又走向另一个极端，即对中等程度的人有最佳鉴别力，而对水平高和水平低的那部分人不能做很好的区分。简言之，不同难度的题目对于不同水平的人来说区分度是不同的。鉴于全体受测者的能力分布往往是呈正态的，测验中题目难度的分布也基本为正态分布，即难、中、易都有分布，中等难度题目最多。只有这样才能保证整个测验有较高的鉴别力。区分度的常用指标为D，取值在-1～1之间，值越大区分度越好。测量学家伊贝尔认为：试题的区分度在0.4以上表明此题的区分度很好，0.3～0.39表明此题的区分度较好，0.2～0.29表明此题的区分度不太好需修改，0.19以下表明此题的区分度不好应淘汰。区分度的计算方法有两种：鉴别指数法和相关系数法。这里介绍一下鉴别指数法：比较测验总分高和总分低的两组被试在项目通过率上的差别得来。D=PH－PLPH为高分组（即得分最高的27%）被试在该题上的通过率，PL为低分组（即得分最低的27%）被试在该题上的通过率。9、效度：效度是测量的有效性程度，即测量工具确能测出其所要测量特质的程度，或者简单地说是指一个测验的准确性、有用性。效度是科学的测量工具所必须具备的最重要的条件。在社会测量中，对作为测量工具的问卷或量表的效度要求较高。鉴别效度须明确测量的目的与范围，考虑所要测量的内容并分析其性质与特征，检查测量的内容是否与测量的目的相符，进而判断测量结果是否反映了所要测量的特质的程度。测试维度：1）表面效度（facevalidity）。指测试应达到的卷面标准，即一套测试题从表面看来是否是合适的。例如，若一次阅读理解力的测试包括许多受试者没有学过的方言词汇，则可认为这次测试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素。2）内容效度（contentvalidity）。指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求，即测试的代表性和覆盖面的程度。例如，如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能，如只考单一音素的发音，而不考查重读、语调或音素在词语中的发音，那么，该测试的内容效度就很低。3）编制效度（constructvalidity）。指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。例如，以结构主义语言理论为基础，认为系统的语言习惯是通过句型而获得的，那么，强调词汇和语法环境的测试题目就失去了编制效度。4）经验效度（empiricalvalidity）。经验效度是一种衡量测试有效性的量度，通过把一次测试与一个或多个标准尺度相对照而得出。经验效度可分为两种：一是共时效度（concurrentvalidity），即将一次测试的结果同另一次时间相近的有效测试的结果相比较，或同教师的鉴定相比较而得出的系数；二是预测效度（predictivevalidity），即将一次测试的结果同后来的语言能力相比较，或是同教师后来对学生的鉴定相比较而得出的系数。一般来说，对某次测试的效度进行检验时，除了要根据教学大纲的要求和观念有效性的理论对试卷的内容进行考查以外，还须采用计算相关系数的定量方法，即计算出本次试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。系数高则有效性大。课堂测试的效度应在0.4-0.7之间，规模较大的测试其效度应在0.7以上。10、信度：信度系指测验结果的一致性、稳定性及可靠性，一般多以内部一致性来加以表示该测验信度的高低。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。系统误差对信度没什么影响，因为系统误差总是以相同的方式影响测量值的，因此不会造成不一致性。反之，随机误差可能导致不一致性，从而降低信度。信度可以定义为随机误差R影响测量值的程度。如果R=0，就认为测量是完全可信的，信度最高。1）指标：信度系数与信度指数大部分情况下，信度是以信度系数为指标，它是一种相关系数。常常是同一被试样本所得到的两组资料的相关，理论上说就是真分数方差与实得分数方差的比值，公式为：r(xx)=r^2(xt)=S^2(t)/S^2（x）公式中r^2(xt)是真分数标准差与实得分数标准差的比值，称作信度指数，公式为：r(xt)=S(t)/S(x)可见信度指数的平方就是信度系数。测量标准误信度系数仅表示一组测量的实得分数与真分数的符合程度，但并没有直接指出个人测验分数的变异量。我们可以用一组被试两次测量结果来代替对同一个人的反复施测，于是有了信度的另一个指标，公式为：SE=S(x)√1-r(xx)公式中SE为测量的标准误，S(x)是所得分数的标准差，r(xx)为测验的信度系数，从公式我们可以看出测量的标准误与信度之间有互为消长的关系：信度越高，标准误越小，信度越低，标准误越大。2）测试信度：综述测试信度也叫测试的可靠性，指的是测试结果是否稳定可靠。也就是说，测试的成绩是不是反映了受试者的实际语言水平。例如，如果同一套测试在对同一测试对象（即受试者本身没有变化）进行的数次测试中，受试者的分数忽高忽低的话，则说明该测试缺乏信度。测试的信度与测试的效度有着密切的关系。一般说来，只有信度较高的测试才能有较高的效度，但效度较高不能保证信度也一定较高。测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素；评分是否可靠则要看评分标准是否客观和准确。测试的信度通常用一种相关系数（即两个数之间的比例关