数理统计_方差与标准差

a96127
1 ℃
2018-09-29

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

心理和教育方面的实验或调查所得到的数据，大都具有随机变量的性质。而对这些随机变量的描述，仅有前一章所讲集中趋势的度量是不够的。集中量数只描述数据的集中趋势和典型情况，它还不能说明一组数据的全貌。数据除典型情况之外，还有变异性的特点。对于数据变异性即离中趋势进行度量的一组统计量，称作差异量数，这些差异量数有标准差或方差，全距，平均差，四分差及各种百分差等等。第一节方差与标准差方差(Variance)也称变异数、均方。作为统计量，常用符号S2表示，作为总体参数，常用符号σ2表示。它是每个数据与该组数据平均数之差乘方后的均值，即离均差平方后的平均数。方差，在数理统计中又常称之为二阶中心矩或二级动差。它是度量数据分散程度的一个很重要的统计特征数。标准差(Standarddeviation)即方差的平方根，常用S或SD表示。若用σ表示，则是指总体的标准差，本章只讨论对一组数据的描述，尚未涉及总体问题，故本章方差的符号用S2，标准差的符号用S。符号不同，其含义不完全一样，这一点望读者能够给予充分的注意。一、方差与标准差的计算(一)未分组的数据求方差与标准差基本公式是：（3—la）（3—1b）表3—1说明公式3—1a与3—1b的计算步骤表3—1未分组的数据求方差与标准差XiXi—X＝xx2＝(Xi—X)2Xi26574680-1l-2020l1404362549163664N＝6∑Xi＝36∑x＝0∑x2＝10∑Xi2＝226应用3—1公式的具体步骤：①先求平均数X＝36/6＝6；②计算Xi-X；③求(Xi-X)2即离均差x2；④将各离均差的平方求和(∑x2)；⑤代入公式3—1a与3—1b求方差与标准差。具体结果如下：S2=10/6=1.67(二)已分组的数据求标准差与方差数据分组后，便以次数分布表的形式出现，这时原始数据不见了，若计算方差与标准差可用下式：(3—3a)(3—3b)式中d＝(Xc-AM)/i，AM为估计平均数Xc为各分组区间的组中值f为各组区间的次数N=Σf为总次数或各组次数和i为组距。下面以表1—8数据为例，说明分组数据求方差与标准差的步骤:表3—2次数分布表求方差与标准差分组区间Xcfdfdfd2计算96-93-90-87-84-81-78-75-97949188858279762348111719146543210—11215162422170—14727564724417014S2=32*（570/100-（28/100）2）=50.5944S＝7．11372-69-66-63-60-73706764611073l1—2—3—4—5—6—20—21—12—5—64063482536i=3Σf＝100Σfd=28Σfd2=570具体步骤：①设估计平均数AM，任选一区间的Xc充任；②求d⑧用f乘d，并计算Σfd；④用d与fd相乘得fd2，并求Σfd2；⑤代入公式计算。二、方差与标准差的意义方差与标准差是表示一组数据离散程度的最好的指标。其值越大，说明离散程度大，其值小说明数据比较集中，它是统计描述与统计分析中最常应用的差异量数。它基本具备一个良好的差异量数应具备的条件：①反应灵敏，每个数据取值的变化，方差或标准差都随之变化；②有一定的计算公式严密确定；③容易计算；④适合代数运算；⑤受抽样变动的影响小，即不同样本的标准差或方差比较稳定；⑥简单明了，这一点与其他差异量数比较稍有不足，但其意义还是较明白的。除上述之外，方差还具有可加性特点，它是对一组数据中造成各种变异的总和的测量，能利用其可加性分解并确定出属于不同来源的变异性(如组间、组内等)并可进一步说明每种变异对总结果的影响，是以后统计推论部分常用的统计特征数。在描述统计部分，只需要标准差就足以表明一组数据的离中趋势了。标准差比其他各种差异量数具有数学上的优越性，特别是当已知一组数据的平均数与标准差后，便可知占一定百分比的数据落在平均数上下各两个标准差，或三个标准差之内。对于任何一个数据集合，至少有1一1/h2的数据落在平均数的h(大于1的实数)个标准差之内。(切比雪夫定理)。例如某组数据的平均数为50，标准差是5，则至少有75％(1一1/22)的数据落在50-2*5至50+2*5即40至60之间，至少有88．9％(1一1/32)的数据落在50-3*5至50+3*5＝35—65之间(h=2，1-1/h2=1-1/22=3/4=75%，h=3,-1/h2=1-1/32=8/9=88.9%)。如果数据是呈正态分布，则数据将以更大的百分数落在平均数上下两个标准差之内(95％)或三个标准差之内(99.％)。三、由各小组的标准差求总标准差由于方差具有可加性特点，在已知几个小组的方差或标准差的情况下，可以计算出几个小组联合在一起的总的方差或标准差。这种计算常在科研协作中应用，例如先了解各班学生情况，再了解全年级情况；或先了解各年级情况，再了解全校总的情况。但这种方差或标准差的合成，只有在应用同一种观测手段，测量的是同一个特质，只是样本不同时，才能应用。计算总方差或总标准差的公式如下；(3—4a)(3—4b)式中为总方差为总标准差N1…Nn为各小组数据个数为总平均数为各小组的平均数四、标准差的应用(一)差异系数(Coefficientofvariation)当所观测的样本水平比较接近，而且是对同一个特质使用同一种测量工具进行测量时，要比较不同样本之间离散程度的大小，一般可直接比较标准差或方差的大小-标准差的值大说明该组数据较分散，若标准差小，则说明该组数据较集中。标准差的单位与原数据的单位相同，因而有时称它为绝对差异量。在对不同样本的观测结果的离散程度进行比较时，常会遇到下述情况：①两个或多个样本所测的特质不同，即所使用的观测工具不同，如何比较其离散程度?②即使使用的是同+种观测工具，但样本的水平相差较大时，如何比较它们的离散程度?在第一种情况下，标准差的单位不同，显然不能直接比较标准差的大小。第二种情况虽然标准差的单位相同，但两样本的水平不同，这可从平均数的大小明显不同确定。通常情况下，平均数的值较大，其标准差的值一般也较大，平均数的值较小，其标准差的值也较小。这种情况下，若直接比较标准差取值的大小，借以比较不同样本的分散情况是无意义的。可见，上述两种情况下，若用绝对差异量进行直接比较以确定其分散程度的大小是不行的，这时可用相对差异量进行比较。最常用的相对差异量就是差异系数。差异系数，．又称变异系数、相对标准差等，通常用符号CV表示，其计算如下，CV=S/M*100％(3—5)式中S为某样本的标准差M为该样本的平均数。差异系数在心理与教育研究中常用于：①同一团体不同观测值离散程度的比较，②对于水平相差较大，但进行的是同一种观测的各种团体，进行观测值离散程度的比较。例2已知某小学一年级学生的平均体重为25公斤，体重的标准差是3.7公斤，平均身高110厘米，标准差为6.2厘米，问体重与身高的离散程度哪个大?解：CV体重＝3.7/25*100％＝14.8％CV身高＝6.2/110*100％＝5.64％通过比较差异系数可知，体重的分散程度比身高的分散程度大(14.8％5.64％)。例3通过同一个测验，一年级(7岁)学生的平均分数为60分，标准差为4.02分，五年级(14岁)学生的平均分数为80分，标准差为6.04分，问这两个年级的测验分数中哪一个分散程度大?解：CV一年级＝4.02/60*100％=6.7％CV五年级＝6.04/80*100％=7.55％答；五年级的测验分数分散程度大。在应用差异系数比较相对差异大小时，一般应注意测量的数据要保证具有等距的尺度，这时计算的平均数和标准差才有意义，应用差异系数进行比较也才有意义。另外，观测工具应具备绝对零，这时应用差异系数去比较分散程度效果才更好。因此，差异系数常用于重量、长度、时间，编制得好的测验量表范围内。第三，差异系数只能用于一般的相对差异量的描述上，至今尚无有效的假设检验方法，因此对差异系数不能进行统计推论。(二)标准分数(standardscore)标准分数又称基分数或z分数，是以标准差为单位表示一个分数在团体中所处位置的相对位置量数。1．计算公式；Z=（X—）/S(3—6)式中X代表原始数据，X为一组数据的平均数，S为标准差。从公式3—6可以明了，Z分数的意义，它是一个数与平均数之差除以标准差所得的商数，它无实际单位。如果了个数小于平均数，其值为负数，如果一个数的值大于平均数，其值为正数，如果一个数的值等于平均数，其值为零。可见Z分数可以表明原数目在该组数据分布中的位置，故称为相对位置量数。例4某班平均成绩为90分，标准差为3分，甲生得94．2分，乙生得89．1分，求甲乙'学生的Z分数各是多少?解：根据公式3—6Z甲=(94.2—90)/3=1.4Z乙=(89.1—90)/3=-0.3Z分数表示其原分数在以平均数为中心时的相对位置，这比使用平均数和原分数表达了更多的信息。2．Z分数的性质①在一组数据中所有由原分数转换得出的z分数之和为零，其Z分数的平均数亦为零。②一组数据中各z分数的标准差为1。3．Z分数的应用①Z分数可用于比较分属性质不同的观测值在各自数据分布中相对位置的高低。因为z分数可以表明各原数目在该组数据分布中的相对位置，它无实际单位。这样不同观测值的比较便可进行。这里所说的数据分布中相对位置包括两个意思，一个是表示某原数目以平均数为中心以标准差为单位所处距离的远近与方向；另一个意思是表示某原数目在该组数据分布中的位置，即在该数目以下或以上的数据各有多少，如果在一个正态分布(或至少是一个对称分布)中，这两个意思可合二为一。但在一个偏态分布中，这两个意思就不能统一。这一点在应用z分数时要特别注意。例如有一人的身高是170厘米，体重是65公斤(也可以是另一人的体重)，究竟身高还是体重在各自的分布中较高?这是属于两种不同质的观测，不能直接比较。但若我们知道各自数据分布的平均数与标准差，这样我们可分别求出z分数进行比较。设Z身高1.70＝0.5，Z体重65=1.2，则可得出该人的体重离平均数的距离要比身高离平均数的距离远，即该人在某团体中身高稍偏高，而体重更偏重些。如果该团体，身高与体重的次数分布为正态，我们还可更确切地知道该人的身高与体重在次数分布的相对位置是多少，从而进行更确切(或更数量化)的比较。、②当已知各不同质的观测值的次数分布为正态时，可用z分数求不同的观测值的总和或平均值，以示在团体中的相对位置。在算术平均数一节中讲到，在计算平均数时，要求数据必须同质，否则会使平均数没有意义，但有时需要将不同质的数据合成，这时可采用Z分数。例如已知高考的各科成绩分布是正态分布，但是由于各科的难易度不同，因此，各科成绩就属于不同质的数据。以前常采取总和分数或求平均分数的方法，这是不科学的。如果应用Z分数求总和或平均数则更有意义。类似这种情况有期末成绩总和等。举例如下表3-3利用Z分数求总和科目原始分数甲乙全体考生平均数标准差Z分数甲乙语文政治外语数学理化8589706268725340728770lO6556985067581.5001.9001.000-0.6000.1250.3750.500-1.6670.3151.500总计3483502.5001.505假设二例是高等学校入学考试两名考生甲与乙的成绩分数。如果按总分录取则取乙生，若按标准分数录取则应取甲生；为何会出现如此悬殊的差别?这是由于不恰当地计算总和分数造成的，因为各科成绩难易度不同，分散程度也不同；：各门学科的成绩分数是不等价的，亦即数据是不同质的，这时应用总和分数不够科学，故此出现这类问题，科学的方法应当用Z分数合成。从Z分数可知甲生多数成绩是在平均数以上，即使有两种成绩低于平均数，差别也小。总之成绩较稳定且在分布较高处，而乙生则不然。可见应用Z分数更趋合理。③表示标准测验分数经过标准化的心理与教育测验，如果其常模分数分布接近正态分布，常常转换成正态标准分数。转换公式为Z=aZ+b(3—7)式中Z＇为正态标准分数，Z＝（X—）/σ，a、b为常数，σ为