乌鲁木齐职业大学教师培训学院孟卫江2010年4月教育统计基础及SPSS软件的使用乌鲁木齐职业大学教师培训学院教育统计基础及SPSS软件的使用(一)教育统计的基本内容教育统计,就是应用数理统计学的一般原理和方法,对教育科研和教育实践中所获得的数据,进行整理、计算、分析与解释。其主要内容包括以下两个方面:1.描述统计描述统计,就是将数据资料加以整理、简缩,使之有序化,制作成次数分布表或分布图;或根据数据的分布特征,如集中趋势、离中趋势、相关强度等,计算出平均数、标准差、相关系数等概括性的统计量数,以便人们从杂乱的原始数据中获得有意义的信息,进行比较,作出结论。2.推断统计推断统计,是从样本统计量来推断它来自总体的特性,并标明可能发生的误差的统计方法。在现实的教育研究中,限于人力物力,总是从总体中抽取出有代表性的样本,然后从样本统计量对总体的特征进行推断,即进行相应的“显著性检验”等统计分析工作。在推断统计的基础上,研究者将对所研究的问题做出自己的解释、预测或估价。SPSS(StatisticalProgramforSocialSciences)即社会科学统计程序。美国SPSS公司1970年推出,迄今已有近30年的历史。是国际著名三大社会科学统计软件包之一(SAS、SPSS、Statis)乌鲁木齐职业大学教师培训学院1.集中量数描述集中趋势的统计量,叫做“集中量数”,简称“集中量”。常用的集中量数有三种:算术平均数,中(位)数和众数。这里就某实验组和对照组某次考试的原始数据为例作些说明。(1)算术平均数,简称平均数、均数或均值。其符号为“”,它起着衡量一定数据的集中趋势和大致水平的作用,是最常用的集中量,其计算公式是从算术平均数可以看出,实验组与对照组的平均水平是否一样。(2)中数(符号为),是依一定顺序(如由大到小)排列的一组数据居中间位置的一个点的数值,所以又叫中位数。如果数据个数N为奇数时,中位数的位置在(N+1)/2处,若N为偶数,就以居中的两个数据的平均数作中位数。(3)众数(符号为“”),指一组数据中出现次数最多的那个数值。以上三个集中量中,平均数是无偏的客观量数,又最便于代数运算法则处理,从样本数值推断总体集中量时,平均数比中数、众数可靠,其缺点是易受两极端数值的影响。(二)数据的特征量及其计算描述统计乌鲁木齐职业大学教师培训学院例题1:某校在教改实验中采用五级计分考核,实验班与对照班的数学成绩如下:实验班:对照班:等第优秀良好中等及格不及格人数277240规定优秀为90分,良好为80分,中等为70分,及格为60分,不及格为50分,问哪个班的成绩较好?等第优秀良好中等及格不及格人数12161121解:实验班=(90×27+80×7+70×2+60×4)/40≈84(分)对照班=(90×12+80×16+70×11+60×2+50×1)/42≈79(分)经比较,实验班的成绩好。乌鲁木齐职业大学教师培训学院例题2:写出3,5,1,9,8的中位数和3,5,1,9,8,6的中位数解:3,5,1,9,8从大到小排列为9,8,5,3,1处在最中间的数是5。3,5,1,9,8,6共6个数,从大到小排列为9,8,6,5,3,1,排列后处在最中间的两个数的平均数为5.5,5.5就是这组数据的中位数。乌鲁木齐职业大学教师培训学院2.差异量数差异量数是描述次数分布中“离中趋势”这一特征的统计量,简称“差异量”。一组数据,若离中趋势小,则集中量的代表性就大;反之,若离中趋势大,则集中量的代表性就小。但是,仅考虑集中量数是不够的。要了解两组学生成绩分布的全貌,还必须研究两个组的差异量数。最常用的差异量有全距、平均差和标准差。(1)全距(符号为“R”),指一组数据中由最大量数到最小量数的距离。R小说明离散程度小,比较整齐。(2)平均差,指一组数据内的每个数与均数差的绝对值的算术平均数,通常用A.D.表示。平均差的计算公式为:(3)标准差,指一组数据中每一个数值与它们的平均数之差的平方的算术平均数的平方根,其符号为“S”(样本标准差)、“σ”(总体标准差)。其计算公式为:S越大表明离散程度越大,数据不均匀,集中量的代表性小。描述统计乌鲁木齐职业大学教师培训学院例题3:有两个搬运队,职工的年龄分别如下(单位:岁):甲队:22,26,28,31,34,37,39乙队:15,18,27,29,37,43,48写出两队的年龄全距和两队的年龄标准差。解:两队人数相等,且平均年龄都是31岁,但显然乙队年龄差距大。R(甲队)=39岁-22岁=17岁R(乙队)=48岁-15岁=33岁甲队职工年龄离差分别是-9,-5,-3,0,3,6,8,(依次将年龄减31),则方差是[(-9)2+(-5)2+(-3)2+02+32+62+82]÷7=32,标准差S==5.66岁。标准差和平均数一样,都有单位。乙队S=11.4岁。由于S(甲)<S(乙),则乙队职工年龄的离散程度较大。乌鲁木齐职业大学教师培训学院3.标准分数平均值与标准差用来考察与分析同质的统计资料是有价值的,但对于不同质的考试,如不同学科、或同一学科不同考试意义就不大。这样就要计算相对位置量数。相对位置量数有百分等级与标准分数两种。这里就常用标准分数作些介绍。标准分数,又称Z分数,它是一种以平均数为参照点,以标准差为单位的,表示一个分数在团体分数中所处位置的量数,其计算方法为:由原始分数与平均分数的离差除以标准差所得的量数,其符号为“Z”,计算公式是:例:有某生三次数学考试的成绩分别为70、57、45,三次考试的班平均为70、55、42,标准差分别为8、4、5。如何看待该生的三次考试成绩的地位?如果仅从原始分数看,肯定认为第一次最好,其实不然,要计算出各次的标准分数,才能说明问题。根据公式得出:这说明,原始分数为70,其位置正在平均线上,而原始分数为57的,其位置在平均线上0.5处,而原始分数为45的,其位置在平均线上0.6处。描述统计乌鲁木齐职业大学教师培训学院描述统计标准分Z分数虽然能表示一个分数在团体中所处的相对位置,将不可比的原始分数变成可比的测试分数,但标准分Z分数有如下两个缺点:(1)标准分Z分数有正有负,使用不够方便;(2)难以使不懂统计的人理解,也不习惯。为克服上述缺点,可通过线性转换,将Z分数转换成T分数:将Z分数扩大10倍再加上50,即T=10Z+50注:原始分X→标准分Z→T分数,每一个原始分X对应一个T分数.(2)T=10Z+50是一个线性表达式,即T是关于Z的一次函数,对于Z∈[-3,+3],T随Z的增大而增大,因此T分数具有Z分数的优点(仍然能如实地反映某一考生在考生群体中的相对位置,一般录取时直接用Z分数,公布时用T分数),且没有负数,也为社会所接受。计算标准分是繁琐的,但利用计算机就简单了.乌鲁木齐职业大学教师培训学院例题4:甲、乙两名考生2008年高考成绩如下表:如你是招生单位,录取哪个学生?科目原始分数考生成绩统计Z分数甲乙σ甲乙语文105109909数学1131001056外语1231211088理综17919215915总分x5205221.6672.1111.333-0.8331.8751.6251.3332.2006.2085.103由上表可知:从总分看,学生乙的成绩高于学生甲的成绩,按现行的高校招生办法,应优先录取学生乙;但从标准分Z分数看,学生甲的所有科目的成绩都在平均分以上,Z分数总值高于学生乙,按标准分Z分数,显然应优录取学生甲。又观察学生乙的各科成绩,发现其语文、理综成绩突出(Z分数一般在-3~+3之间),因此可为录取相关专业提供参考意见。乌鲁木齐职业大学教师培训学院4.相关系数在教育研究中,常涉及到两个事物(变量)的相互关系问题,例如,学习成绩与非智力因素的关系,数学成绩与物理成绩的关系,男女生学习成绩的关系,等等。其关系表现为以下三种变化;第一,正相关:一个变量增加或减少时,另一个变量也相应增加或减少;第二,负相关:一个变量增加或减少时,另一个变量却减少或增加;第三,无相关:说明两个变量是独立的,即由一个变量值,无法预测另一个变量值。统计学中,就用“相关系数”来从数量上描述两个变量之间的相关程度,用符号“r”来表示。相关系数取值范围限于:-1≤r≤+1描述统计相关系数表示的意义相关系数(r)0.000.00-±0.3±0.30-±0.50±0.50-±0.80±0.80-±1.00相关程度无相关微正负相关实正负相关显著正负相关高度正负相关乌鲁木齐职业大学教师培训学院例:某语文实验班随机抽10名学生,参加市里的语文数学竞赛,其成绩如下表,求这两门成绩的相关系数。10名学生语文与数学相关系数计算表描述统计语文X数学Y5868416749535755628046654858596753776062相关系数的计算公式是由英国统计学家皮尔逊提出的“积差相关”公式:公式中,r=X与Y两数列之间的相关系数;x=X-,即X数列中各量数与其平均数之差;y=Y-,即Y数列中各量数与其平均数之差;Sx=X数列的标准差;Sy=Y数列的标准差;∑xy=各对离差积的总和;N=成对量数的次数,即总对数。乌鲁木齐职业大学教师培训学院语文X数学Yx=X-x2y=Y-y2xy58684.722.0910803.428.46416712.3151.290.800.649.8449534.318.4913.20174.2456.7657553.713.6911.20125.4441.4462808.775.6913.8190.44120.0646657.353.291.210448.7648585.328.098.267.2443.4659675.732.490.80.644.5653770.30.0910.8116.643.2460626.744.894.217.6428.14∑533622440.10697.69159.4r=0.29在0与+0.3之间,属于微正相关,说明这10名学生的语文成绩与数学成绩就样本本身而言,是有一定相关的。描述统计乌鲁木齐职业大学教师培训学院(三)统计检验及其应用统计检验,就是对样本的特征量能否反映总体特征的问题,或两种不同样本数量标志的参数的差异性问题,作出定量分析与推断。1.统计检验的原理与方法(1)统计检验的基本原理统计检验的理论依据是概率论中的“小概率事件实际上的不可能性”原理。所谓“小概率事件”,即假定某个事件在实验中出现的概率很小,则在一次实验中,该事件实际上是不会出现的,例如,把小于0.05或0.01的概率,视为“小概率”。推断统计乌鲁木齐职业大学教师培训学院(2)统计检验的一般方法一般来说,统计检验先对总体的分布规律作出某种假说,然后,根据样本提供的信息,对假说作出肯定或否定的决策。具体步骤为:①提出假设。如“假设两个总体平均数没有差别”,其数学符号为:“H0:μ1=μ2”,这种对总体所作的“无差别”的假设,称为“零假设”或称虚无假设,用符号“H0”表示。与此同时实际上存在第二种假设,“两个总体平均数有差别”,其符号为:“H1:μ1≠μ2”,称为备择假设。显然,“零假设”与“备择假设”是两个对立的假设,肯定此,必否定彼。。②根据不同条件和样本提供的信息即数据,从零假设出发,代入相应的公式,计算出零假设的概率。③作出统计决断,根据“小概率事件实际上不可能性”原理,研究H0成立的概率。如果H0的概率P0.05,表示零假设不是一个小概率事件,则H0成立,便否定被择假设H1从而肯定“H0:μ1=μ2”。如果H0的概率p≤0.05,表明是个小概率事件,H0不成立,就肯定备择假设H1的成立,从而确定μ1≠μ2”。推断统计乌鲁木齐职业大学教师培训学院推断统计①Z检验Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。例1987年上海市初中三年级语文教学调查中,对男女生语文测试成绩作如下统计,试检验男女生语文成绩是否存在显著差异,性别人数总分阅读写作平