课题研究数据整理与分析---统计理论部分周海波湖南师范大学心理系课程目标、内容目标:掌握课题研究的一些基本思路、选取方法、统计分析方法内容统计概论Excel与课题研究SPSS与课题研究引言--课题研究案例1双手交叉与性别的关系与文理科的关系与性格气质类型的关系如果描述上述结果?课题研究一般过程选择课题实施方案实验研究整理结果一统计概论统计学:是一门关于用科学方法收集、整理、汇总、描述和分析数据咨询,并在此基础上进行推断和决策的科学。统计统计资料统计工作统计学教育统计学心理与教育统计学的研究内容描述统计推论统计实验设计心理与教育统计学1.1描述统计定义:主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质.内容:数据如何分组:使用统计图表描述怎样计算一组数据的特征值,从而描述数据全貌表示一一事物两种或两种以上属性间相互关系的描述及各种相关系数的计算及应用条件,描述数据分布特征的峰度偏度系数的计算方法推论统计定义:研究如何通过局部数据所提供的信息,推论总体的情形,目的在于根据已知的情况,在一定概率的意义上估计、推测未知的情况。内容假设检验,大样本(Z检验);小样本(t检验);计算资料(百分数检验,X2检验),变异数分析(F检验),回归分析方法总体参数特征值估计方法非参数的统计方法实验设计目的:研究如何更加合理、有效地获得观察资料,如何更正确、更经济、更有效的达到目的实验目的,以提示实验中各种变量关系的实验计划。内容:选择怎样的抽样方式;如何计算样本容量;确定怎样的实验对照形式;如何实现实验组和对照组的等组化;如何安排实验因素和如何控制无关因素;用什么统计方法处理及分析实验结果,心理与教育统计学基础知识1、数据类型分类数据等级数据等距数据比率数据计数数据离散型数据测量数据连续型数据变量、随机变量、观测值变量是可以取不同值的量。统计观察的指标都是具有变异的指标。当我们用一个量表示这个指标的观察结果时,这个指标是一个变量。用来表示随机现象的变量,称为随机变量。一般用大写的X或Y表示随机变量。随机变量所取得的值,称为观测值。一个随机变量可以有许多个观测值。总体、个体和样本需要研究的同质对象的全体,称为总体。每一个具体研究对象,称为一个个体。从总体中抽出的用以推测总体的部分对象的集合称为样本。样本中包含的个体数,称为样本的容量n。一般把容量n≥30的样本称为大样本;而n<30的样本称为小样本。统计量和参数统计指标统计量参数平均数μ标准差Sσ相关系数rρ回归系数bβX次数、比率、频率与概率次数/频数:某一事件在某一类别中出现的数目比率:两个数的比频率:某一事件发生的次数被总的事件数目除概率:某一事件在无限的观测中所能预料的相对出现的次数,即某一事物或某种情况在某一总体中出现的比率。统计误差误差是测得值与真值之间的差值。测得值=真值+误差统计误差归纳起来可分为两类:测量误差与抽样误差。由于使用的仪器、测量方法、读数方法等问题造成的测得值与真值之间的误差,称为测量误差。由于随机抽样造成的样本统计量与总体参数间的差别,称为抽样误差。抽样原理及其方法原则:随机化,在进行抽样中,总体中每一个体是否被抽取,并不由研究者主观决定,而是每一个体按照概率原理被抽取的可能性是相等抽样方法简单随机抽样:抽签法,随机数字法等距抽样:排序,隔若干个抽取一个分层随机抽样:将总体分层,每层中随机抽样两阶段随机抽样:分为两阶段缺失:指数据不全或缺项未填;例如一份资料中未回答的问题占10%以上,或者缺少关键性资料。可疑:指难以辨认或怀疑其真实性的数据;例如,有的被试填答的问卷全部选同一个选项(如全选A或全选B);有的被试填答的结果可以看到是一种规则的排列方式(如ABCDEDBCABCDE……)。失误:指存在明确差错的数据或答案。对于个别极端数据是否该剔除,应遵循三个标准差法则。1.2统计表统计表是用来表达研究变量与被说明的事物之间数量关系的表格。它可以将大量数据的分类结果清晰、概括、一目了然地表达出来,便于分析、比较和计算。统计表的构成横标目的总标目纵标目横标目数字表2-1统计表的格式顶线底线表线表号标题标目标目表注注:例:表2-2北京市四街道智力落后患者分布街道检查人数病人数患病率(‰)甲518411593.1乙760302633.5丙495081903.8丁517881703.3总计2291687823.4资料来源:见《心理学报》1979年第1期103页,选部分引用统计表的种类简单表:只按研究现象(或变量)的名称、地点、时序等列出数据的统计表。分组表:只按一个标志分组的统计表称为分组表。复合表:按两个或两个以上标志分组的统计表称为复合表。简单表表2-3各校学生数一览表学校A校B校C校D校人数9857628931051分组表表2-4上海市区男幼儿20米跑步用时年龄组3岁~4岁~5岁~6岁~平均用时(秒)7.717.166.045.53资料来源:引自《华东师范大学学报》,1985年第2期第30页复合表表2-5某年级操行评定结果班别甲乙丙丁合计男女男女男女男女一班6588642140二班55910331137三班7698430138合计18162626131033115例:表2-6中学生心理烦恼调查被试分布女生男生女生男生女生男生女生男生初一1819645431123174初二121238408501116初三101026311271013119高一491815423257高二17343245974112高三1173210217合计625419616734352225595合计中学习成绩好差未填1.3、统计图统计图是整理和呈现数据的另一种方法,它把研究变量与被说明事物之间的数量关系用图形表现,直观、形象地表达出事物的全貌及其数据的分布特征,使人一目了然,便于理解和记忆,印象深刻。统计图的构成统计图一般由图号、标题、标目、图形、图注等几部分构成。统计图中的标目由基线和尺度线构成。对于有纵、横轴的统计图,一般以基线表示被观察的现象,而尺度线则表示其数量。统计图的分类条形图:用直条的长短来表示统计项目数值大小的图形,主要是用来比较性质相似的间断型资料。圆形图:是用于表示间断型资料比例的图形。圆形的面积表示一组数据的整体,圆中扇形的面积表示各组成部分所占的比例。各部分的比例一般用百分比表示。单式条形图0102030405060甲乙丙丁等级人数图2-1某年级操行评定结果条形图基线尺度线图形复式条形图图2-2某年级操行评定结果条形图05101520253035甲乙丙丁等级人数男女例:图2-3三项影响较大的SARS信息对不同文化程度民众的影响00.511.522.533.544.5世卫组织对来本地旅游的警告卫生部、本市的新闻发布会所在单位和住宅区有无患者初中高中大专本科圆形图图2-4某年级操行评定结果圆形图丁4%乙47%丙19%甲30%基线尺度线绘制圆形图的步骤求出各组成部分所占的百分比求出各部分的中心角度以顺时针方向画出扇形标出不同颜色及百分比总数量某一成分数量360总数量某一成分数量丁4%乙47%丙19%甲30%线形图线形图用来表示连续型资料。它能表示两个变量之间的函数关系;一种事物随另一种事物变化的情况;某种事物随时间推移的发展趋势等。基于线形图,既可对有关统计变量进行数量比较,又可分析发展的趋势。例如:对有意义的词汇,小学一年级至初中三年级学生视觉、听觉记忆再现率的情况。010203040506070一二三四五六初一初二初三年级百分比视觉记忆听觉记忆图2-5有意义的材料再现率比较线形图1.4集中量数集中趋势:数据分布中大量数据向某方向集中的程度算数平均数中数众数加权平均数几何平均数调和平均数差异量数离中趋势:数据分布中彼此分散的程度,差异量越大,表明数据越分散、不集中;差异量越小,表明数据越集中,变动范围越小。全距百分位数四分位数平均差方差标准差二、平均差平均差(averagedeviation或者meandeviation)是指一组数据中,每一个数据与该组数据的平均数离差的绝对值的算术平均数,通常用AD或MD表示。本书中均以AD表示。三、方差和标准差方差(又称为变异数、均方)。是表示一组数据离散程度的统计指标。一般样本的方差用表示,总体的方差用表示。标准差(standarddeviation)是方差的算术平方根。一般样本的标准差用S表示,总体的标准差用表示。标准差和方差是描述数据离散程度的最常用的差异量。2S2表5-152名学生数学成绩方差和标准差计算表成绩组中值Xc频数fF*XcF*XC2计算95-97.5219519012.590-92.5218517112.585-87.53262.522968.7580-82.55412.534031.2575-77.586204805070-72.511797.557818.7565-67.59607.541006.2560-62.55312.519531.2555-57.542301322550-52.521055512.545-47.5147.52256.25合计523775280525222nfXnfXScc5.1242523775522805255.124S16.115.方差和标准差的意义方差与标准差是表示一组数据离散程度的最好指标,是统计分析中最常用的差异量。标准差具备一个良好的差异量应具备的条件,如:反应灵敏,有公式严密确定,简明易懂,适合代数运算等等。应用方差和标准差表示一组数据的离散程度,须注意必须是同一类数据(即同一种测量工具的测量结果),而且被比较样本的水平比较接近。1.4标准分数标准分数(standardscore),又称为基分数或Z分数(Z-score),是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。标准分数从分数对平均数的相对地位、该组分数的离中趋势两个方面来表示原始分数的地位。Z分数可以表明原始分数在团体中的相对位置,因此称为相对位置量数。把原始分数转换成Z分数,就把单位不等距的和缺乏明确参照点的分数转换成以标准差为单位、以平均数为参照点的分数。2.标准分数的性质Z分数无实际单位,是以平均数为参照点、以标准差为单位的相对量。一组原始分数得到的Z分数既有正值,也有负值,所有原始分数的Z分数之和为零。一组原始数据中,各个Z分数的标准差为1。标准正态分布的平均值为0,标准差为1。3.标准分数的优点可比性:标准分数以团体的平均数为基准,以标准差为单位,因而具有可比性。可加性:标准分数使不同的原始分数具有相同的参照点,因而具有可加性。明确性:标准分数较原始分数的意义更为明确。合理性:标准分数保证了不同性质的分数在总分数中的权重相同,使分数更合理地反映事实。4、标准分数的应用用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。计算不同质的观测值的总和或平均值,以表示在团体中的相对位置。当研究需要合成不同质的数据时,如果已知这些不同质的观测值的次数分布为正态,这时可采用Z分数来计算不同质的观测值的总和或平均值。可以看到,在平均数上下各三个标准差的范围内,分布着全部数据的99.73%,反言之,在三个标准差之外的数据不足0.27%,因此常把“三个标准差”做为判断可疑值取舍的依据。2.区间估计以样本统计量的抽样分布(概率分布)为理论依据,按一定概率的要求,由样本统计量的值估计总体参数值的所在范围,称为总体参数的区间估计。对总体参数值进行区间估计,就是要在一定可靠度上求出总体参数的置信区间的上下限。⑴要知道与所要估计的参数相对应的样本统计量的值,以及样本统计量的理论分布;⑵要求出该种统计量的标准误;⑶要确定在多大的可靠度上对总体参数作估计,再通过某种理论