教育统计学本学期主要内容第一章绪论第二章数据的初步整理第三章集中量第四章差异量第五章相关关系第六章抽样分布及总体平均数的推断第七章平均数差异的显著性检验第十章χ²检验第十一章相关分析主要内容:•1.1统计学的发展史简介•1.2教育统计学的主要内容•1.3统计学中的基本概念•1.4学习教育统计学的方法第一章绪论1.1.1统计学的起源第一阶段称之为“城邦政情”阶段STATISTICS(统计学)一词源于法语STATUS(状态)自中世纪以来逐渐演变为含有政治意味的STATE(国家)。因此,统计学包含有对国家状态作调查研究的意义。概率论的起源与发展。概率论的发展最早源于赌博1654年:德.梅勒,帕斯卡,费马(法国)惠更斯(C.Huygens)著《论赌博中的计算》1.1统计学的发展史简介第二阶段称之为“政治算数”阶段十七世纪,政治算术统计学在英国兴起。1690年英国威廉·配弟出版(政治算数)一书作为这个阶段的起始标志.K.Pearson(1857~1936),在前人的基础上发展出许多描述统计方法:频数分布、频数分布函数、标准差、相关等。第三阶段称之为“统计分析科学”阶段W.S.Gorsset(戈赛特)(Student)开始研究t分布R.A.Fisher(费希尔)统计推断学的创立F分布1.1.2统计学的应用当今信息时代,无论社会政治、军事、经济,还是生物医学、教育心理、工农业生产等各行各业都有大量的数据,需要我们进行分析,从中挖掘出有用的证据、消除虚假的信息,发现事物内部的规律性。案例1‘非典’中的统计问题北京血液中心高XX主任介绍:香港医务人员用已康复者血浆治疗20例非典病人无一例死亡,而其对照组20例中,有3人死亡。这表明用康复病人血浆治疗非典病人是有效的。---摘自北京日报2003.5.28用康复病人血浆治疗非典病人真有效吗?应用统计分析进行卡方(χ²)检验,很快得出结论:P=0.23080.05.经过统计分析,认为两组差别无统计意义。现在实事也不支持原研究者的用康复病人血浆治疗非典病人结论。案例2离婚案件1949年,西方某国家曾有过一个真实的故事。丈夫到法院要求离婚,唯一的理由是他去海外服兵役50个星期后,回家发现妻子在家分娩。法官怎么样判案?这桩诉讼案的统计学问题是如何判定正常最长妊娠期的时间。正常妊娠期的统计分布图图1-1正常妊娠期分布05101520253028323640444852时间(周)频率%正常妊娠期超过48周的频率几乎为零。大部分人会觉得丈夫蒙受了不白之冤,如果当时法官仅通过正常妊娠期分布,会判丈夫胜诉。此时,妻子可能蒙冤,虽然其蒙冤的可能性很小。法官判决法官根据医学界的证词,认定怀孕50周,尽管不大可能,但仍可能是科学事实,因此判丈夫败诉。在这桩诉讼案中,统计学依据和其它法庭证据一样,只能为法官判案提供参考,不能成为唯一的判决依据。2000年,法国政府已将统计学列入二十一世纪影响法国社会发展的十个重大领域之一。2001年,中国国家教育部为推进基础教育改革而推出新课程标准,将统计学纳入新的小学数学课程。要求小学生要“经历运用数据描述信息、作出推理的过程,发展统计观念”。1.2.1统计学与教育统计学1.统计学统计学是研究统计原理和方法的科学。具体:是研究如何搜集、整理、分析反映事物总体的数字资料,并以此为依据,对总体特征进行推断的原理和方法。2.教育统计学教育统计学是运用数理统计的原理和方法研究教育问题的一门应用科学。主要任务:研究如何搜集、整理、分析由教育调查和教育实验等途径所获得的数字资料,并以此为依据,进行科学推断,从而揭示蕴含在教育现象中的客观规律。1.2教育统计学的主要内容教育调查研究流程提出问题——确定调查内容——确定调查范围——进行调查——收集、整理、分析数据资料——得出结论。教育科学实验研究流程教育科学实验:提出问题——界定——确定研究范围——假说——实验——收集、整理、分析数据资料——得出结论。教育统计学的研究内容(1)提供各种统计方法的应用条件。(2)对统计计算的结果进行解释。1.描述统计对已获得的数据进行整理、概括,显现其分布特征的统计方法,称为描述统计。常用的描述统计方法:集中量、差异量、标准分数、相关量。2.推断统计根据样本所提供的信息,运用概率的理论进行分析、论证。在一定可靠程度上对总体分布特征进行估计、推测。这种统计方法成为推断统计。3.实验设计实验者为了揭示实验中自变量与因变量的关系,在实验前所制订的实验计划称为实验设计。1.2.2教育统计学的基本内容资料收集描述统计推断统计概率论•经常性资料•调查数据•实验数据•历史资料•测验数据•统计图表•集中量•差异量•相关量•Z检验•T检验•χ²检验•相关分析1.2.3教育统计学的结构1.3教育统计中几个基本概念。1.随机现象:它具有以下三个特征:①一次实验有多种可能的结果,其所有可能的结果是已知的;②试验之前不能预料哪一种结果会出现;③在相同的条件下可以重复实验。2.随机事件:随机现象的每一种结果叫做一个随机事件。3.随机变量:我们把能表示随现象各种结果的变量称为随机变量。所研究的具有某些相同性质的全部单位或事件的整体。总体无限总体:含无限多个单位。范围有限总体:含有限个单位。样本:亦可称为抽样总体,是从总体中抽取部分单位所组成的整体,用以分析总体。样本中包含个体的数目成为样本的容量,用n表示二总体和样本三统计量和参数参数:总体上的各种数字特征是参数总体平均值µ总体标准差σ统计量:样本上的数字特征是统计量样本平均值样本标准差σxx随机抽样是根据随机原则来抽取样本单位.简单随机抽样方法:在抽样框中的每个单位都具有相同的被抽中的机会,每个容量相同的样本被抽中的机会也是相同的。亦称为纯随机抽样抽取样本的方法:有放回抽样和无放回抽样。适合:总体内部差异不是很大,规模也不大的情况。四抽样方法机械抽样方法:抽样框中的N个单位被分成k个系统,k等于抽样框的容量N除以所需的样本容量n,在抽样框中前面的k个个体或单位中随机抽出第一个样本单位,然后,可在其后的每隔k个单位抽取样本中其余的部分。亦可称为等距抽样············例如:从我校11级3000名新生中随机抽取300人了解其英语学习水平。分层抽样亦可称为类型抽样方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。总体N样本nkkNnNnNnNn......22112NkN1N1n2nkn······例如,对某校800个学生的品德情况进行了解,拟取40个学生作为样本。800个学生学科成绩优(160人):良(320人):中(240人):差(80人):然后从各部分随机抽样。整群抽样方法:首先把总体中的N个单位划分成为若干个群,并要求每个群对整个总体都具有代表性,然后对群进行简单随机抽样,并对抽中群内的所有单位进行调查研究。总体群数R=16样本群数r=4样本容量ABCDEFGHIJKLMNOPLHPDhlpdnnnnn适用范围:比简单随机抽样的方法能节约更多的成本,特别当总体的分布地域非常辽阔时。思想观念+学习方法1.4学习教育统计学的方法1)思想观念教育统计学不神秘,不可怕,不难学好。教育统计学既很有用,也很有趣。中学教师专业成长过程中必须开展教学研究(论文)2)学习方法2)重视典型案例的系统学习1)重点掌握:基本概念、各种方法使用条件、范围3)重视理论与课后练习相结合第二章数据的初步整理§2—1数据的来源及种类§2—2统计表§2—3统计图§2—1数据的来源及种类一数据的来源1.经常性资料2.专题性资料(1)教育调查:现情调查、回顾调查和跟踪调查(2)教育实验:单组实验、等组实验二数据的种类1.按数据的来源分:点计数据和测量数据.2.按随机变量的取值分:间断型随机变量和连续型随机变量.2.2.1表的基本结构•标题•表号•标目(横标目、纵标目)•线条(三栏一竖)•数字(表的主要内容)•表注§2—2统计表1.简单表只列出观察对象的名称、地点、时序或统计指标名称的统计表为简单表。表2.2某年级各班学生人数班别一班二班三班四班五班人数42365045173表2.3某校高三学生各年高考录取人数年份199819992000总和高考录取人数1441231253922.2.2统计表的种类2.分组表只按一个标志分组的统计表成为分组表。表2.5上海市区幼儿20米跑步用时年龄组3岁4岁5岁6岁平均秒数()7.717.166.045.533.复合表按两个或两个以上标志分组的统计表为复合表。表2.6本市市区、郊区4岁和6岁幼儿守恒能力测定成绩统计表nS4岁市区16763.3719.17郊区9166.1518.236岁市区16791.4719.53郊区9197.7516.57XX2.3.3.1概念1.频数某一个随机事件在n次试验中出现的次数称为这个随机事件的频数。2.频数分布将各种随机事件在n次试验中出现的次数分布,称为频数分布。3.频数分布表频数分布用表格形式表达出来,这种表格叫频数分布表。2.3.3频数分布表列法例2.1师大附小二年级80个学生的身高如下表,并用该数据做频数分布表。表2.9师大附小二年级80个学生的身高1351341291331311311311341251281351271271331301321321291241321221241271311371321331341241281351331311231151321341381241321281361271201251311361271241291291321381251311201211441281331281271301201211221271211251301401211261301221281271251271312.3.3.2连续变量频数分布表的编制1.求全距全部数据的最大值与最小值之差例:R=最大值—最小值=144—115=29(cm)2.决定组数与组距组数(k):分组的个数(一般10~15为宜),具体根据样本大小来确定组数,组数的确定要与组距同时考虑。例题中决定组数为10。上例:i=3.决定组限每组的最低值为下限,最高值为上限,列出各组组限时,最低一组应包括最小的一个数据,最高一组应包括最大的一个数据。39.21029组数R4.登记频数并计算用划“正”字法。将数据列入相应的组距内,在归组时如遇有的数据正好等于某组的组限时,可将它归入数据较大的一组。5.计算频数全部数据登记完后,把各组次数写在频数分布表内,用“f”表示。表2.10二年级80个学生身高的频数身高(1)组中值(2)频数(3)115-118-121-124-127-130-133-136-139-142-116.5119.5122.5125.5128.5131.5134.5137.5140.5143.513810201912421总和801.区分几个概念组中值频数(绝对频数)(f)相对频数(比率)(rf)累积(绝对)频数(cf)累积相对频数(Relcf)2.3.3.3制作累积频数和累积百分比分布表表2.10二年级80个学生身高的频数、累积频数、累积百分比表身高组中值频数相对频数累积频数累积百分比115-118-121-124-127-130-133-136-139-142-116.5119.5122.5125.5128.5131.5134.5137.5140.5143.513810201912421.0125.3750.1000.1250.2500.2375.1500.0500.0250.01251412224261737779801.255.0015.0027.5052.5076.2591.2596.2598.75100总和802.累积频数和累积百分比分布表2.3.1表示间断变量的统计图1.直条图是利用条形的长短比较各种统计指标的大小。绘制手续简便、表现形式明确、图形效果良好。纵排——柱形图横排——带形图§2—3统计图0.00%10.00%