常用统计参数分享者:何晓燕12级心理、教育学专业学生集中量数差异量数地位量数相关系数第一节集中量数集中量数概述•定义:代表一组数据典型水平或集中趋势的特征量。•功能:(1)描述和代表研究对象的一般水平(2)与同质的另一研究对象进行比较研究•种类:(1)平均数(2)中数(3)众数大小之中位置之中频数之众算术平均数加权平均数几何平均数调和平均数一平均数(一)算术平均数•定义:所有观测值的总和除以总频数所得的商。(Mean或-X)•计算方法:(1)定义式(2)加权式(简捷式)•平均数的性质:•优缺点•适用条件1.1.2Mean的计算1、定义式有一组测验分数为:79678091808376798076求这组数据的平均数如果用系数形式怎样快速求出上例的均值?有一组测验分数为:79678091808376798076求这组数据的平均数权数或权重加权式1.1.2Mean的计算2、加权式及变式•基本公式:•变式(1)归一化均数(2)总均数(3)次数分布表的均数2.1归一化均数某生期中成绩为72分,期末成绩为86分,如果期中期末比重为4:6,请问这个学生的学期成绩为多少?归一化权重公式的推导应用政治外语基础专业基础专业总分甲6261606260305乙7058606362313丙5759758659336如果分别按照10%、20%、25%、25%、20%的比例来录取,该优先录取谁呢?2.2加权平均数(总体均数)甲班乙班丙班人数(n)325036平均分(m)72.680.275.0求该年级的平均分分数人数①90~999②80~8944③70~7941④60~696总计100该年级平均分是多少?•解题思路(1)求各组组中值(m)(2)求各组总分(mf)(3)求总分数(∑mf)(4)求总体的平均分(∑mf/∑f)分数人数(f)组中值(m)fm①90~99994.5850.5②80~894484.53718③70~794174.53054.5④60~69664.5387M=80.1公式演变2.3次数分布表的均数1.1.3Mean的性质1、观测值的总和等于算术平均数N倍,即2、各观测值与算术平均数的差(离均差)的总和等于零,即1.1.3Mean的性质3、一组数据中各数与平均数的离差平方和最小,即4、一组数据中每个数都加(减)一个常数C,所得的平均数为原来的平均数加(减)常数C。即1.1.3Mean的性质5、一组数据中每个数都乘(除)一个常数C,所得的平均数为原来的平均数乘(除)常数C。,即6、一组数据由两部分(或几部分)组成,则这组观测值的算术平均数可以由组成部分的算术平均数而求得,即一平均数(二)加权平均数(weightedmean)1、定义:不同比重数据(或平均数)的平均数(MW).2、计算方法:3、适用条件(1)小组平均求总平均时(2)各个数据的分量不一样时一平均数(三)几何平均数(geometricmean)1、定义:N个数据连乘积的N次方根。(Mg)2、计算方法:3、适用条件:1)当数据成比率的时候(如:进步率、增加率、提高率等);2)有极端数据,分布呈偏态一平均数(四)调和平均数(harmonicmean)1、定义:一组数据的倒数的算术平均数的倒数。(MH)2、计算方法:3、适用条件计算平均速度,如阅读速度、解题速度、识字速度等二中数2.1定义:按顺序排列的一组数据中居于中间位置数。(Median或Md)2.2计算方法:(1)原始数据法(2)次数分布表法2.2Md的计算1、原始数据法数据个数中数附近是否有重复数据无重复数值有重复数值奇数法偶数法•无重复数据奇数法•无重复数据偶数法1112151718192223356710•有重复数据时23557771113中数所在区间的精确下限中数前一位的累加频数中数的频数三众数3.1定义:一组数据中出现次数最多的那个数的数值。(Mode或Mo)3.2计算方法:(1)观察法(2)公式法(3)经验法3.3优缺点3.4适用条件3.2Mo的计算1、观察法原始数据次数分布表f出现最多的数值f最多的区间的m23557771113分数人数①90~999②80~8944③70~7941④60~696总计100Mo=84.5Mo=73.2Mo的计算2、经验法Pearson经验法King插补法分布正态或近似正态分布偏态Pearson经验法•提出者:英国统计学家K.Pearson•思想:在分布为正态分布或近似正态分布时,众数近似地等于3倍中数减去2倍均数。•公式:四平均数、中数与众数的比较(一)三者关系三者的大小关系与分布形态有关:(1)正态:M=Md=Mo(2)正偏态:M﹥Md﹥Mo(3)负偏态:M﹤Md﹤Mo(二)优缺点及适用条件比较正态分布M=Md=Mo偏态分布正偏态M﹥Md﹥Mo负偏态M﹤Md﹤Mo(二)优缺点及适用条件比较优良条件MMdMo感应灵敏严密确定意义简明计算容易适合代数法处理受抽样影响小优缺点比较(二)优缺点及适用条件比较MMdMo广泛有极端值或偏态分布多峰分布加权平均、离差、相关、推断、两端数据或个别数据不清楚数据不同质(类别数据)考试、评估空端分布有极端值顺序数据描述形状适用条件①两组分数的分布是否一样?为什么?②哪个均数的代表性更好?为什么?某研究者得到以下两组数据:∑M甲组5463727482889953276乙组6771737679828453276第二节差异量数概述全距、百分位差、四分位差平均差方差与标准差集中量数与差异量的关系一概述差异量:对一组数据变异性(或离中趋势)进行度量和描述的统计量。(1)反映各变量值远离中心值的程度(2)数据分布的另一个特征(3)从另一侧面反映集中量数的代表程度(4)常用的差异量是方差、标准差(5)不同类型的数据有不同的差异量数二全距、百分位差、四分位差(一)全距(Rang)1、概念一组数据中最大值与最小值之差,又叫两极差或极差(R)。是表示一组数据离散程度最简单、最易理解的差异量数。2、计算(1)原始数据(2)次数分布表如果数据是连续型,须用精确上下限3全距的优缺点•优点(1)概念清楚(2)意义明确(3)计算简单•缺点(1)反应不灵敏(2)易受两极端数值影响(3)受抽样影响大低效的差异量数4全距的适用条件用于研究的预备阶段,用来检查数据的大概散布范围,确定统计分组。一全距、百分位差、四分位差(二)百分位差(percentiledeviation)1、概念两个百分位数之差(Pd)。常用值:P90-10:一组数据中间部位80%个频数的距离。P93-7:一组数据中间部位86%个频数的距离。一全距、百分位差、四分位差(二)百分位差(percentiledeviation)2、计算(1)利用公式分别计算两百分位数(2)计算两百分位数之差P90-P10=Fb同步练习,求其百分位差P93-P73百分位差的优缺点•优点(1)概念清楚(2)意义明确(3)较少受两极数据影响•缺点(1)反应不灵敏(2)不适合代数处理(3)受抽样影响大低效的差异量数4百分位差的适用条件计算频数分布峰态量一全距、百分位差、四分位差(三)四分位差(quartiledeviation)1、概念按一定顺序排列的中间部位50%个频数距离的一半(Q).又叫分半四分位差。一全距、百分位差、四分位差(三)四分位差(quartiledeviation)2、计算(1)根据求中数的公式求出第一个四分位数Q1和第三个四分位数Q3(2)代入公式计算分半四分位差Q343NQ141N同步练习求四分位差3四分位差的优缺点•优点(1)简明易懂(2)计算简单(3)较少受两极端数据影响•缺点(1)忽略左右50%的数据(2)不适合代数运算4四分位差的适用条件(1)用中数代表集中量(2)有特大或特小数值(3)个别数值不确切,不清楚(4)顺序数据(等级数据)三平均差(averagedeviation)1、概念一组数据中每个观测值与其算术平均数离差之绝对值的算术平均数(AD或MD)。2、计算(1)定义式(2)次数分布表离均差各组组中值(1)确定组中值(2)求总体平均分(3)代入公式求平均差3平均差的优缺点•优点(1)意义明确(2)计算容易(3)反应灵敏•缺点(1)不适合代数运算同步练习四方差与标准差1、概念(1)方差(variance)——每个数据与该组数据平均数的离差的平方和的均值,即离均差平方和的平均数。也叫变异数、均方(meansquaredeviation),S2(样本)2(总体)(2)标准差(standarddeviation)——方差的算术平方根。S或SD(样本)(总体)意义——一群数据的平均距离标准差大好还是标准差小好?因问题而异2方差与标准差的计算(1)定义式(2)原始数据法(3)加权式2方差与标准差的计算(1)定义式同步练习计算67、71、73、76、79、82、84的方差与标准差。数据dd267-98171-52573-3976007939826368486453202242方差与标准差的计算(2)原始数据法同步练习1、计算下列数据的M与S。(1)8102583221912(2)413488334332、上述两组分数的分布是否相同?为什么?M:S:原始数据法公式推导和方(SS)nMS甲20808乙18757丙16708丁20706求总体标准差MtMi2方差与标准差的计算(4)方差、标准差的合成强调:•只有在应用同一种观测手段,测量的是同一个特质,只是样本不同时,才能应用此公式合成方差和标准差。nMS甲20808乙18757丙16708丁20706(1)求MtMt=5470/74≈73.9(2)求离差d和d2(3)求S2+d2(4)代入公式nMSdd2S2+d2甲208086.137.21101.21乙187571.11.2150.21丙16708-3.915.2179.21丁20706-3.915.2151.213方差、标准差的性质1、一组数据中每个数都加一个常数C,新数据的方差和标准差不变,即2、一组数据中每个数都乘一个常数C,新数据的方差是原数据方差的常数平方倍,标准差是原数据标准差的常数绝对值倍?。即4方差及标准差的优缺点•优点(1)反应灵敏(2)严密计算(3)适用进一步代数处理(4)受抽样影响小(5)具有可加性(6)应用范围广,由样本推断总体差异时是最好估计量•缺点(1)不太容易理解(2)易受两极端数值影响(3)有个别数据模糊不清时,无法计算5方差、标准差的适用条件(1)在描述一组数据分布时,用算术平均数代表集中量时,用标准差代表差异量;(2)计算其他统计量,如差异系数、相关系数、标准分数等,要用标准差;(3)在统计推断中常用方差。四各差异量的比较及关系项目方差(标准差)平均差全距百(四)分位差意义离差平方和的均值(或其算术平方根)离差绝对值和的均值最大值与最小值之差两百分位(四分位)数之差计算繁琐(所有数据)较易(所有数据)最简便(两端值)相应位置数据进步运算特性可以不可以不可以不可以抽样影响较少一般较大较大分组影响不大一般较大较大极端值影响易较大易不代表性最好较好最差较差理解性最难较易理解最易理解容易理解总结高效中效低效四各差异量的比较及关系1、中数上下各一个四分位距之间包括50%的总频数;2、算术平均数上下各一个平均差之间包括57.51%的总频数3、算术平均数上下各一个标准差之间包括68.26%的总频数4、样本数量相当大(N≧500)时,标准差约为全距的1/6,小样本中,全距与标准差的比率要小些;5、当次数分布呈正态时,S=1.2533AD=1.4826QAD=0.7979S=1.1829QQ=0.6745S=0.8453AD五集中量与差异量的关系(1)多组数据比较时,集中量相等,差异量不等;或差异量相等,集中量不等,都不能说明各组分布相同。(2)坐标意义不同,集中量是一个点值,差异量是一段距离(3)集中量的代表性由差异量决定,差异量数小,集中量代表性大;差异量数大,集中量代表性小。小明在期末考试中,语文排第15名,你能对他此次考试做出评价吗?为什么?某班平均身高16