第三讲集中量数2008年美国大学生平均起始工资排行•以下信息是根据NationalAssociationofCollegesandEmployers(国家学院和雇主联合委员会)统计结果。总体,2008年工资平均增加4%(从不足1%到9%)。大学毕业生就业预期比2007年增加8%。雇主对几乎所有专业都有兴趣,但是工程服务和会计楼对2008年的学士学位毕业生需求量最大。•1)技术类(比如,计算机科学),$56,921。其中化学工程毕业生甚至达到$63,749;民用工程,$49,427;电子工程,$56,512,机械,$56,429.•2)金融和会计(financeandaccounting),$48,795;•3)经济,$52,926;•4)护士,$52,129;•5)化学,$52,125;•6)政治科学和政府工作,$43,594;•7)人事工作,$40,250;•8)历史,$35,956;•9)公关,广告,新闻杂志,市场,等(Communications),$35,196;•10)英语和文学,$34,757;•11)出版,杂志社,报社,电台等(),$32,250;•12)心理学,$30,877;•13)公众关系,慈善工作,为公司写东西。等(Publicrelations/organizationalcommunications),$30,6672007年部分高校教师平均工资排行1,香港大学教师的平均工资有15000元。2,澳门大学教师的平均工资有12000元。3,台湾大学教师的平均工资有10000元。4,上海交通大学教师的平均工资有7000元。5,深圳大学教师的平均工资有6500元。6,北京大学教师的平均工资有6000元。7,中山大学教师的平均工资有5600元。8,温州大学教师的平均工资有5500元左右。9,浙江大学教师的平均工资有5300元。10,厦门大学教师的平均工资有5000元11,云南师范大学教师的平均工资有2000元排在前面的高薪专业依次为石油工程(3550元)、注册会计师(3494元)、德语(3473元)、微电子学(3447元)、建筑学(3427元)、软件工程(3384元)、信息安全(3293元)、保险(3102元)、日语(3096元)、信息工程(3091元)、金融学(3080元)、对外汉语(3071元)。请问:上述高薪专业的平均工资是多少?•2003年是中国高校扩招后本科学生毕业的第一年,全国共有高校毕业生212.2万人,比2002年增加67万人,增幅达46.2%,就业形势十分严峻。•2004年我们国家的本科毕业生就有280余万人,比2003年增加68万人,就业形势依然严峻•2005年全国普通高校毕业生人数预计将达到338万人,比2004年增加58万人,增幅达20.71%,就业形势严峻。•2006年毕业生人数为413万,比2005年增加了75万,增幅达22.19%•2007年全国普通高校毕业生人数将达495万,比2006年增加82万,同比增幅达19.9%•2008年全国高校毕业生总人数将达532万,创历史新高。预测一下,2011年后,全国普通高校毕业生人数估计是多少?集中量数集中趋势(centraltendency),就是指数据分布中大量数据向某方向集中的程度。对一组数据集中趋势的度量,就是确定描述一组数据这种特点的代表性的统计量,主要有:1、算术平均数2、加权平均数3、几何平均数4、中数和众数第一节算术平均数•一、算术平均数的理解•二、算术平均数的计算•三、计算算术平均数的原则•四、算术平均数的性质定理•五、算术平均数在统计实践中的优缺点一、算术平均数的理解•(一)算术平均数(arithmeticaverage),一般简称为平均数(average)或均数、均值(mean)。只有在与其他几种平均数,如几何平均数、调和平均数、加权平均数相区别的时候,才把它叫做算术平均数。平均数一般用字母M表示。•(二)算术平均数的意义•1.算术平均数是一组数据的代表性数值,也可以形象地比喻为一组数据平衡的“支点”•2.算术平均数是应用最普遍的一种集中量数。它是“真值”(truescore)渐近、最佳的估计值。二、算术平均数的计算(一)利用未分组数据计算平均数某校射击队5名射击队员在一次射击中,射中的环数分别为6、7、8、9、10,求平均射中环数810987651N1xN1iix(二)利用估计平均数计算平均数•如果数据的数目以及每个观测数据值(即数字)都很大时,应用基本公式计算较麻烦。在这种情况下,利用估计平均数(anestimatedmean)可以简化计算。具体方法是先设定一个估计平均数,用符号AM表示,从每一个数据中减去AM,使数值变小,容易计算。最后再在计算结果中加上这个估计平均数。计算公式如下N1iixN1AMx其中:AM为估计平均数N为数据个数。(三)利用分组数据计算平均数•当数据编制成次数分布表之后,已看不到原始数据,在这种情况下,一般要使用次数分布表中各分组区间的组中值(Xc)以及各组次数(f)的乘积和。N1icXfN1x(四)加权平均数几个作用在不同比重上的平均数再进行平均称为加权平均数ffxfxffxfxfxn1nn11nn2211x个数的平均数,则是,的平均数,个数是个数的平均数,是例如,大学南路小学一年级实验班40名学生期末数学测验平均分数为82.59,对比班45名学生期末测验平均分为69.68,求全年级期末数学测验平均成绩75.7545404568.694059.82x某校考查学生成绩,期末考试占全学期的85%,平时成绩(包括作业、期中考试)占全学期的15%。如果某学生期末考试成绩75分,平时成绩为90分,求该学生全学期平均成绩。77.2515.07585.090x进行加权处理三、计算算术平均数的原则1.同质性原则•作为统计分析的重要手段,平均数只有在总体是由同类数据所组成且有足够多的数据单位时,才具有科学价值和认识意义。不同质的数据不能计算平均数。•所谓同质数据是指使用同一个观测手段,采用相同的观测标准,能反映某一问题的同一方面特质的数据。2.平均数与标准差、方差相结合原则3.平均数与个体数值相结合的原则四、算术平均数的性质定理•(一)在一组数据中每个变量与平均数之差(称为离均差)的总和等于0•(二)在一组数据中,每一个数都加上一常数C,则所得的平均数为原来的平均数加常数c•(三)在一组数据中,每一个数都乘以一个常数C所得的平均数为原来的平均数乘以常数c•(四)只有各个变量与平均数之差的平方和为最小,即每个数据与任一常数包括中数或众数之差的平方和都大于每个数据与平均数之差的平方和,这就是平均数的“最小平方”原理。优点缺点(1)反应灵敏(2)计算严密(3)计算简单(4)简明易解(5)适合于进一步用代数方法演算(6)较少受抽样变动的影响。(1)易受极端数据的影响(2)若出现模糊不清的数据时,无法计算平均数五、算术平均数的优缺点第二节中数•一、中数的定义•二、中数的计算方法•三、使用条件•四、中数的优缺点与应用一、中数的定义•中数(median),又称中点数,中位数,中值,符号为Md或Mdn。中数是按顺序排列在一起的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。•这个数可能是数据中的某一个,也可能根本不是原有的数。如果将数据依大小顺序排列,中数恰好位于中间,它将数据的数目分成较大的一半和较小的一半。•中数是集中量数的一种,它能描述一组数据的典型情况,心理与教育研究工作中经常应用它。二、中数的计算方法•根据中数的概念,首先将数据依其取值大小排序,然后找出位于中间的那个数,就是中数。此时又分几种情况:1.一组数据中无重复数值况的情2.一组数据中有重复数值的情况•(1)当重复数值没有位于数列中间时,求中数的方法与无重复数据时求中数的方法相同。•(2)当重复数目位于数列中间,数据的个数为奇数的情形。•(3)当重复数目位于数列中间,数据的个数为偶数的情形。77321521N12876421N故中数为,,排在第三的数据为的中数,,,,那个数,如位置的数为数据个数为奇数,则中。故中数为,位置的数据为第,排在位置的数为排在第的中数,,,,,,,。例如,求的两个数值相加除以位置与第两个数的平均数,即第数为居于中间位置数据个数为偶数,则中5.72878512812N74282N19151087532212N2N三、中数的使用条件①当一组观测结果中出现两个极端数目时。②当次数分布的两端数据或个别数据不清楚时,只能取中数作为集中趋势的代表值。③当需要快速估计一组数据的代表值时,也常用中数。四、中数的优缺点与应用(一)优点•从中数的计算可以看出:中数是根据观测数据计算而来,不能凭主观臆定。计算简单,容易理解,中数的概念简单明白,这是它的优点。(二)缺点1.中数的计算不是每个数据都加入,其大小不受制于全体数据;反应不够灵敏,极端值的变化对中数不产生影响;2.中数受抽样影响较大,不如平均数稳定;3.计算时需要对数据先排列大小;4.中数乘以总数与数据的总和不相等(中数等于平均数时例外);5.中数不能进一步代数运算,等等。因此,在一般情况下,中数不被普遍应用。第三节众数一、众数的定义二、众数的计算方法三、众数的使用条件四、众数的优缺点五、平均数、中数、众数之间的关系一、众数的定义•众数(mode),又称为范数,密集数,通常数等,常用符号M。表示。众数是指在次数分布中出现次数最多的那个数的数值。它也是一种集中量数,也可用来代表一组数据的集中趋势。二、众数的计算方法1.直接观察求众数•不论是分组的数据还是未分组的数据,都可用观察法求众数。直接观察求众数的方法很简单,就是只凭观察找出出现次数最多的那个数据就是众数。例如有一组数据为2、3、5、3、4、3、6,其中3的出现次数最多,因此3就是众数。•数据整理成次数分布表后,观察次数最多的那个分组区间的组中值为众数。依据次数分组表计算众数受分组的影响。因为,同一组数据,由于分组时组距大小不同,各区间的上下限也可能不一致,在次数分布表内,次数分布最多那一组的组中值可能不同,故众数也可能不同。2.用公式求众数•(1)皮尔逊经验法•(2)金氏插补法三、使用条件(1)当需要快速而粗略地寻求一组数据的代表值时;(2)当一组数据出现不同质的情况时,可用众数表示典型情况,如工资收入、学生成绩等常以次数最多者为代表值;(3)当次数分布中有两极端的数目时,除了一般用中数外,有时也用众数(4)当粗略估计次数分布的形态时,有时用平均数与众数之差,作为表示次数分布是否偏态的指标。(5)当一组数据中同时有两个数值的次数都比较多时,即次数分布中出现双众数(bimodal)时,也多用众数来表示数据分布形态四、众数的优缺点1.优点•众数的概念简单明了,容易理解2.缺点•(1)不稳定,•(2)受分组影响,亦受样本变动影响•(3)计算时不需每一个数据都加入,因而较少受极端数目的影响,反应不够灵敏。•(4)用观察法得到的众数,不是经过严格计算而来,用公式计算所得众数亦只是一个估计值。•(5)众数不能作进一步代数运算•(6)总数乘以众数,也与数据的总和不相等。五、平均数、中数、众数之间的关系•在一个正态分布中,平均数、中数、众数三者相等,因此在数轴上三个集中量完全重合,在描述这种次数分布时,只需报告平均数即行。•在正偏态分布中MMdM。,在负偏态分布中MMdM。第四节其它集中量数•一、几何平均数•二、调和平均数•三、集中量数的小结一、几何平均数几何平均数是一组数据中N个数据连乘积的N次方根,常用于计算平均增长率。NN21gxxxx•就业率连年持续下滑,2001年6月毕业生一次就业率本科生就超过80%,2002年底全国高校毕业生就业率达到80%,2003年就业率降为75%、2004年73%、2005年72.6%。这一组数字非常直观地告诉人们