1统计学-数据的描述性课件

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

本章内容第一节集中趋势的描述第二节离散程度的描述第三节分布的偏态与峰度集中趋势集中趋势反映的是一组数据向某一中心值靠拢的倾向,在中心附近的数据数目较多,而远离中心的较少。对集中趋势进行描述就是寻找数据一般水平的中心值或代表值。众数位置平均数中位数平均数算术平均数数值平均数调和平均数几何平均数1.数值平均数:是以统计数列的所有数据来计算的平均数.其特点是统计数列中任何一项数据的变动,都会在一定程度上影响数值平均数的计算结果.2.位置平均数:它不是对统计数列中所有数据进行计算所得的结果,而是根据数列中处于特殊位置上的个别单位或部分单位的标志值来确定的.数值平均数包括算术平均数、调和平均数和几何平均数.1.算术平均数(均值,ArithmeticMean)总体均值常用或表示,样本均值常用表示,样本均值的计算公式:Xx简单算术平均数:nxnxxxxniin121加权算术平均数:11niiiniixfxf一、数值平均数权数的意义和作用•权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用.•当各组的次数都相同时,即当时:加权算术平均数就等于简单算术平均数.123====nffff1111nnniiiiiiiniixffxxxnfnf例:计算某车间工人加工零件平均数(组距式数列)解:26406640iiiiixfXf个关于计算结果的说明●根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果.●只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致.(1).各变量值与均值的离差之和等于零.=1=0niixx(2).各变量值与均值的离差平方和最小.2=1=minniixx△算术平均数的特点算术平均数适合用代数方法运算,因此运用比较广泛;易受极端变量值的影响,使的代表性变小;受极大值的影响大于受极小值的影响;当组距数列为开口组时,由于组中值不易确定,使的代表性也不很可靠;同时要求各单位标志值在组内是均匀分布的,此时各组的平均数正好等于它的组中值。故用组中值计算得出来的平均数只能是一个近似值。XX调和平均数是各个变量值倒数的算术平均数的倒数。2、调和平均数(又称“倒数平均数”)其计算方法如下:1hnXX1(1).先计算各个变量值的倒数,即X1(2).计算上述各个变量值倒数的算术平均数,即Xn(3).,1再计算这种算术平均数的的倒数,就是调和平均数即nXXmmhX在加权的情况下:=在社会经济统计学中经常用到的仅是一种特定权数的加权调和平均数。即有以下数学关系式成立:m是一种特定权数,它不是各组变量值出现的次数,而是各组标志值总量。1式中:,hXfXfmXXmfXfXXmmXffX△调和平均数的特点如果数列中有一标志值等于零,则无法计算;较之算术平均数,受极端值的影响要小。hXhX例.某蔬菜批发市场三种蔬菜日成交数据如下表,计算三种蔬菜该日的平均批发价格.3.几何平均数(GeometricMean),又称“对数平均数”是另一种形式的平均数,是n个标志值乘积的n次方根.主要用于计算平均比率和平均速度.(1)简单几何平均数112nnniGxxxx式中G表示几何平均数,表示各项标志值.ix(2)加权几何平均数121112nniiniiiffffffniGxxxx例某企业四个车间流水作业生产某产品,一车间产品合格率99%,二车间为95%,三车间为92%,四车间为90%,计算该企业的平均产品合格率.499%95%92%90%=93.94%.△几何平均数的特点如果数列中有一个标志值等于零或负值,就无法计算;受极端值的影响较和小;它适用于反映特定现象的平均水平,即现象的总标志值是各单位标志值的连乘积。GXXhX注:(1)(2)数值平均数主要适用于定量数据,而不适用于定性数据.(3)简单数值平均数适用于未分组的资料,加权数值平均数适用于分组的资料.1.众数(Mode)一组数据中出现次数最多的变量值.主要特点:●不受极端值的影响.●有的数据无众数或有多个众数.位置平均数M0M0M0M0M0若有两个次数相等的众数,则称复众数。①只有总体单位数比较多,而且又有明显的集中趋势时才存在众数。下三图无众数:②在单位数很少,或单位数虽多但无明显集中趋势时,计算众数是没有意义的。说明:如果所有数据出现的次数都一样,那么这组数据没有众数.众数主要用于分类数据,也可用于顺序数据和数值型数据,对于未分组数据和单项式分组数据,众数位置确定之后便找到了众数.适用范围例:分类数据的众数例:顺序数据的众数①根据单项数列确定众数;价格(元)销售数量(千克)2.00202.40603.001404.0080合计300某种商品的价格情况众数M0=3.00(元)数值型数据众数的计算方法例②根据组距数列确定众数(ⅱ)利用比例插值法推算众数的近似值。(ⅰ)由最多次数来确定众数所在组;按日产量分组(千克)工人人数(人)60以下1060-701970-805080-903690-10027100-11014110以上8表中70-80,即众数所在组。例计算众数的近似值:dXML2110下限公式:上限公式:dXMU2120由下限公式,日产量众数)(.)()(千克89761036501950195070由上限公式,日产量众数)(.)()(千克89761036501950365080△众数的特点众数是一个位置平均数,它只考虑总体分布中最频繁出现的变量值,而不受各单位标志值的影响,从而增强了对变量数列一般水平的代表性。不受极端值和开口组数列的影响。众数是一个不容易确定的平均指标,当分布数列没有明显的集中趋势而趋均匀分布时,则无众数可言;当变量数列是不等距分组时,众数的位置也不好确定。2.中位数(Median)中位数是一组数据按一定顺序排列后,处于中间位置上的变量①由未分组资料确定中位数1()2中位数的位置为总体单位数nn数值型数据中位数的计算方法⑴n为奇数时,则居于中间位置的那个标志值就是中位数。)(262633215213029262320件件产品为中位数:位工人日产即,第中位数位置,,,,件数,按序排列如下:有五个工人生产某产品eMn例⑵n为偶数时,则中间位置的两个标志值的算术平均数为中位数。)(5.27229265.321621323029262320件至第四人的平均数:这表明中位数是第三、中位数位置,,,,,序排列如下:人生产某产品件数,按上例中,假如有六个工eMn②由单项数列确定中位数某企业按日产零件分组如下:按日产零件分组(件)工人数(人)较小制累计较大制累计26338031101377321427673427545336187226418808合计80--)(34402802件即中位数位置eMf例③由组距数列确定中位数按日产量分组(千克)工人数(人)较小制累计较大制累计50–60101016460–70192915470–80507913580–90361158590–1002714249100-1101415622110以上81648合计164--组距内。即中位数在中位数位置90808221642fdfSfXMmmLe12下限公式(较小制累计时用):)(.千克8380103679216480上限公式(较大制累计时用):)(.千克8380103649216490dfSfXMmmUe12①中位数不受极端值及开口组的影响,具有稳健性。②各单位标志值与中位数离差的绝对值之和是个最小值。③对某些不具有数学特点或不能用数字测定的现象,可用中位数求其一般水平。minmin即:或eeXMXMf中位数的特点负偏正偏注:(1)中位数总是介于众数和平均数之间.(2)皮尔逊经验法则分布在轻微偏斜的情况下,众数、中位数和算术平均数数量关系的经验公式为:3()oexMxM所以分布右偏。,元)(900)10002700(31)2(3100MMXXMMee一组工人的月收入众数为700元,月收入的算术平均数为1000元,则月收入的中位数近似值是:例根据卡尔·皮尔逊经验公式,还可以推算出:XMMe230)(XMMoe231)3(21oeMMX众数、中位数、平均数的特点和应用1.众数–不受极端值影响–具有不惟一性–数据分布偏斜程度较大且有明显峰值时应用2.中位数–不受极端值影响–数据分布偏斜程度较大时应用3.平均数–易受极端值影响–数学性质优良–数据对称分布或接近对称分布时应用数值平均数与位置平均数的适用场合?60分以下260-70870-802280-901090分以上4案例1:甲班《统计学》考试情况如下表:案例2:乙班《统计学》考试情况如下表:60分以下260-703070-80880-90490分以上1案例3:丙班《统计学》考试情况如下表:60分以下260-70570-801280-902590分以上7问题1、计算甲、乙、丙三个班的平均成绩;该平均值是真实值还是近似值?如是近似值,什么情况下会是真实值?2、计算甲、乙、丙三个班的中位数、众数;3、如要选择从算术平均数、中位数和众数三个平均数中选择一个数来分别代表甲、乙、丙三个班的整体水平,请问你会选择哪个平均数?为什么?4、如要分别反映甲、乙、丙三个班的考试情况,你会选择用哪些指标来衡量?5、如要比较甲、乙、丙三个班的考试情况的优劣,你又会选择什么样的指标来衡量?6、甲乙丙三个班的考试成绩分别服从对称分布、左偏分布、右偏分布中的哪种分布?为什么?离散程度的描述●反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度.3.2.1离散程度的常用指标==1imimriiiifffVff①异众比率式中,为变量值的总频数;为众数组的频数.iifmf异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差.②全距(极差)极差(Range)也叫全距,是一组数据的最大值与最小值之差,即:)min()max(iixxR组距分组数据可用最高组上限-最低组下限计算.③四分位差四分位差(quartiledeviation)也称内距或四分间距(inter-quartilerange),是指第三四分位数和第一四分位数之差.四分位差的计算公式为:31=rQQQ把所有数据由小到大排列并分成若干等份,处于分割点位置的数值就是分位数.把所有数据由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数.分位数可以反映数据分布的相对位置(而不单单是中心位置).常用的有四分位数、十分位数、百分位数.四分位数(Quartile):Q1,Q2,Q3;十分位数(Decile):D1,D2,...,D9;百分位数(Percentile):P1,P2,...,P99;四分位数的计算首先确定四分位数的位置,再找出对应位置的标志值即为四分位数.设样本容量为n,则12321311,,.444nnnQQQ的位置的位置的位置如果各位置计算出来的结果恰好是整数,这时各位置上的标志值即为相应的四分位数;如果四分位数的位置不是整数,则四分位数为前后两个数的加权算术平均数.权数的大小取决于两个整数位置与四分位数位置距离的远近,距离越近,权数越大.在实际应用中,计算四分位数的方法并不统一(数据量大时这些方法差别不大),对于一组排序后的数据:●SPSS中四分位数的位置分别为●Excel中四分位数的位置分别为21311,,.444nnn21331,,.444nnn练习:已知9个家庭的人均月收入数据15007507801080850960200012501630试求

1 / 81
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功