统计学 第3章 数据分布特征描述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

以数值特征,对统计数据分布进行量化描述。主要包括三方面:集中趋势用平均指标描述(位置特征);离中趋势用变异指标描述(离散特征);偏斜程度用偏度和峰度描述(偏斜特征、峰度特征)。本章学习任务学习要求:理解测度统计数据集中趋势、离散程度的概念、指标、相互关系;掌握主要分析指标的计算方法和应用场合,并能熟练进行相关计算分析。数据分布特征与测度:概览集中趋势(位置)偏态和峰态(形状)离中趋势(分散程度)数据分布特征测度分布形状集中趋势离散程度幂平均数中位数众数异众比率方差、标准差峰度平均差极差偏度变异系数第一节统计变量集中趋势测定一集中趋势指标及作用二数值平均数三众数与中位数(位置平均数)一、集中趋势指标及作用集中趋势(Centraltendency)集中趋势即一组数据向其中心值聚集或靠拢的倾向和程度。用平均指标表示,代表数据的一般水平。测定集中趋势是认识数据分布特征的基本内容。集中趋势指标有两类:数值平均数根据全部数据计算得到的代表值。优点:数学性质良好,可用于统计推断缺点:易受极端值影响。主要有算术平均数、调和平均数及几何平均数,三者均为幂平均数特例。位置平均数根据对总体中处于特定位置的单个或部分单位标志值直接观察或推算确定的代表值。优点:不易受极端值影响,具有较好稳健性。缺点:不宜用作统计推断。主要包括众数和中位数。集中趋势指标作用1.反映变量分布的集中趋势和一般水平。如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。2.比较同一现象在不同空间或不同阶段的发展水平,反映现象变化特征、趋势和规律性。能消除总体规模差异造成的不利影响;在一定程度上减弱偶然因素的影响。一、集中趋势指标及作用3.分析现象之间的依存关系。如研究劳动者文化程度与收入的关系。4.(数值)平均指标是推断统计中的重要统计量,是进行统计推断的基础。几种常见的位置特征数数据分布的位置特征数实际上也是数据的代表值,代表了数据的一般水平。在不同场合,可以适当选用平均数、中位数、众数充当位置特征数(代表值)其中平均数不同于中位数、众数的特点在于:平均数是由所研究的全体数据参加计算所得。平均数的一般形式叫做幂平均数。常见的有算术平均数、几何平均数、调和平均数。二、数值平均数(一)幂平均数幂,power变量X取N个值:。权数为一组正数:。加权幂平均数一般形式为:其中,k为任意实数。Nxxx,,,21NkNiiNiikipwwxM11权数w均相等时,加权平均数退化为简单平均数:kNikipNxM1特例情况幂平均数算术平均数(幂指数k=1)调和平均数(幂指数k=-1)几何平均数(幂指数k0)其他幂平均数k=1:算术平均数加权简单NiiNiiiwwxx11NxxNii1k=-1:调和平均数加权简单NiiiNiiNiiiNiiHwxNiiNiiHxNNxM11111k0:几何平均数加权简单NiiNwwNwwGxxxM12121NNGxxxM21关于加权问题权数确定方式:客观权数:权数由实际统计资料获得或推算。主观权数:根据研究问题,由研究者主观赋值。权数作用:权衡变量的各种取值在计算平均数时的重要性。权数作用,根本上是通过权数结构实现。权数作用:即使不改变被平均的数值,仅改变权数结构,即可改变平均数水平。例如,改变教师职称结构,而不改变各种职称教师课时费标准,会改变平均课时费水平。权数实质权数的实质在于其结构,即结构比例形式(比重权数)。其更能清晰表明权数之权衡轻重的作用。权数形式有2种:绝对数形式结构比例形式kNiNiiikikNiiNiikipwwxwwxM1111NiNiiiiNiiiNiiHwwxwwxM11111111NiwwiwwNwwGNiiiNiiNxxxxM1211121NiNiiiiNiiNiiiwwxwwxx1111(二)算术平均数算术平均数(Arithmeticmean),也称均值(mean)。由一组数据的总和(总体标志总量)除以该组数据的项数(总体单位总量)得到;算术平均数=总体标志总量/总体单位总量是最常用的数值平均数;根据掌握资料不同,其有多种计算公式。1.简单算术平均数对未分组数据,采用简单算术平均数公式。即把各项数据直接加总,然后除以总项数。计算公式:NxxNii1举例表3-2年龄人数(人)xf2242510305501合计20表3-1男性女性22222222252525252525252525253030303050309.26205382030...2250303025252525252222解:采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁)75.31450302522分组数据不能简单平均!因为各组变量值的次数(权数)不等!若采用简单平均:应采用加权平均。两种计算公式结果相同!2.加权算术平均数对单项式分组资料,应以各标志值出现次数为权数加权平均。加权算术平均数计算公式:例3-1单项式分组资料(表3-2)计算方法为:fxfffxffffxfxfxxniiniiinnn11212211......22425103055014105153826.920x3.由组距分组资料计算组距分组资料中,各组变量值不唯一,是一个区间;计算时,各组变量值通常用组中值(近似)代表;用组中值代替实际值,其假定条件是各组内数据呈均匀分布或对称分布。由于实际情况中该条件未必满足,故计算结果是近似值;与单项式分组资料一样,采用加权算术平均数计算。fxfffxffffxfxfxxniiniiinnn11212211......ffxx举例表3-3节能灯泡使用寿命数据使用寿命(小时)组中值x数量fxf频率f/Σfxf/Σf1000以下900218000.020181000-12001100888000.080881200-1400130016208000.1602081400-1600150035525000.3505251600-1800170023391000.2303911800-2000190012228000.1202282000以上2100484000.04084合计——10015420011542154210015420011niiniiiffxx解:平均使用寿命为154211niiiniiffxx4.比率类型统计变量求平均数(1)比率类型统计变量,指平均指标和相对指标。(2)对比率类型变量求平均,涉及个体比率和总比率两个概念。(3)对比率类型变量计算平均数,基本要求是:比率类型变量平均值M,等于个体比率的总比率。简言之:先求和,再对比。(4)根据掌握资料不同,可采用三种等价形式:总比率,加权算术平均,加权调和平均NiiNiiba11/iiibax/)/(///111111NiiiNiiNiiNiiiNiiNiixaabbxbaM例如:对相对数求算术平均数对相对数而言,由于各个相对数的对比基础不同,采用简单算术平均不合理,必须加权平均。权数选择必须符合该相对数本身的计算公式,通常为该相对数的分母指标。对表3-4的分组资料:其中,分母b为权数f表3-4企业流通费用率(%)x=a/b商品销售额(万元)b流通费用(万元)a甲161600256乙104750475丙124000480合计103501211%7.11%10010350121140004750160040001247501016001611%%%niiniiiffxx又如:对平均数求算术平均数某商贸公司购入一批水果,分等级收购价格和收购金额如下表。试求这批水果的平均收购价格。解:376601.6268/23150qxqx元千克5.算术平均数主要数学性质(1)算术平均数与变量值个数乘积,等于各变量值总和。(2)各变量值与算术平均数的离差之总和,等于零。(3)各变量值与算术平均数的离差平方之总和最小。(从全部数据看,算术平均数最接近所有变量值)niixxn10)1niixx(min)12niixx(性质(3)证明:(三)调和平均数(Harmonicmean)调和平均数,也称倒数平均数。各变量值倒数(1/xi)的算术平均数的倒数。计算公式为:niiiniinnnnnnHxmmxmxmxmmmmmmmmxmxmxx11221121212211.........1...111社会经济统计中所应用的调和平均数,通常是加权算术平均数的变形。已知各组变量值xi和(xifi)而缺乏fi时,加权算术平均数通常可变形为调和平均数形式来计算。回忆3-4求解:%%%%%7.11100103501211124801047516256480475256)()(1111niiiiniiiniiniiixfxfxffxx(四)几何平均数(Geometricmean)简单几何平均数—n个变量值连乘积的n次方根。加权几何平均数适用于各个变量值之间存在连乘积关系的场合。主要用于计算现象的平均发展速度(第九章);也适用于对某些具有环比性质的比率求平均(下例)。nniinnGxxxxx121...niiikkfnififfffkffGxxxxx121211)...(21...举例例3-5。某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88%、85%、90%、92%、96%,试求这五道工序的平均合格率。解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求平均合格率应为:%31.90%9692%90%85885%%Gx(五)几种平均数大小关系对同一批数据和权数,三种平均数关系:调和平均几何平均算术平均当且仅当所有观察值全部相等时,等号成立;否则不等式严格成立。证明思路:首先证明幂平均数随幂值k单调递增变化(可由微分方法证明)。根据三类平均数k取值关系,调和平均数(k=-1)、几何平均数(k→0)、算术平均数(k=1)可得到以上结论。平均数的应用场合常见的应用场合有:作为统计指标的一种表现形式作为统计总体分布的位置特征数反映一个统计变量所有观察值的一般水平抵消掉随机试验中的偶然因素影响,显示出试验的规律性水平。数据是随机试验的结果。随机试验的个别结果会呈现出或高或低的起伏波动,实际上这是由偶然因素影响造成的。在进行大量重复试验,将试验结果简单算术平均,那么随着试验次数的增加,算术平均值就会越来越逼近一个稳定值,而这个稳定值就是试验的规律性水平(数学期望值)。因此,在统计分析中,常常采用算术平均的手法去抵消现象中的偶然影响,以期近似地认识现象的规律性水平。三、众数与中位数(一)众数(Mode)众数是一组数据中出现频数最多、频率最高的变量值,常用Mo表示。众数代表最常见、最普遍的状况,可度量现象集中趋势。可测度定性变量集中趋势,也可度量定量变量集中趋势。在社会经济现象的管理决策中具有广泛应用。对分布数列求众数,具有条件性。存在性:若分布数列没有明显集中趋势,则不存在众数;唯一性:若分布数列有多个相对集中趋势,则有多个众数。从分布曲线上看,众数就是一个变量分布

1 / 82
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功