第5章描述性统计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第5章描述性统计采集到大量的样本数据以后,常常需要用一些统计量来描述数据的集中程度和离散程度,并通过这些指标来对数据的总体特征进行归纳。描述样本数据集中趋势的统计量有算术平均值、中位数、众数、几何均值、调和均值和截尾均值等。描述样本数据离中趋势的统计量包括极差、平均值、平均绝对差、方差和标准差等,此外还有峰度、偏差、分位数和相关系数等统计量,也能描述样本数据的某些特征。5.1描述集中趋势的统计量5.1.1几何均值样本数据12,,,nxxx的几何均值m可以根据下式求得11nniimxMatlab中利用geomean函数计算样本的几何均值,其语法格式如下:m=geomean(X)函数计算样本的几何均值。若X是矢量,则geomean(X)返回值为数据X中元素的几何均值。若X为矩阵,则geomean(X)返回值为一个行矢量,包含每列数据的几何均值。若X为N维数组,geomean函数沿X的第一个非单一元素维度进行计算。m=geomean(X,dim)计算X的第dim维的几何均值。【例5-1】样本均值大于或等于样本的几何均值。x=exprnd(1,10,6);geometric=geomean(x)geometric=0.74660.60610.60380.25690.75390.3478average=mean(x)average=1.350915830.97410.53191.00880.81225.1.2调和均值样本数据12,,,nxxx的调和平均值m定义为11niinmxMatlab中利用harmmean函数计算样本数据的调和平均值,其语法格式如下:m=harrmmean计算样本的调和平均值。若X为矢量,则harmmean(X)函数返回值为X中元素的调和平均值。若X为矩阵,则harmmean(X)函数返回值为包含每列元素调和平均值的行矢量。若X为N维数组,harmmean函数沿X第一个非单一元素维度进行计算。m=harmmean(X,dim)计算X的第dim维的几何均值。【例5-2】样本均值大于或等于样本的调和平均值。x=exprnd(1,10,6);harmonic=harmmean(x)harmonic=0.33820.32000.37100.05400.49360.0907average=mean(x)average=1.350915830.97410.53191.00880.81225.1.3算术平均值样本数据12,,,nxxx的算术平均值可用下式定义11niixxnMatlab中利用mean函数计算矢量和矩阵中元素的均值,其语法格式如下:m=mean(X),若X为矢量,mean(X)返回值为X中元素的均值;若X为矩阵,mean(X)返回值为包含X中每列元素均值的行矢量;m=mean(X,dim)计算X的第dim维元素的均值。【例5-3】下面的命令行生成5个包含100个服从正态分布的随机数的样本,然后计算每个样本的算术平均值。x=normmd(0,1,100,5);xbar=mean(x)xbar=0.7270.02640.0351004240.07525.1.4中值median函数计算矢量和矩阵中元素的中值,其函数的调用格式为:m=median(X)计算样本数据的中值。中值是样本数据中心趋势的稳健估计,因为异常值的影响较小。对于矢量,median(X)为矢量X中元素的中值。对于矩阵,median(X)为包含每一列中元素中值的行矢量。计算中值需要首先进行排序,因此计算大型矩阵的中值矢量时比较费时。【例5-4】xodd=1:5;modd=median(xodd)modd=3meven=median(xeven)meven=2.5000下列演示中值对于异常值的稳健性。xoutlier=[x,10000];moutlier=median(xoutlier)moutlier=35.1.5截尾均值对样本数据进行排序以后,去掉两端的部分极值,然后对剩下的数据求算术平均值,得到截尾均值。Matlab利用trimmean函数计算截尾均值,其语法格式如下:m=trimmean(X,percent)若X为矢量,则m为X中元素的截尾均值,即剔除测量值中最大和最小的k个数据以后,计算样本X的均值,k=n*(percent/100/2),n为X的维数;若X为矩阵,则m为行矢量,其元素为X中各列元素的截尾均值;若X为多维数组,则m沿X中的第一个非单一元素维度进行计算。Percent为0和100之间的数。m=trimmean(X,percent,dim)沿X的第dim维计算截尾均值。m=trimmean(X,percent,flag)处理当k不是整数时如何截尾,flag取值及含义如下:'round'缺省值,对k就近取整。'floor'对k向下取整'weight'若k=i+f,其中i是整数部分,f是小数部分,以(1-f)为第(i+1)个和第(n-i)个元素权值,求两个元素之间所有元素的加权均值。m=trimmean(X,percent,flag,dim)计算X的第dim维元素的截尾平均。截尾均值为样本位置参数的稳健性估计。若数据中有异常值,截尾均值为数据中心的一个更具代表性的估计。若所有数据取自服从同一分布的总体,则使用样本均值比使用截尾均值更有效。【例5-5】下面用蒙特卡洛法模拟正态数据的10%截尾均值相对于样本均值的有效性。值小于1。说明正态条件下截尾均值不如算术平均值有效。rng('default');x=normmd(0,1,100,100);m=mean(x);trim=trimmean(x,10);sm=std(m);strim=std(trim);efficiency=(sm/strim).^2输出为:efficiency=0.96635.2描述离中趋势的统计量描述离中趋势的统计量包括四分位差、均值绝对差、极差、方差和标准差等。5.2.1四分位差四分位差指的是样本数据从小到大排序后75%与25%位置处的值之差。IQR是数据极差的稳健性估计。因为上下25%的数据变化对其没有影响。Matlab中用iqr函数计算样本的四分位差(IQR),其语法格式如下:y=iqr(X)计算X的四分位差。若X为矢量,则y为X的75%与25%位置处的值之差;若X为矩阵,则y是行向量,其元素为对应X的各列的四分位差;若X为多维数组,iqr函数沿X的第一个非单一元素维进行计算。m=iqr(X,dim)计算X的第dim维元素的四分位差。若数据中没有异常值,则IQR用于衡量数据的极差比标准差更具代表性。当数据取自正态分布总体时,标准差比IQR有效。常用IQR*0.7413来代替标准差。【例5-6】下面用蒙特卡洛法模拟正态数据的IQR相对于样本标准差的有效性。结果仅为0.33,说明正太条件下IQR不如标准差有效。x=normmd(0,1,100,100);s=std(x)s_IQR=0.7413*iqr(x);efficiency=(norm(s-1)./norm(s_IQR-1)).^2输出为:efficiency=0.32975.2.2均值绝对差利用mad函数可以计算数据样本的均值或中值绝对差(MAD).y=mad(X)计算X中数据的均值绝对差。若X为矢量,则y为mean(abs(X-mean(X)));若X为矩阵,则y为包含X中每列数据均值绝对差的行矢量;如果X为多维数组,则mad函数计算第一个非单一元素维的均值绝对差。mad(X,0)与mad(X)相同,使用均值。mad(X,1)基于中值计算y,即y=median(abs(X–median(X)))。mad(X,flag,dim)沿X的第dim维计算MAD。该函数将NaN视为缺失值并删除。对于正态分布数据,可以用下式估计标准差:sigma=1.253*mad(X,0);sigma=1.4826*mad(X,1);【例5-7】对正态分布数据添加离群点后,比较不同估计的鲁棒性。结果越接近1,说明正态条件下,对应度量的更有鲁棒性。x=normrnd(0,1,1,50);xo=[x10];%添加离群点r1=std(xo)/std(x)r1=1.7385r2=mad(xo,0)/mad(x,0)r2=1.2306r3=mad(xo,1)/mad(x,1)r3=1.06025.2.3极差极差指的是样本中最大值与最小值之间的差值。用range函数计算样本的极差,其语法格式如下:y=range(X)返回极差。若X为矢量,range(X)为X中元素的极差;若X为矩阵,range(X)为行矢量,包含X中对应各列中元素的极差;若X为多维数组,range函数沿X的第一个非单一元素维进行计算。m=range(X,dim)计算X的第dim维元素的极差。用极差估计样本数据的范围具有计算简便的优点;缺点是异常值对它的影响较大,因此它是一个不可靠的估计值。【例5-8】大样本标准正态分布随机数的极差近似为6。下面首先生成5个包含1000个服从正态分布的随机数的样本,然后进行求极差的运算。rv=normmd(0,1,1000,5);near6=range(rv)输出为:near6=6.14516.49866.29095.88947.00025.2.4方差用var函数计算样本的方差。其调用格式和描述如下。y=var(X)计算X中数据的方差。对矢量而言,var(X)为X中元素的方差。对于矩阵而言,var(X)是包含X中每一列元素方差的行矢量,通过除以n-1来达到标称化,其中n为样本大小。对于正态分布数据,这使var(x)成为2的最小方差无偏估计量。y=var(X,1)通过处于n来标称化并生成样本数据的二级矩。y=var(X,w)使用权重矢量w计算方法。w中元素的个数必须等于矩阵X的行数,对于矢量X,w和X必须在长度上匹配。W的每个元素必须为正。y=var(X,w,dim)计算X的第dim维元素的方差。w为0时,使用默认的N-1进行标称化;w=1时,使用N进行标称化。注意:令SS为X矢量中元素与其均值之间的离差平安和,则var(X)=SS/(n-1)为2的最小方差无偏估计量,var(X,1)=SS/n为2的最大似然估计量。【例5-9】x=[-11];w=[13];v1=var(x)v1=2v2=var(x,1)v2=1v3=var(x,w)v3=0.75005.2.5标准差有两种样本数据12,,,nxxx的标准差计算公式,分别为:(1)12211()1niisxxn(2)12211()1niisxxn式中,样本均值为1ixxn用std函数计算样本的标准差。s=std(X),利用公式(1)计算X中数据样本的标准差。若X为矢量,std(X)为X中元素的标准差;若X为矩阵,std(X)为包含X中各列元素标准差的行矢量;若X是N维数组,则std(X)为X的第一个非单一元素维的标准差。s=std(X,flag),当flag=0时,等同于std(X);当flag=1时,std(X,1)返回返回(2)式计算的标准差,用n对X进行标称化,结果Y为样本关于其均值二阶矩的平方根。s=std(X,flag,dim)计算X的第dim维元素的标准差。flag为0时,用n-1进行标称化;falg为1时,用n进行标称化。【例5-10】下面首先生成6列服从标准正态分布的随机数,每列有100个数。每一列中,标准差y的期望值均为1。x=normmd(0,1,100,6);y=std(x)输出为:y=0.95361.06281.08600.99270.96051.0254y=std(x,1)5.3分组数据描述利用grpstats函数计算分组概括统计量。means=grpstats(X,group)根据group参数,按照group分组的X中对应数据的各列均值。如果是单一的分组变量,means中对应每一个分组变量值给出一个行向量。Grpstats函

1 / 18
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功