1/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析普通高等院校计算机课程规划教材MATLAB数据分析方法李柏年吴礼斌主编张孔生丁华参编2/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析第2章数据描述性分析数据描述性分析是从样本数据出发,概括分析数据的集中位置、分散程度、相互关联关系等,分析数据分布的正态或偏态特征.描述性分析是进行数据进一步分析的基础.对不同类型量纲的数据有时还要进行变换,然后再作出合理分析.本章主要介绍样本数据的基本统计量、数据的可视化、数据分布检验及数据变换等内容.2.1基本统计量与数据可视化2.1.1样本数据的基本统计量描述数据基本特征主要为集中位置和分散程度。设从所研究的对象(即总体)X中观测得到n个观测值3/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析1.均值、中位数、分位数与三均值数据(x1,x2,…,xn)的平均值称为该数据的均值,记为11niixxnx1,x2,…,xn这n个值称为样本数据,简称数据,n称为样本容量.我们的任务就是要对样本数据(2.1.1)进行分析,提取数据中所包含的有用的信息,从而进一步对总体的特性作出推断.(2.1.1)(2.1.2)样本均值描述了数据取值的平均位置.样本均值计算简易,但易受异常值的影响而不稳健.4/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析又将数据(2.1.1)按从小到大的次序排列,排序为k的数记为x(k)(1kn),即x(1)x(2)…x(n),称)()2()1(,,,nxxx(2.1.3)为数据(2.1.1)的次序统计量.由次序统计量定义数M,1222()()(1).1()2nnnxnMxxn为奇数为偶数称M为数据(2.1.1)的中位数。(2.1.4)中位数是描述数据的中心位置的数字特征,若数据的分布对称,则均值与中位数比较接近。若数据的分布为偏态,则均值与中位数差异会较大。中位数的一个显著特点是受异常值的影响较小,具有较好的稳健性.5/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析设0p1,样本数据(2.1.1)的p分位数定义为([]1)()(1).1()2nppnpnpxnpMxxnp不是整数为整数(2.1.5)其中[np]表示np的整数部分.显然,当p=0.5时,M0.5=M,即数据的0.5分位数等于其中位数.一般来说,从整批数据(总体)中抽取样本数据,则整批数据中约有100p%个不超过样本数据的p分位数.在实际应用中,0.75分位数与0.25分位数比较重要,它们分别称为上、下四分位数,记为Q3,Q1.6/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析虽然均值与中位数都是描述数据集中位置的数字特征,但是均值用了数据的全部信息,中位数只用了部分信息,因此通常情况下均值比中位数有效.当数据有异常值时,中位数比较稳健。为了兼顾两者的优势,因此人们提出三均值的概念,定义三均值如下:0.250.75111ˆ424MMMM(2.1.6)由定义可知:三均值是上四分位数、中位数与下四分位数的加权平均,即分位数向量(M0.25,M,M0.75)与权向量为w=(0.25,0.5,0.25)的内积。7/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析MATLAB提供了求均值、中位数、分位数的命令.(1)均值命令mean,其调用格式m=mean(X);其中,输入X为样本数据(2.1.1),输出m为样本均值。(2)中位数命令median,其调用格式MD=median(X);其中输入参数X是样本数据(2.1.1),输出MD为中位数.(3)P分位数命令prctile,其调用格式SM=prctile(X,P);其中输入参数X是样本数据(2.1.1),P为介于0至100间的整数,P=100*p,输出SM为P%分位数。8/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析注意:当样本数据X是矩阵时,上述三个命令的输出将给出X的每列数据的相对应的数值,参见例2.1.1.(4)根据分位数命令及公式(2.1.6),可编写求三均值的MATLAB程序如下。w=[0.25,0.5,0.25];%输入权向量wSM=w*prctile(X,w);%由(2.1.5)式计算X三均值例2.1.1.根据安徽省统计年鉴数据(表2.1)计算各指标均值、中位数以及三均值.解:将表2-1中的数据粘贴到MATLAB软件A=[53.93,…,3252.88];%粘贴原始数据M=mean(A);%计算各指标均值MD=median(A);%计算各指标中位数SM=[0.25,0.5,0.25]*prctile(A,[25,50,75]);%计算三均值[M;MD;SM]%输出计算结果(表1.2)表2.1.doc9/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析表2.2安徽省森林资源均值、中位数与三均值(2008年)统计量林地面积森林面积森林覆盖率活立木蓄积量森林蓄积量均值270.9240.626.980.6954.3中位数148.5145.517.1842.1591.2三均值225.8205.020.51051.6834.42.方差与变异系数方差是描述数据取值分散性的一种度量,它是数据相对于均值的偏差平方的平均.样本数据(2.1.1)的方差记为22221111()11nniiiisxxxnxnn(2.1.7)其算术平方根称为标准差或根方差,即22111niisxnxn(2.1.8)10/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析刻画数据x1,x2,…,xn相对分散性的指标可以用变异系数,其计算公式为//||vsxsx,或(2.1.9)变异系数是一个无量纲的量,一般用百分数表示.在MATLAB中,计算方差命令var,调用格式S=var(x);计算标准差命令std,调用格式d=std(x)其中输入x是样本数据,输出S为方差,d为标准差.当输入x是矩阵时,输出x每列数据的方差与标准差.由均值与方差命令,可设计变异系数的计算程序为v=std(x)./mean(x),或者v=std(x)./abs(mean(x))当输入x是矩阵时,输出x每列数据的变异系数.11/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析例2.1.2.计算例2.1.1中各指标的方差、标准差与变异系数解:将表2-1中的数据粘贴到MATLAB软件A=[53.93,…,3252.88];%粘贴原始数据M=mean(A);%计算各指标均值D=var(A);%计算各指标方差SD=std(A);%计算各指标标准差V=SD./abs(M)%计算各指标变异系数[D;SD;V]%输出计算结果表2.3安徽省森林资源方差、标准差与变异系数(2008年)统计量林地面积森林面积森林覆盖率活立木总蓄积量森林蓄积量方差75464.4859198.14394.491065554.981040590.73标准差274.71243.3119.861032.261020.09变异系数1.011.010.740.961.0712/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析3.样本的极差与四分位极差极差的计算公式为:()(1)-nRxx它是表示数据的分散性的数字特征.MATLAB中公式为:max(data)-min(data),或range(data)上、下四分位数Q3,Q1之差称为四分位极差,即R1=Q3-Q1MATLAB中计算数据data的公式为:iqr(data)4.异常点判别先求上、下截断点:R上=Q3+1.5R1,R下=Q1-1.5R1小于R下或大于R上的数据均为异常值.13/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析例2.1.3根据2007年华东地区各高校教职工数据,计算专任教师、行政人员、教辅人员以及工勤人员占在职教工的百分比,以及百分比的极差、四分位极差以及上、下截断点.表2.42007年华东地区各高校教职工数据地区在职教工专任教师行政人员教辅人员工勤人员上海61385354801028278427781江苏13421588568201721337112104浙江67763456221096067984383安徽5914940743727857635365福建4786431385771250343733江西6339245153817954954565山东1209968188916342116141115114/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析解:A=[61385354801028278427781134215885682017213371121046776345622109606798438359149407437278576353654786431385771250343733633924515381795495456512099681889163421161411151];B=A(:,2:5)./[A(:,1)*ones(1,4)];%计算百分比R=range(B);%计算极差R1=iqr(B);%计算四分位极差XJ=prctile(B,[25])-1.5*R1;%计算下截断点SJ=prctile(B,[75])+1.5*R1;%计算上截断点5.偏度与峰度偏度是用于衡量分布的不对称程度或偏斜程度的指标.随机变量的偏度是变量的三阶中心矩除以标准差的三次方,计算样本的偏度公式为:15/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析233(1)(2)dnupnns,其中u3,s分别表示数据的3阶中心矩与标准差.Matlab计算数据偏度的命令为:skewness(data,0)正态分布的偏度为零,若pd0称分布具有负偏离,也称左偏态,此时数据位于均值右边的比位于左边的多;若pd0称分布具有正偏离,也称右偏态,情况相反;而偏度接近0则可认为分布是对称的.若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性.16/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析峰度峰度用来衡量数据尾部分散性,正态分布峰度为零,峰度0,则厚尾,峰度0,则细尾,在金融时间序列分析中,通常要研究数据是否为尖峰、细腰、厚尾等特性。随机变量的峰度是变量的四阶中心矩除以标准差的四次方,计算样本的峰度公式为:22443(-1)(1)(2)(-2)(-3)dnunfnnsnn-,其中u4,s分别表示数据的4阶中心矩与标准差.Matlab计算峰度的命令为:kurtosis(data,0)-3.17/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析例2.1.4计算1995年1月3日至1999年4月1日IBM公司股票开盘价、最高价、最低价、收盘价以及成交量的偏度、峰度.解:首先在MATLAB编辑窗口键入ibm=ascii2fts('ibm9599.dat',1,3,2);得到数据共有六列,分别为:日期、股票开盘价、最高价、最低价、收盘价以及成交量数据.然后键入tsmat=fts2mat(ibm);%提取ibm数据的后五列数据矩阵pd=skewness(tsmat,0);%计算偏度fd=kurtosis(tsmat,0)-3;%计算峰度[pd;fd]%输出计算结果subplot(221),histfit(tsmat(:,1)),title('open')%做开盘价直方图subplot(222),histfit(tsmat(:,2)),title('high')%做最高价直方图subplot(223),histfit(tsmat(:,3)),title('low')%做最低价直方图subplot(224),