1/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析普通高等院校计算机课程规划教材MATLAB数据分析方法李柏年吴礼斌主编张孔生丁华参编2/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析第2章数据描述性分析数据描述性分析是从样本数据出发,概括分析数据的集中位置、分散程度、相互关联关系等,分析数据分布的正态或偏态特征.描述性分析是进行数据进一步分析的基础.对不同类型量纲的数据有时还要进行变换,然后再作出合理分析.本章主要介绍样本数据的基本统计量、数据的可视化、数据分布检验及数据变换等内容.2.1基本统计量与数据可视化2.1.1样本数据的基本统计量描述数据基本特征主要为集中位置和分散程度。设从所研究的对象(即总体)X中观测得到n个观测值3/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析1.均值、中位数、分位数与三均值数据(x1,x2,…,xn)的平均值称为该数据的均值,记为11niixxnx1,x2,…,xn这n个值称为样本数据,简称数据,n称为样本容量.我们的任务就是要对样本数据(2.1.1)进行分析,提取数据中所包含的有用的信息,从而进一步对总体的特性作出推断.(2.1.1)(2.1.2)样本均值描述了数据取值的平均位置.样本均值计算简易,但易受异常值的影响而不稳健.4/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析又将数据(2.1.1)按从小到大的次序排列,排序为k的数记为x(k)(1kn),即x(1)x(2)…x(n),称)()2()1(,,,nxxx(2.1.3)为数据(2.1.1)的次序统计量.由次序统计量定义数M,1222()()(1).1()2nnnxnMxxn为奇数为偶数称M为数据(2.1.1)的中位数。(2.1.4)中位数是描述数据的中心位置的数字特征,若数据的分布对称,则均值与中位数比较接近。若数据的分布为偏态,则均值与中位数差异会较大。中位数的一个显著特点是受异常值的影响较小,具有较好的稳健性.5/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析设0p1,样本数据(2.1.1)的p分位数定义为([]1)()(1).1()2nppnpnpxnpMxxnp不是整数为整数(2.1.5)其中[np]表示np的整数部分.显然,当p=0.5时,M0.5=M,即数据的0.5分位数等于其中位数.一般来说,从整批数据(总体)中抽取样本数据,则整批数据中约有100p%个不超过样本数据的p分位数.在实际应用中,0.75分位数与0.25分位数比较重要,它们分别称为上、下四分位数,记为Q3,Q1.6/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析虽然均值与中位数都是描述数据集中位置的数字特征,但是均值用了数据的全部信息,中位数只用了部分信息(位置信息),因此通常情况下均值比中位数有效.当数据有异常值时,中位数比较稳健。为了兼顾两者的优势,因此人们提出三均值的概念,定义三均值如下:0.250.75111ˆ424MMMM(2.1.6)由定义可知:三均值是上四分位数、中位数与下四分位数的加权平均,即分位数向量(M0.25,M,M0.75)与权向量为w=(0.25,0.5,0.25)的内积。7/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析MATLAB提供了求均值、中位数、分位数的命令.(1)均值命令mean,其调用格式m=mean(X);其中,输入X为样本数据(2.1.1),输出m为样本均值。(2)中位数命令median,其调用格式MD=median(X);其中输入参数X是样本数据(2.1.1),输出MD为中位数.(3)P分位数命令prctile,其调用格式SM=prctile(X,P);其中输入参数X是样本数据(2.1.1),P为介于0至100间的整数,P=100*p,输出SM为P%分位数。8/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析注意:当样本数据X是矩阵时,上述三个命令的输出将给出X的每列数据的相对应的数值,参见例2.1.1.(4)根据分位数命令及公式(2.1.6),可编写求三均值的MATLAB程序如下。w=[0.25,0.5,0.25];%输入权向量wSM=w*prctile(X,w);%由(2.1.5)式计算X三均值例2.1.1.根据安徽省统计年鉴数据(表2.1)计算各指标均值、中位数以及三均值.9/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析项目6数据描述性分析例6-1表6-1是某省各市森林资源情况统计数据,计算各指标均值、中位数以及三均值。地区林业用地面积(khm2)森林面积(khm2)森林覆盖率(%)活立木总蓄积量(m3*104)森林蓄积量(m3*104)A53.9350.9815.48256.0065.41B44.9240.3814.99211.07151.14C148.19145.5417.10842.09677.52D293.86279.8628.801238.011035.67E86.9674.6412.91302.67299.32F791.50680.9677.803298.563252.88G598.92546.6735.602291.092099.2110/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析项目6数据描述性分析1、导入数据(方法一)原始数据是excel文件:data=xlsread('d:\ys');%导入数据;(方法二)或先将excel文件放到work文件夹中,再B=xlsread('yuanshishuju.xls')(方法三)如果数据文件保存在excel的某个sheet中,我们的使用方式为:A=xlsread('data.xlsx','Sheet1');2、导出数据用save'b.txt'B-ascii%(把矩阵B的数据,导出到了TXT文件中,名字为b.txt),注意空格,-ascii前有空格。xlswrite('a.xls',a)即可读到excel文件中注意:(a是文件名,注意单引号必须英文状态下输入)这里的Excel都是Microsoftoffice中的Excel,对于wps的Excel,MATLAB无法读取在进行文件读取时,请先关闭所要读取的数据文件将数据写入Excel之前,请先删除同名Excel文件,以免数据覆盖,造成数据丢失11/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析解:将表6-1的数据作为一个矩阵AA输入当前窗口,然后对矩阵AA调用有关命令函数,程序如下:AA=[53.9350.9815.48256.0065.4144.9240.3814.99211.07151.14148.19145.5417.10842.09677.52293.86279.8628.801238.011035.6786.9674.6412.91302.67299.32791.50680.9677.803298.563252.88598.92546.6735.602291.092099.21];M=mean(AA);MD=median(AA);w=[0.25,0.5,0.25];SM=w*prctile(AA,[0.25;0.5;0.75]);[M;MD;SM]12/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析输出结果如下:M_MD_SM%M文件名ans=1.0e+03*0.28830.25990.02901.20561.08300.14820.14550.01710.84210.67750.04490.04040.01290.21110.0654即如表6-2所示。13/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析统计量林业用地面积(khm2)森林面积(khm2)森林覆盖率(%)活立木总蓄积量(m3*104)森林蓄积量(m3*104)均值288.3259.929.01205.61083.0中位数148.2145.517.1842.1677.5三均值44.940.412.9211.165.4表6-2某省森林资源均值、中位数与三均值14/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析2.方差与变异系数方差是描述数据取值分散性的一种度量,它是数据相对于均值的偏差平方的平均.样本数据(2.1.1)的方差记为22221111()11nniiiisxxxnxnn(2.1.7)其算术平方根称为标准差或根方差,即22111niisxnxn(2.1.8)15/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析刻画数据x1,x2,…,xn相对分散性的指标可以用变异系数,其计算公式为//||vsxsx,或(2.1.9)变异系数是一个无量纲的量,一般用百分数表示.在MATLAB中,计算方差命令var,调用格式S=var(x);计算标准差命令std,调用格式d=std(x)其中输入x是样本数据,输出S为方差,d为标准差.当输入x是矩阵时,输出x每列数据的方差与标准差.由均值与方差命令,可设计变异系数的计算程序为v=std(x)./mean(x),或者v=std(x)./abs(mean(x))当输入x是矩阵时,输出x每列数据的变异系数.16/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析例2.1.2.计算例2.1.1中各指标的方差、标准差与变异系数解:将表2-1中的数据粘贴到MATLAB软件A=[53.93,…,3252.88];%粘贴原始数据M=mean(A);%计算各指标均值D=var(A);%计算各指标方差SD=std(A);%计算各指标标准差V=SD./abs(M)%计算各指标变异系数[D;SD;V]%输出计算结果表2.3安徽省森林资源方差、标准差与变异系数(2008年)统计量林地面积森林面积森林覆盖率活立木总蓄积量森林蓄积量方差75464.4859198.14394.491065554.981040590.73标准差274.71243.3119.861032.261020.09变异系数1.011.010.740.961.0717/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析3.样本的极差与四分位极差极差的计算公式为:()(1)-nRxx它是表示数据的分散性的数字特征.MATLAB中公式为:max(data)-min(data),或range(data)上、下四分位数Q3,Q1之差称为四分位极差,即R1=Q3-Q1MATLAB中计算数据data的公式为:iqr(data)4.异常点判别先求上、下截断点:R上=Q3+1.5R1,R下=Q1-1.5R1小于R下或大于R上的数据均为异常值.18/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析例2.1.3根据2007年华东地区各高校教职工数据,计算专任教师、行政人员、教辅人员以及工勤人员占在职教工的百分比,以及百分比的极差、四分位极差以及上、下截断点.表2.42007年华东地区各高校教职工数据地区在职教工专任教师行政人员教辅人员工勤人员上海61385354801028278427781江苏13421588568201721337112104浙江67763456221096067984383安徽5914940743727857635365福建4786431385771250343733江西6339245153817954954565山东1209968188916342116141115119/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析解:A=[613853548010282784277811342158856820172133711210467763