实验12数据的基本统计分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于MATLAB的数学实验1实验12数据的基本统计分析一、实验目的本次实验应掌握随机变量的分布函数命令,能计算概率并做出密度曲线,对于实验得到的数据能进行初步的统计分析,掌握大样本数据的处理方法,会画出直方图并熟悉概率纸检验方法。二、实验内容及要求1、随机变量与分布在MATLAB统计工具箱中有以下随机变量的密度函数与分布函数,如表1.12所示。表1.12密度函数与分布函数随机变量名称MATLAB密度函数随机变量名称MATLAB密度函数Beta分布betapdf标准正态分布normpdf二项分布binopdf泊松分布poisspdf卡方分布chi2pdf瑞利分布raylpdf指数分布ExppdfT分布tpdfF分布fpdf均匀分布unifpdf伽马分布gampdfWeibull分布weibpdf几何分布geopdf非中心F分布ncfpdf超几何分布hygepdf非中心T分布nctpdf对数正态分布lognpdf非中心卡方分布ncx2pdf一般分布的密度pdf如果将上述命令中的后缀pdf分别改为cdf,inv,rnd,srat就得到相应的随机变量的分布函数、分位数、随机数的生成以及均值与方差。由于正态分布是实际中最常用的分布,我们以此为例说明如何利用MATLAB中的函数来计算正态分布的分布函数、概率密度函数值、做出密度函数曲线、求出分位数的功能,其他分布的计算方法基本相同,我们留做实验。【例1.110】已知X~N(2,25.0),试求:(1)P{0X1},P{X≤3};(2)P{X≤x}=0.6827,x=.(3)做出[-2.5,3.5]上的概率密度曲线;解:p=normcdf(x,μ,σ)用于计算P{X≤x}.(1)P{0X1}=normcdf(1,2,0.5)-normcdf(0,2,0.5)=0.0227P{X≤x}=normcdf(3,2,0.5)=0.9772基于MATLAB的数学实验2(2)计算正态分布的分位数利用:x=norminv(p,μ,σ)x=norminv(0.6872,2,0.5)=2.23763116875765(3)函数p=normspec([a,b],μ,σ)用于做出在区间[a,b]上的正态密度曲线:p=normspec([-2.5,3.5],2,0.5)图1.38[-2.5,3.5]上的概率密度曲线2、数据特征设nXXX,...,,21是取自总体X的一个简单随机样本,在n次抽样以后得到样本的一组观测值nxxx,...,,21.我们通过对数据nxxx,...,,21.的分析研究得到总体X的有关信息,在MATLAB中有专门的函数分析数据特征,如表1.13所示.表1.13函数位置特征MATLAB函数变异特征MATLAB函数算术平均mean极差range中位数median方差var切尾平均trimmean标准差std几何平均geomean四分位极差iqr调和平均harmmean平均绝对偏差mad【例1.111】已知数据:4593626245425095844337488155056124524349826407425657065936809266531644877346084281153593844527552513781474基于MATLAB的数学实验3388824538862659775859755649692515628954771609402960885610292837473677358638699634555570844166061062484120447654564339280246687539790581621724531512577496468499544645764558378765666763217715310851计算其数据特征.解:a=[459,362,...,310,851];b=a(:);mean(b),median(b),trimmean(b,10),geomean(b),harmmean(b),range(b),var(b),std(b),iqr(b),mad(b)注意:切尾平均有两个输入,后者为百分数。结果如表1.14所示。表1.14结果位置特征计算结果变异特征结算结果算术平均600极差1069中位数599.5方差38663.03切尾平均600.64标准差196.629几何平均559.68四分位极差243.5调和平均499.06平均绝对偏差150.86【例1.112】已知数据:1,1,1,1,1,1,100;计算其数据特征,由此你有何发现?解:x=[1,1,1,1,1,1,100];y=[mean(x),median(x),geomean(x),harmmean(x),trimmean(x,25);range(x),var(x),std(x),iqr(x),mad(x)]计算结果为:y=15.14311.93071.16471991400.137.418024.245如果例1.112的数据全部为1,则各种平均值都应该等于1,所有的变异特征全部为零,由于有一个异常值100,于是导致上述的一些特征受影响(不稳健),但是中位数、切尾平均与四分位极差没有改变,它们对异常值是稳健的。3.异常值的判别在探索性数据分析时,有一种判别异常值的简单方法,首先计算数据的上、下截断点:131.5,1.5QRQR基于MATLAB的数学实验4数据中小于下截断点的数据为特小值,大于上截断点的数据为特大值,二者都是异常值。其中,R为四分位极差,13,QQ分别称为下分四位数和上四分位数,对于01P,和样本容量为n的样本nxxx,...,,21,其次序统计量记为:(1)(2)(),,...,nxxx.于是计算样本的P分位数的公式为:([]1)()(1),/2,nppnpnpxnpmxxnp不是整数是整数显然10.2530.75,QMQM【例1.113】计算例1.111中的上下四分位数13,QQ以及四分位极差R,并判断有无异常值。解:由((:))xsorta得到原数据从大到小的次序统计量,因为np为整数,故有:10.2530.75((25)(26))/2485.5,((75)(76))/2729,243.5QMxxQMxxR于是,131.5120.25,1.51094.25,QRQR由此可知,80,120,1153是异常值。4.统计量在MATLAB中给出了计算矩统计量、峰度、偏度和变异系数的函数表1.15所示。表1.15函数名称n阶中心矩峰度系数偏度系数变异系数命令moment(x,n)kurtosis(x)skewness(x)std(x)/abs(mean(x))其中,x为数据,n为阶数,若x为矩阵可得矩阵各列的矩、峰度、偏差和变异系数,但是计算变异系数的公式应为:Std(x)/abs(mean(x))(同维向量应该点除)。偏度系数s等于3阶中心矩与标准差的3次幂的比,用于刻画数据分布的对称性,当s0时称正偏,当s0时称负偏,当s接近零时,可以认为分布是对称的。峰度系数k等于4阶中心矩与标准差的4次幂的比,它反映了分布曲线的陡缓程度,正态分布的峰度为3,若k3则表明数据分布有较厚的尾部。变异系数用于刻画数据的变化大小,不同指标的变异系数常用来计算客观性权重。【例1.114】表1.16给出了15种资产的收益率(%)ir和风险损失率(%)iq,计算峰度与偏度。基于MATLAB的数学实验5表1.16例题is(%)ir(%)iqis(%)ir(%)iq1s9.6429s33.653.32s18.55410s36.8403s49.46011s11.8314s23.94212s95.55s8.11.213s35466s143914s9.45.37s40.76815s15238s31.233.4解:x=[9.6,18.5,49.4,23.9,8.1,14,40.7,31.2,33.6,36.8,11.8,9,35,9.4,15];y=[42,54,60,42,1.2,39,68,33.4,53.3,40,31,5.5,46,5.3,23];sx=skewness(x)=0.4624kx=kurtosis(x)=1.8547sy=skewness(x)=-0.4215ky=kurtosis(x)=2.2506从计算结果可知:收益率是正偏,而风险损失率为负偏;二者峰度都小于3属于平阔峰。5、有丢失数据时的统计量在解决实际问题时经常遇到有丢失数据的情形,在MATLAB中提供了NAN函数,用于又丢时数据时的统计量。nanmax%忽略丢失数据NAN的最大值。nanmean%忽略丢失数据NAN的均值。nanmedian%忽略丢失数据NAN的中位数。nanmin%忽略丢失数据NAN的最小值。nanstd%忽略丢失数据NAN的标准差。nansum%忽略丢失数据NAN的和。6、大样本数据的处理通常大样本数据有以下的处理方法.(1)标准化将某矩阵的各列(行)元素减去该列(行)的均值,再比上该列的标准差.【例1.115】将表1.17中的数据标准化.基于MATLAB的数学实验6表1.17各地区“三资”工业企业主要经效益指标(2001年)工业增加值率总资产贡献率资产负债率流动资产周转次数成本费用全员劳动生产率产品销售率(次/年)利润率(元/人/年)全国26.199.8354.871.895.857591397.64北京22.4212.2359.972.015.6313288797.94天津23.7511.1750.531.898.159734299.01河北28.808.1962.901.675.505080198.07山西34.554.7568.801.480.507291094.50内蒙古30.528.2343.410.887.2562099100.88辽宁26.708.3250.321.915.028277996.70吉林29.4625.2952.292.6513.7516123396.52黑龙江31.946.5570.181.003.407514392.41上海26.2310.4348.391.687.0912231099.16江苏25.0710.0657.532.055.238888397.66浙江23.8011.2555.092.006.685601697.01安徽31.659.2756.431.735.648146098.97福建26.927.2454.601.983.935581696.79江西27.539.2758.141.604.095225698.03山东29.6311.2357.062.046.236375597.36湖南33.089.4755.591.248.298028796.43湖北35.3210.4757.391.856.5010363898.00河南29.2610.8354.061.727.117309098.67广东25.368.8856.412.034.996416197.28广西30.489.6456.081.506.736337196.34海南25.286.4455.141.283.105959391.59重庆31.3810.0845.141.525.6310649196.64四川31.848.6156.741.506.668637997.13贵州30.572.1761.900.80-2.363562298.56云南32.109.9748.351.3011.698625596.88西藏50.00NAN30.000.33NAN5000150.00陕西33.6212.9355.831.2913.5913876896.99甘肃28.575.1363.651.112.026769799.86青海20.9611.6650.511.8818.289416795.92宁夏33.473.6261.151.08-3.006171491.12新疆29.556.1159.390.957.087

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功