随机变量名称MATLAB密度函数随机变量名称MATLAB密度函数Beta分布betapdf标准正态分布normpdf二项分布binopdf泊松分布poisspdf卡方分布chi2pdf瑞利分布raylpdf指数分布exppdfT分布tpdfF分布fpdf均匀分布unifpdf伽马分布gampdfWeibull分布weibpdf几何分布geopdf非中心F分布ncfpdf超几何分布hygepdf非中心T分布nctpdf对数正态分布lognpdf非中心卡方布ncx2pdf如果将上述命令中的后缀pdf分别改为cdf,inv,rnd,stat就得到相应的随机变量的分布函数、分位数、随机数的生成以及均值与方差.一.随机变量与分布第九讲数据的基本统计分析我们利用MATLAB中的函数来计算正态分布的分布函数、概率密度函数值、做出密度函数曲线、分位数.}xX{P)x(F),,(N~X2则若在MATLAB中计算上述分布函数的命令为:P=NORMCDF(x,mu,sigma)DefaultvaluesforMUandSIGMAare0and1respectively.例1已知试求:)5.0,2(N~X2}2X1{P},3X{P解:normcdf(3,2,0.5)=0.9772;normcdf(2,2,0.5)-normcdf(1,2,0.5)=0.47721.计算分布函数与概率密度函数值:2.做出密度函数曲线、求分位数已知X的均值和标准差及概率p=P{Xx},求x的命令为:X=NORMINV(P,MU,SIGMA)例2.X~N(1,0.04),p{Xx}=0.6827求x解:x=norminv(0.6827,1,0.2)=1.0951NORMSPEC([a,b],MU,SIGMA)用于做出随机变量在区间[a,b]上的正态密度曲线例3.若X~N(2,4),作出X在[-1,3]上的曲线解:normspec([-1,3],2,2)图形如右图所示(图7.1)二.数据特征设是取自总体X的一个简单随机样本,在n次抽样以后得到样本的一组观测值我们通过对数据的分析研究可以得到总体X的有关信息,在MATLAB中有专门的函数分析数据特征,如下表所示.n21X,...,X,Xn21x,...,x,x位置特征MATLAB函数变异特征MATLAB函数算术平均mean极差range中位数median方差var切尾平均trimmean标准差std几何平均geomean四分位极差iqr调和平均harmmean平均绝对偏差mad例4.已知数据:4593626245425095844337488155056124524349826407425657065936809266531644877346084281153593844527552513781474388824538862659775859755649697515628954771609402960885610292837473677358638699634555570844166061062484120447654564339280246687539790581621724531512577496468499544645764558378765666763217715310851计算该数据特征.解:a=[4593626245425095844337488155056124524349826407425657065936809266531644877346084281153593844527552513781474388824538862659775859755649697515628954771609402960885610292837473677358638699634555570844166061062484120447654564339280246687539790581621724531512577496468499544645764558378765666763217715310851];b=a(:);%将矩阵变成数列T=[mean(b),median(b),trimmean(b,10),geomean(b),harmmean(b),range(b),var(b),std(b),iqr(b),mad(b)]位置特征计算结果变异特征计算结果算术平均600极差1069中位数599.5方差38663.03切尾平均600.64标准差196.629几何平均559.68四分位极差243.5调和平均499.06平均绝对偏差150.86计算结果如下:例5.已知数据:1,1,1,1,1,1,100;计算其数据特征,由此你有何发现?解:x=[1,1,1,1,1,1,100];y=[mean(x),median(x),geomean(x),harmmean(x),trimmean(x,25);range(x),var(x),std(x),iqr(x),mad(x)]计算结果为:y=15.14311.93071.16471991400.137.418024.245如果例5的数据全部为1,则各种平均值都应等于1,所有的变异特征全部为零,由于有一个异常值100,于是导致上述的一些特征受影响(不稳健),但是中位数、切尾平均与四分位极差没有改变,它们对异常值是稳健的.三.异常值的判别在探索性数据分析时,有一种判别异常值的简单方法,首先计算数据的下、上截断点,数据中小于下截断点的数据为特小值,大于上截断点的数据为特大值,二者都是异常值.1.数据的下、上截断点计算上、下截断点的公式如下:5R.1Q,5R.1Q31其中,R为四分位极差,分别称为下四分位数与上四分位数.31Q,Q对于0≤p1,和样本容量为n的样本其次序统计量记为:于是计算样本的P分位数的公式为:n21X,...,X,X(1)(2)(n)XXX,,...,([]1)()(1),/2,nppnpnpxnpMxxnp不是整数是整数显然75.0325.01MQ,MQ例6.判别例4中的数据有无异常值.解:由x=sort(a(:))得到原数据从小到大的次序统计量,因为np为整数,故有:Q1=(x(25)+x(26))/2=485.5,Q3=(x(75)+x(76))/2=729,R=243.5于是,Q1-1.5R=120.25,Q3+1.5R=1094.25,由此可知:80,120,1153是异常值.2.位于以外的点),33-(若数据服从正态分布,则称位于以外的点为异常点.),(2N),33-(四.矩统计量在MATLAB中给出了计算矩统计量、峰度、偏度和变异系数的函数命令,如下表所示:名称n阶中心矩峰度系数偏度系数变异系数命令moment(x,n)kurtosis(x)Skewness(x)Std(x)./abs(mean(x))其中,x为数据,n为阶数,若x为矩阵可得矩阵各列的矩、峰度、偏度和变异系数,注意计算变异系数的公式应为:Std(x)./abs(mean(x))(同维向量应该点除).偏度系数s等于3阶中心矩与标准差的3次幂的比,用于刻画数据分布的对称性,当s0时称正偏,当s0时称负偏,当s接近于零时,可以认为分布是对称的.峰度系数k等于4阶中心矩与标准差的4次幂的比,它反映了分布曲线的陡缓程度,正态分布的峰度为3,若k3则表明数据分布有较厚的尾部.变异系数用于刻画数据的变化大小,不同指标的变异系数常用来计算客观性权重.例7.下表给出了15种资产的收益率ri(%)和风险损失率qi(%),计算峰度与偏度.Siri(%)qi(%)Siri(%)qi(%)S19.642S933.653.3S218.554S1036.840S349.460S1111.831S423.942S1295.5S58.11.2S133546S61439S149.45.3S740.768S151523S831.233.4解:x=[9.6,18.5,49.4,23.9,8.1,14,40.7,31.2,33.6,36.8,11.8,9,35,9.4,15];y=[42,54,60,42,1.2,39,68,33.4,53.3,40,31,5.5,46,5.3,23];sx=skewness(x)=0.4624,kx=kurtosis(x)=1.8547,sy=skewness(y)=-0.4215,ky=kurtosis(y)=2.2506从计算结果可知:收益率是正偏,而风险损失率为负偏;二者峰度都小于3属于平阔峰.五.直方图与概率纸检验函数1.直方图:为了直观地了解随机变量的分布特征,如对称性,峰值等,直方图是广泛使用的方法.格式:hist(data,k).说明:data是原始数据,该命令将区间(min(data),max(data))分成k等份,并描绘出频数直方图,k的缺省值为10.如果需要事先给出小区间,则将区间的中点存放在向量nb然后用命令:[n,x]=hist(data),或[n,x]=hist(data,k),或[n,x]=hist(data,nb),其中,n返回k个小区间的频数,x返回小区间的中点.2.MATLAB中的概率纸检验函数.格式:normplot(data)%如果数据data服从正态分布,则做出的图形基本上都位于一条直线上.weibplot(data)%如果数据data服从威布尔分布,则做出的图形基本上都位于一条直线上,例8.作出例4数据的直方图,该数据服从正态分布还是威布尔分布?解:输入命令hist(a(:),30)得到图7.2从图7.2所示的直方图发现数据比较接近于正态分布,我们用命令normplot(a(:))进行检验.从图7.3中可见数据点基本上都位于直线上,故可认为该数据服从正态分布,由于已经计算出该数据的均值为600,标准差为196.629,所以数据服从2629196600N.,020040060080010001200109876543210图7.2NormalProbabilityPlotData100200300400500600700800900100011000.9970.990.980.950.900.750.500.250.100.050.020.010.003图7.3正态分布的检验:1.大样本h=jbtest(x),h=0,接受正态分布,h=1拒绝正态分布2.小样本h=lillietest(x),h=0,接受正态分布,h=1拒绝正态分布作业:1.根据下表计算七项指标的均值、方差、偏度与峰度表7.6各地区“三资”工业企业主要经济效益指标(2001年)工业增加值率总资产贡献率资产负债率流动资产周转次数成本费用全员劳动生产率产品销售率(次/年)利润率(元/人/年)全国26.199.8354.871.895.857591397.64北京22.4212.2359.972.015.6313288797.94天津23.7511.1750.531.898.159734299.01河北28.808.1962.901.675.505080198.07山西34.554.7568.801.480.507291094.50内蒙古30.528.2343.410.887.2562099100.88辽宁26.708.3250.321.915.028277996.70吉林29.4625.2952.292.6513.7516123396.52黑龙江31.946.5570.181.003.407514392.41上海26.2310.4348.391.687.0912231099.16江苏25.0710.0657.532.055.238888397.66浙江23.8011.2555.092.006.685601697.01安徽31.659.2756.431.735.648146098.97福建26.927.2454.601.983.935581696.79江西27.539.2758.141.604.095225698.