统计数据的描述性分析一、实验目的熟悉在matlab中实现数据的统计描述方法,掌握基本统计命令:样本均值、样本中位数、样本标准差、样本方差、概率密度函数pdf、概率分布函数df、随机数生成rnd。二、实验内容1、频数表和直方图数据输入,将你班的任意科目考试成绩输入data=[9178908876817774];[N,X]=hist(data,5)N=31103X=75.700079.100082.500085.900089.3000hist(data,5)2、基本统计量1)样本均值语法:m=mean(x)若x为向量,返回结果m是x中元素的均值;若x为矩阵,返回结果m是行向量,它包含x每列数据的均值。2)样本中位数语法:m=median(x)若x为向量,返回结果m是x中元素的中位数;若x为矩阵,返回结果m是行向量,它包含x每列数据的中位数3)样本标准差语法:y=std(x)若x为向量,返回结果y是x中元素的标准差;若x为矩阵,返回结果y是行向量,它包含x每列数据的标准差std(x)运用n-1进行标准化处理,n是样本的个数。4)样本方差语法:y=var(x);y=var(x,1)若x为向量,返回结果y是x中元素的方差;若x为矩阵,返回结果y是行向量,它包含x每列数据的方差var(x)运用n-1进行标准化处理(满足无偏估计的要求),n是样本的个数。var(x,1)运用n进行标准化处理,生成关于样本均值的二阶矩。5)样本的极差(最大之和最小值之差)语法:z=range(x)返回结果z是数组x的极差。6)样本的偏度语法:s=skewness(x)说明:偏度反映分布的对称性,s0称为右偏态,此时数据位于均值右边的比左边的多;s0,情况相反;s接近0则可认为分布是对称的。7)样本的峰度语法:k=kurtosis(x)说明:正态分布峰度是3,若k比3大得多,表示分布有沉重的尾巴,即样本中含有较多远离均值的数据,峰度可以作衡量偏离正态分布的尺度之一。mean(data),ans=81.8750median(data)ans=79.5000std(data)ans=6.7915var(data)ans=46.1250range(data)ans=17skewness(data)ans=0.3218k=kurtosis(data)k=1.4217作为研究杨树形状的一部分,测定20株杨树树叶,每个叶片测定了四个变量,下表第一行为叶片长度,第二行为叶片2/3处宽,第三行为叶片1/3处宽,第四行为叶片1/2处宽,计算数据的平均数、标准差、方差、极差及偏度和峰度。x=[10890130114113120879411590117134150140126118136145161155;9595958587906766847560737364754355636460;118117140113121122978811810384104110959659899112100;11011012510811011488861069676929687905275849483]mean(x')ans=122.150073.450099.750094.1000median(x')ans=119.000073.0000103.500093.0000std(x')ans=21.955214.716527.560216.7266var(x),range(x),skewness(x')ans=0.0064-0.0529-1.8406-0.43023、几个重要的概率分布Matlab统计工具箱中有20种概率分布,主要的几种分布命令字符:norm(正态分布),exp(指数分布),poiss(泊松分布),beta(B分布),weib(威布尔),chi2(x2卡方分布),t(T分布),f(F分布)对每一种分布都提供了5类函数,其函数命令的字符是:pdf(概率密度),cdf(概率分布),inv(逆概率分布),stat(均值和方差),rnd(随机数生成)当需要一种分布的某一类函数时,将以上所列的分布命令字符和函数命令的字符接起来,并输入自变量和参数就行了,例如1)计算正态分布概率密度函数:语法:p=normpdf(x,mu,sigma)说明:计算均值mu、标准差sigma的正态分布在x点概率密度p=p(x)。x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z),gtext('N(0,1)'),gtext('N(0,2^2)')x=0:0.01:20;y=chi2pdf(x,5);z=chi2pdf(x,10);plot(x,y,x,z),gtext('chi2(5)'),gtext('chi2(10)')x=0:0.01:3;y=fpdf(x,10,50);z=fpdf(x,10,5);plot(x,y,x,z),gtext('F(10,50)'),gtext('F(10,5)')2)计算正态分布的累积分布函数语法:Y=normcdf(X,musigma)说明:根据相应的均值mu和方差sigma计算X中每个值的正态分布的累积分布函数值。P=normcdf(2)-normcdf(-2)P=0.95453)计算正态分布的逆累积分布函数语法:X=norminv(P,musigma)说明:根据相应的,mu和sigma计算正态分布中累积分布概率值为P的正态分布对应点。P中的值必须位于[0,1]区间上。x=norminv(0.5,0,1)x=0x=norminv([0.0250.975],0,1)x=-1.96001.96004)二项分布均值和方差语法:[m,v]=binostat(N,P)说明:返回二项分布的均值m和方差v[m,v]=binostat(500,0.01)m=5v=4.95005)生成服从正态分布的随机数语法:R=normrnd(mu,sigma,m,n)说明:生成m*n形式的正态分布的随机矩阵。R=normrnd(70,25,30,1)R=59.185928.360473.133377.191941.338299.772999.729169.059278.182374.366065.332388.144855.2921124.579666.590172.848396.669271.482067.608849.191377.360336.595587.8581110.589152.705691.4499101.350030.156833.975984.27874、了解EXCEL的假设检验功能EXCEL:工具→数据分析→描述统计5、书上P52页例题用EXCEL做出轮廓图,雷达图打开EXCEL输入数据包括变量名和样品名选定数据点击菜单栏的插入图表折线图(轮廓图)…同法,可选雷达图等其他多元数据图示6、用MATLAB做出调和曲线图t=-pi:pi/90:pi;f1=563.51/2.^(1/2)+227.78*sin(t)+147.76*cos(t)+235.99*sin(2*t)+510.78*cos(2*t);f2=678.92/2.^(1/2)+365.07*sin(t)+112.82*cos(t)+301.46*sin(2*t)+465.88*cos(2*t);f3=237.38/2.^(1/2)+174.48*sin(t)+119.78*cos(t)+141.07*sin(2*t)+245.57*cos(2*t);f4=253.41/2.^(1/2)+156.13*sin(t)+102.96*cos(t)+108.13*sin(2*t)+212.20*cos(2*t);plot(t,f1,'r-',t,f2,'b-',t,f3,'y-',t,f4,'k-')title(‘四个地区人均消费支出’)7、做二元正态分布密度函数立体图[x,y]=meshgrid([-2:0.1:2]);z=1/2*pi*exp(-0.5*x.^2-0.5*y^2);plot3(x,y,z);或者mesh(x,y,z);或者surf(x,y,z)title(`(X,Y)~N(0,0,1,1,0)立体图`)gridon