数学实验MathematicalExperiments2011.11实验10数据的统计与分析数据的统计与分析的两类方法第一类:一般意义的统计(普查)对生产的全部1000件产品逐一检验,发现18件次品对全区居民逐一调查,得到月平均支出为828元次品率:1.8%;月平均支出为828元优点:结果完全确定,可信缺点:调查、收集的数据量可能很大,经费投入大;有些产品不允许全部检验,如灯泡、电器的寿命等缺点:结果是随机的,是否可信?第二类:数理统计(抽查)全部产品中随机抽取100件,发现2件次品随机调查了200位居民,得到月平均支出为788元次品率:2%;月平均支出788元优点:调查、收集的数据量小,经费投入小,适合不允许全部检验的产品,如灯泡、电器的寿命等任务:怎样用它来估计整体的状况(全部产品的次品率,全体居民的月平均支出)本实验基本内容2.数据的整理和描述3.随机变量的概率分布及数字特征1.实例及其分析4.用随机模拟计算数值积分5.实例的建模和求解1.实例及其分析实例1:报童的利润报童每天购进报纸零售,晚上将卖不掉的报纸退回;每份报纸购进价a,零售价b,退回价c:b≥a≥c;为获得最大利润,该报童每天应购进多少份报纸?设a=0.8元,b=1元,c=0.75元,为报童提供最佳决策需求量100—120—140—160—180—200—220—240—260—280—天数3913223235201582159天报纸需求量的情况问题报童售报:a(零售价)b(购进价)c(退回价)售出一份赚a-b;退回一份赔b-c每天购进多少份可使收入最大?分析购进太多卖不完退回赔钱购进太少不够销售赚钱少应根据需求确定购进量每天需求量是随机的优化问题的目标函数应是长期的日平均收入每天收入是随机的存在一个合适的购进量等于每天收入的期望实例1:报童的利润数学模型近似:决策变量:报童每天购进报纸的份数n每天需求为r的天数所占的百分比,记做f(r);如200(-219)份所占的百分比为35/159=22%平均利润:V(n)nrnrrfnabrfrncarabnV)(])[()()])(()[()(10实例1:报童的利润))(()(rncbrnrbarnr赔退回赚售出nbannr)(赚售出•已知售出一份赚a-b;退回一份赔b-c实例2:路灯更换策略管理部门:不亮灯泡,折合计时进行罚款。路政部门:路灯维护条件:需要专用云梯车进行线路检测和更换灯泡;向相应管理部门提出电力使用和道路管制申请;向雇用的各类人员支付报酬等更换策略:整批更换路政部门的问题:多长时间进行一次灯泡的全部更换?•换早了,很多灯泡还没有坏;•换晚了,要承受太多的罚款。2.数据的整理和描述数据的收集和样本的概念数据的整理、频数表和直方图统计量MATLAB命令数据的收集•银行随机选了50名顾客进行调查•测量每个顾客感觉舒适时的柜台高度(单位:厘米)1001101369710410095120119991261131151089311610212212112211811711410611011912711912511910595117109140121122131108120115112130116119134124128115110•银行怎样依据它确定柜台高度呢?样本:统计研究的主要对象总体--研究对象的全体。如所有顾客感觉舒适的高度个体--总体中一个基本单位。如一位顾客的舒适高度样本--若干个体的集合。如50位顾客的舒适高度样本容量--样本中个体数。如50顾客群体的舒适高度~随机变量X,概率分布F(x)n位顾客的舒适高度{xi,i=1,…n}(样本)~相互独立的、分布均为F(x)的一组随机变量。样本:随机取值的一组数据;一组相互独立的、同分布的随机变量。数据的整理比较直观,比较清晰的结论21—50岁的中青年患者大约占总发病人数的3/4,提醒民众中青年是易感人群。年龄10岁以下11-20岁21-30岁31-40岁41-50岁51岁以上总数人数241456773823323371897比例1.27%7.64%35.69%20.14%17.50%17.77%100%北京地区SARS患者的统计数据(截至2003年5月5日)频数表将数据的取值范围划分为若干个区间,统计这组数据在每个区间中出现的次数,称为频数,得到一个频数表。柜台高度频数表中点95.35100.05104.75109.45114.15118.85123.55128.25132.95137.65频数44368125422作用:推测出总体的某些简单性质。如上表表明选择柜台高度在107.10至125.90的有31人,占总人数的62%,柜台高度设计在这个范围内,会得到大多数顾客的满意。直方图(histogram):频数分布图9095100105110115120125130135140024681012柜台高度直方图平均值平均值(mean,简称样本均值)定义为频数表和直方图给出某个范围的状况,无法直接给出具体值,如确定柜台具体高度niixnx1126.115x可作为设计柜台高度的参考值例:两个班的一次考试成绩序号12345678910111213141516甲班92888592957984878865937388879480乙班84838285828182908478758378858479序号17181920212223242526272829303132甲班69868878796888875593798590539981乙班857390778182828086837778现象1:甲班平均值:82.75分,乙班平均值:81.75分结论:大致表明甲班的平均成绩稍高于乙班现象2:甲班90分以上7人,但有2人不及格,分数分散乙班全在73分到90分之间,分数相对集中40608010002468101214406080100024681012141618考试成绩直方图甲乙描述数据的分散程度(统计上称为变异)样本x=(x1,x2,,xn)的标准差(Standarddeviation)为:2/121])(11[xxnsnii甲班的标准差为10.98分,乙班的标准差为3.98分,表明甲班成绩的分散程度远大于乙班。统计量:由样本加工出来的、集中反映样本数量特征的函数。三类统计量:位置,变异程度,分布形状标准差2/1211])(1[xxnsnii31311)(1xxnsgnii41412)(1xxnsgnii偏度(skewness):分布对称性峰度(kurtosis):分布形状表示位置的还有:中位数(median):将数据由小到大排序后处于中间位置的那个数值。n为奇数时,中位数唯一确定;n为偶数时,定义为中间两数的平均值表示变异程度的还有:极差(range):x1,x2,,xn的最大值与最小值之差。方差(variance):标准差的平方s2。表示分布形状的:统计量MATLAB数据描述的常用命令命令名称输入输出注意事项[n,y]=hist(x,k)频数表x:原始数据行向量k:等分区间数n:频数行向量y:区间中点行向量[n,y]=hist(x)中k取缺省值10hist(x,k)直方图同上直方图同上mean(x)均值x:原始数据行向量median(x)中位数同上中位数range(x)极差同上极差std(x)标准差同上标准差sstd(x,1):s1var(x)方差同上方差s2var(x,1):s12skewness(x)偏度同上偏度g1kurtosis(x)峰度同上峰度g2求银行柜台高度的频数表、直方图及均值等统计量:示例输出图和下列结果:N=44368125422Y=95.3500100.0500104.7500109.4500114.1500118.8500123.5500128.2500132.9500137.6500x1=115.2600,x2=116.5000x3=47,x4=10.9690x5=-0.0971,x6=2.62163.随机变量的概率分布及数字特征频率与概率概率密度与分布函数期望和方差常用的概率分布MATLAB命令MATLAB命令2分布均匀分布指数分布正态分布分布t分布F分布二项分布泊松分布字符unifexpnormchi2tfbinopoiss功能概率密度分布函数逆概率分布均值与方差随机数生成字符pdfcdfinvstatrndy=normpdf(1.5,1,2)正态分布(=1,=2)在x=1.5处的概率密度(标准正态分布的,可省略)y=normcdf([-101.5],0,2)在x=-1,0,1.5处分布函数值)2,0(2N[m,v]=fstat(3,5)计算F(3,5)的期望和方差x=tinv(0.3,10)计算t(10)的0.3-分位数4.用随机模拟计算数值积分4.1定积分的计算4.2重积分的计算4.3MATLAB实现方法的直观解释——随机投石y101x·向单位正方形里随机投n块小石头*******若有k块小石头落在1/4单位圆内,当n很大时1/4单位圆的面积nk4(计算的一种方法)1)随机投点法目的:计算1/4单位圆的面积大数定律(贝努利定理)1)|(|limpnkPn随机变量(X,Y)在单位正方形内均匀分布1,0,1),(yxyxpnkp4点(xi,yi)落在1/4单位圆内概率21iixy即满足y101x·21iixy一般地投点坐标(xi,yi),xi,yi是相互独立、(0,1)内均匀分布的随机变量((0,1)随机数)设k是n次独立重复试验中事件A发生的次数。p是事件A在每次试验中发生的概率,则对任意的正数,有dxdyyxpYXP),()),((1)(0,10:xfyx产生n组(0,1)随机数(xi,yi),其中k组满足)(iixfynkYXP)),((1)(0,)(10xfnkdxxf随机投点法y101x·)(xfy1010)(0)(1dxxfdydxxf随机投点法(续)大数定律(辛钦定理)设随机变量nYYY,,,21相互独立,服从同一个分布,且具有数学期望),,2,1(niEYi则对任意的正数有1)|1(|lim1niinYnP随机变量X的概率密度为bxaxp),()(XfY的期望为badxxpxfXfE)()())((2)均值估计法产生(0,1)随机数xi(i=1,2,…n),n很大niixfndxxf110)(1)(用随机模拟方法计算任意区间上的积分badxxf)(10))(()(duuabafabuabax)())((1niiuabafnab其中ui为(0,1)随机数均值估计法•不要产生yi,不用比较)(iixfy1)(0xf限制;•没有均值估计法的优点均值估计法(续)MATLAB实现随机数的产生:unifrnd(a,b,m,n)产生m行n列[a,b]区间上的均匀分布随机数。当a=0,b=1时,可用rand(m,n)随机投点法计算n=10000;x=rand(2,n);k=0;fori=1:nifx(1,i)^2+x(2,i)^2=1k=k+1;endendp=4*k/n5.实例的建模和求解报童的利润路灯更换策略报童的利润1)每份报纸的购进价a,零售价b,退回价为c假设:2)需求为连续随机变量x,大致服从正态分布3)将历史的统计表看作需求量的频率,由此可以计算需求量的均值和标准差报童每天的平均利润V(n)nndxxnpabdxxpxncaxabnV)()()())(()()(0)2)(exp(21)(22xxp其中和由3)的假设计算得到0)()()()()()()()()()()()()(00nnn