1环境统计学•授课教师:林红军•授课时间:2010学年第二学期(EnvironmentalStatistics)环境科学系办公地点:校8幢123室,17幢612室E-mail:hjlin@zjnu.cn,linhonjun@163.comCell:15958459856,6798562环境统计学•第1章绪论•第2章概率统计基础•第3章环境一元线性回归分析•第4章环境多元线性回归分析•第5章环境系统聚类分析•第6章环境模糊聚类分析•第7章环境判别分析•第8章环境主成分分析•第9章环境因子分析•第10章人工神经网络•第11章环境空间统计分析3随机事件随机试验随机事件事件的运算概率概率古典概率概率计算数学特征数学期望方差变异系数协方差相关系数概率数学特征随机事件概率分布正态分布t分布x2分布F分布概率分布统计推断参数估值点估计区间估计置信区间假设检验统计推断概率统计基础第四节重要的概率分布常用连续型概率分布正态分布卡方分布F分布t分布连续型概率分布5COD的测试微回流重铬酸钾测试方法正态分布(normaldistribution)6COD的测试1000mg/L900次810次11次1次次数浓度7概率密度函数(probabilitydensityfunction)1.设X为一连续型随机变量,x为任意实数,X的概率密度函数记为f(x),它满足条件1d)()2(0)()1(xxfxf2.f(x)不是概率8正态分布(normaldistribution)1.由C.F.高斯(CarlFriedrichGauss,1777—1855)作为描述误差相对频数分布的模型而提出2.描述连续型随机变量的最重要的分布3.许多现象都可以由正态分布来描述4.可用于近似离散型随机变量的分布–例如:二项分布5.经典统计推断的基础xf(x)正态分布的定义及其特征(一)正态分布的定义若连续型随机变量x的概率分布密度函数为(1)其中μ为平均数,σ2为方差,则称随机变量x服从正态分布(normaldistribution),记为x~N(μ,σ2)。相应的概率分布函数为(2)222)(21)(xexfxxdxex222)(21)(:具有下述性质xf;12dxxf;01xf1对称;关于x(x)(3)f22()23,2xμσμxfxexπσ函数在上单调增加,在上fx4(,]μ[,)μ单调减少,在取得最大值;xμ.)(的图形如图所示xf,的大小时改变σ图形的对)(xf称轴不变,而形状在改变,,越小σ图形越高越瘦,,越大σ图形越矮越胖.,(5).μ当固定,的值改变Ox则图形沿着轴平移,而不改变其形状,可见正态分布的概率密.)(所确定的位置完全由参数度曲线xfy称为位置参数.,(6)如果固定决定了图形的中心位置,决定了图形中峰的陡峭程度.正态分布的图形特点),(2N正态分布的计算)(xF}{xXP?原函数不是初等函数tσxσμtdeπ21222)(方法一:利用MATLAB软件包计算方法二:转化为标准正态分布查表计算1,0的正态分布称为标准正态分布.记为其密度函数和分布函数常用和表示:)(x)(x标准正态分布221,2txxedtxπ221,2xφxexπ)1,0(~NX标准正态分布X一般正态分布xX1X标准正态分布222)(21)(xexf2221)(XeXf书末附有标准正态分布函数数值表,有了它,可以解决一般正态分布的概率计算查表.正态分布表)(1)(xxdtexxt2221)(当x0时,表中给的是x0时,Φ(x)的值.(一)标准正态分布的概率计算设z服从标准正态分布,则z在[z1,z2]何内取值的概率为:=Φ(z2)-Φ(z1)而Φ(z1)与Φ(z2)可由附表1查得。duedueduezzzPzuzuzzu122221221212121212121)(正态分布的概率计算例如,Z=1.75,1.7放在第一列0.05放在第一行。在附表1中,1.7所在行与0.05所在列相交处的数值为0.95994,即Φ(1.75)=0.95994有时会遇到给定Φ(Z)值,例如Φ(Z)=0.284,反过来查u值。这只要在附表1中找到与0.284最接近的值0.2843,对应行的第一列数-0.5,对应列的第一行数值0.07,即相应的u值为u=-0.57,即Φ(-0.57)=0.284如果要求更精确的u值,可用线性插值法计算。21【例1】定某公司职员每周的加班津贴服从均值为50元、标准差为10元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过70元,又有多少比例的职员每周的加班津贴在40元到60元之间呢?解:设=50,=10,X~N(50,102)0228.09772.01)2(1)105070(1)70(1)70(ΦΦXPXP6826.018413.021)1(2)1()1()105040()105060()6040(ΦΦΦΦΦXP22?01.0,)cm:()6,170(~2车门顶碰头的几率小于使男子与车门的高度问应如何设计公共汽车单位高设某城市成年男子的身NX【例2】解,)6,170(~)1(2NX由题设知}{1}{lXPlXP617061701lXP)6170(1l,01.0.99.0)6170(l即,33.26170l查表得.)cm(98.183l故24思考题•1、已知某种水果的单个重量服从正态分布,平均值为140g,标准差为12.2g,今随机抽出一个,试问其重量不小于130g的概率是多少?•2、某地区成年男子身高服从正态分布,其均值是169cm,标准差为7cm。求满足满足以下条件的男子的比例:⑴、155cm以下;⑵、176cm以上;⑶155cm~176cm之间•3、某电视机厂某种型号电视机的销售价为2000元,成本为1200元。产品中有一部分可能会在保持期内损坏,因此厂家得免费维修,假设修理费平均而言每台500元。现假设电视机的使用寿命呈正态分布,均值为7年,标准差为3年。问:如果希望每台电视机的平均利润达到750元,厂家应承诺的保修期大概是几年?当总体标准差σ未知时,以样本标准差S代替σ所得到的统计数记为t。即t分布若x~N(μ,σ2),则~N(μ,σ2/n)。将随机变量标准化得:,则z~N(0,1)。xxxxz/)(xSx/)(xxtSt分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布xt分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)zt分布在计算时,由于采用S来代替σ,使得t变量不再服从标准正态分布,而是服从自由度d=n-1的t分布。xSt的取值范围是(-∞,+∞);ft分布与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布。t分布当n30时,t分布与标准正态分布的区别很小;n100时,t分布基本与标准正态分布相同;n→∞时,t分布与标准正态分布完全一致。1.由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson)分别于1875年和1900年推导出来2.设,则3.令,则Y服从自由度为1的2分布,即4.当总体,从中抽取容量为n的样本,则),(~2NX)1,0(~NXz2zY)1(~2Y),(~2NX)1(~)(2212nxxnii2分布(2distribution)301.分布的变量值始终为正2.分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称3.期望为:E(2)=v,方差为:D(2)=2v(v为自由度)4.可加性:若U和V为两个独立的2分布随机变量,U~2(v1),V~2(v2),则U+V这一随机变量服从自由度为v1+v2的2分布2分布(2distribution)•5、设X~N(u,),x1,x2……,xn是X的一个样本,与分别为样本的均值和方差,则有:)1(~)1(222nsn2niixnx11212)(11niixxns2分布(2distribution)不同容量样本的抽样分布2n=1n=4n=10n=202分布(2distribution)33分位点若对于给定的,0<<1,存在使得则称点为分布的上分位点,如图所示。)1(222)()}1({ndxxfnP)(2v2341.由统计学家费希尔(R.A.Fisher)提出的,以其姓氏的第一个字母来命名2.设若U为服从自由度为v1的2分布,即U~2(v1),V为服从自由度为v2的2分布,即V~2(v2),且U和V相互独立,则3.称F为服从自由度v1和v2的F分布,记为F分布(Fdistribution)21vVvUF),(~21vvFF35•假设总体X-N(),总体Y-N(),X,Y相互独立,x1,x2,……,xn和y1,y2,……,yn分别是来自X和Y的样本。分别是它们的方差,则:),(~//2122222121vvFss211,222,2221,ss36F分布(图示)不同自由度的F分布F(1,10)(5,10)(10,10)37——α分位点对于给定的α,0α1,称满足为F分布的α分位点。——),(2121)()},({nnFdxxfnnFFP),(1),(12211nnFnnF参数估计(parametricestimation)假设检验(testofhypothesis)根据总体理论分布,从样本统计数对总体参数的推断常用的有t检验、F检验和2检验等,基本原理相同。主要内容:假设检验又叫显著性检验。统计推断(Fdistribution)39统计推断的过程样本总体样本统计量如:样本均值、比率、方差参数估计的基本理论•抽样估计的基本条件–有合适的统计量作为估计量–有合理的允许误差范围–有一个可以接受的置信度•参数估计的基本概念–总体和样本–参数及统计量–样本容量和样本个数–重复抽样和不重复抽样•参数估计的基本方法–点估计和区间估计参数估计在统计方法中的地位参数估计假设检验统计方法描述统计推断统计1.估计量:用于估计总体参数的随机变量–如样本均值,样本比率、样本方差等–例如:样本均值就是总体均值的一个估计量2.参数用表示,估计量用表示3.估计值:估计参数时计算出来的统计量的具体值–如果样本均值x=80,则80就是的估计值估计量与估计值ˆ参数估计的方法估计方法点估计区间估计44点估计1.用样本的估计量直接作为总体参数的估计值–例如:用样本均值直接作为总体均值的估计–例如:用两个样本均值之差直接作为总体均值之差的估计2.没有给出估计值接近总体参数程度的信息3.点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等1222nXXsPpX点估计完全正确的概率通常为0。因此,我们更多的是考虑用样本统计量去估计总体参数的范围区间估计。45区间估计•含义:在点估计的基础上,估计总体参数的区间范围,并给出区间估计成立的概率值。•其中:1-α(0α1)称为置信水平•α是区间估计的显著性水平;•常用的置信水平值有99%,95%,90%–相应的为0.01,0.05,0.1012()1p注意对上式的理解:例