第四章、水文统计学随机变量及其分布参数水文中常用的概率分布曲线统计参数估计方法相关分析水文时间序列分析学习要求:(1)了解概率、随机变量及其概率分布的基本概念;(2)了解水文频率曲线常用的线型,要掌握P-III型分布曲线和经验频率曲线的性质和计算方法;(3)掌握水文频率计算适线法的具体步骤和方法,特别是参数对频率曲线的影响;(5)了解相关分析的基本概念和方法,特别要掌握两变量直线相关、曲线相关的方法和具体步骤;(6)水文过程的随机模拟。水文现象具有二重性:水文现象包含着必然性水文现象也包含着偶然性,对水文的偶然现象(或称随机现象)所遵循的规律一般称做统计规律。物理成因分析法概率论和数理统计分析方法4.1.1概率的基本概念与定理1.事件:是指随机试验的结果。事件有两种属性:数量性质:直接测量的量或计算的量,如年降雨量,年径流量...属性性质:直接观测到的现象,如天气的雨天和晴天,婴儿性别,钱币的正面和背面...4.1.随机变量及其分布参数1)必然事件2)不可能事件3)随机事件事件可以分为三种类型:2.概率为了比较某随机事件出现(或不出现)的可能性大小,必然赋予一种量化的(以数量表示)指标,这个数量指标就是事件的概率。nmAP)(式中,P(A):一定条件下随机事件A的概率;n:试验中所有可能的出现的结果数;m:出现随机事件A的结果数。简单(古典)的随机事件的概率定义用下式表示:古典的随机试验是指所有试验的可能结果都是等可能的,而且试验的可能结果的总数是有限的。但水文事件不一定符合这种性质。对于不是古典概型事件,只能通过多次重复试验来估计事件的概率。设事件A在n次随机试验中出现了m次,则称:nmAW)(3.频率为事件A在n次试验中出现的频率。注意:n不是所有可能的结果总数,仅是随机试验的次数。频率:频率是通过若干次试验后才能求得的经验值,事先不能确定,当试验次数n愈大,即当n趋于无穷大时,理论上,n变成试验中所有可能的结果总数,则频率愈接近概率。概率和频率的区别:概率:在等可能条件下,表达事件客观上出现的可能性大小,是一个理论值。1.随机变量用以表示随机试验结果的一个数量(事先是未知的),由于它事先不能确定,是随机的,称为随机变量。水文现象中的随机变量,一般指某个水文特征值(如年径流量、年降雨量、洪峰流量等)。4.1.2.随机变量及其分布参数总体在统计数学中,把某种随机变量所取数值的全体,称为总体。如年径流量的总体数是无穷的。统计学中几个概念:样本从总体中不带主观成分任意抽取的一部分,称为样本。样本所包含的项数,称为样本容量。如实测的水文资料是有限的,是一样本。它是指随机试验结果的一个数量。在水文学中,常用大写字母表示,记作X,而随机变量的可能取的值记作x,即:X=x1,X=x2,X=xn一般称之为随机系列或随机数列。随机变量的表示:离散型随机变量随机变量仅取得区间内某些间断的离散值,则称为离散型随机变量。如洪峰次数,只能取0,1,2…,不能取相邻两数值之间的任何值。随机变量的分类:连续型随机变量随机变量可以取得一个有限区间内的任何数值,则称为连续型随机变量。如某河流断面的流量可以取0~极限值之间的任何实数值。对于离散型随机变量:随机变量的取某一可能值的机会有的大有的小,即随机变量取值都有一定的概率与之相对应,可表示为:2.随机变量的概率分布nn2211PxXPPxXPPxXP)()()(上式中P1,P2,…Pn表示随机变量X取值x1,x2,…xn所对应的概率。x1x2x3x4……xnXP离散型随机变量概率分布图一般将这种对应关系称作随机变量的概率分布规律,简称为分布律。可以用以下的分布图形表示:由于它的所有可能取值有无限个,而取个别值的概率为零,故无法研究个别值的概率。水文学上习惯研究随机变量的取值等于或大于某个值的概率,表示为:它是x的函数,称作随机变量X的分布函数,记作F(x),即F(x)=P(Xx)表示随机变量X大于或等于值x的概率,其几何曲线称作随机变量的概率分布曲线(水文学上通常称累计频率曲线,简称频率曲线)。)(xXP对于连续型随机变量:由图中可知,X=900,相应的P(Xx)=0.15,说明大于900mm降雨的可能性为15%;同理,大于500mm降雨的可能性为60%00.20.40.60.81.0)xX(P)x(F500900年降雨量(mm)某站年雨量概率分布曲线P(Xx)P(Xx)=P(Xx+x)+P(x+xXx)P(x+xXx)=P(Xx)-P(Xx+x)=F(x)-F(x+x)(8-1)由概率的加法定理:则,降雨量落在900和500mm的可能性为:60%-15%=45%xx+xPXP(Xx)P(Xx+x)随机变量X落在(x,x+x)的概率可用下式表示:平均概率密度:随机变量落在区间(x,x+x)的概率与该区间长度的比值称作随机变量落在区间(x,x+x)平均概率。xxxFxF)()(概率密度函数:称f(x)为概率密度函数,简称密度函数。而密度函数的几何曲线称作密度曲线。)()()()()()(xfxFxxFxxFlimxxxFxFlim0x0xΔΔΔΔΔΔ当x0,取极限得:f(x)f(xi)F(x)xi密度曲线分布曲线dxxfxFx)()(xxdx通过密度函数f(x)可求出随机变量X落在(x~x+dx)区间即dx上的概率=f(x)dx,称之为概率元素,即为图中的阴影面积;通过密度函数f(x)可求出随机变量X概率分布函数F(x),其与密度函数f(x)有如下的数学关系:dxxfxXPxFx)()()(F(x)分布函数,反映随机变量X超过某个值x的概率。这两个函数能完整地描述随机变量的分布规律。f(x)密度函数,反映随机变量X落入dx区间的平均概率;可见,随机变量的二个函数:在实际问题中,随机变量的分布函数不易确定,或有时不一定需要用完整的形式来说明随机变量,而只要知道其主要特征就可以。随机变量的分布函数和密度函数中都包含一些参数(如均值、变差系数、偏态系数),而这些参数能反映随机变量分布的特点:如有的分布集中,有的分布分散,有的分布对称,有的分布非对称,等等。在统计学中用以表示随机变量这些分布特征的某些数值,称之为随机变量统计参数。3.随机变量统计参数平均数/数学期望xniiiniiipxxEpxx11)(或离散型随机变量的平均数是以概率为权重的加权平均值。a.反映位置特征参数对于离散型随机变量:)58()()(dxxfxxEba式中,a、b分别为随机变量X取值的上下限。数学期望或平均数代表整个随机变量的总水平的高低,它为分布的中心。对于连续的随机变量:表示概率密度分布峰点所对应的数。对于离散型随机变量:M0(x)是使概率P(=xi)等于最大时所相应的xi值。M0(x)=xiPi-1PiPi+1Px离散型随机变量的众数众数,记为M0(x)M0(x)是概率密度函数f(x)等于最大时所对应的xi值M0(x)f(x)x连续的随机变量的众数对于连续型随机变量:把概率密度分布分为二个相等部分的数。对于离散型的随机变量:将所有变量的可能取值按大小次序排列,位置居中的数字。中位数,记为Me(x)对于连续的随机变量中位数满足:21dxxfdxxfbxMxMaee)()()()(式中,a,b分别为随机变量X取值的上下限Me(x)xf(x)1/21/2ab该参数用以反映随机变量分布离散程度(相对于随机变量分布中心即平均值的差距)的指标,通常有以下几种:b.反映离散特征参数值愈大,分布愈分散;值愈小,分布愈集中。标准差(均方差)(Standarddeviation)2)(xxE(8-6)1221f(x)x标准差对密度函数的影响变差系数(离差系数,离势系数〕xxECV)(CV1CV2CV2CV1f(x)x变差系数对密度函数的影响CV值愈大,分布愈分散;CV值愈小,分布愈集中。对于均值不同的二个系列,用均方差来比较其离散程度就不合适,则要采用均方差和均值的比来表示:f(x)x偏态系数对密度函数的影响Cs=0Cs0Cs0若不对称:CS0,称为正偏;CS0,称为负偏。c.反映对称特征的参数:偏态系数(偏差系数)33)(xXECs4.2.水文中常用的概率分布曲线1.正态分布(8-9)xexfxx222)(21)(式中,:平均数;:标准差。x许多随机变量如水文测量误差、抽样误差等一般服从正态分布。f(x)a.单峰,只有一个众数;b.对于平均数对称,Cs=0;c.曲线二端趋于±∞,并以x轴为渐近线;d.1)(dxxf正态分布曲线的特点:xxx概率密度函数表达式:)(100)()()(axeaxxf2.皮尔逊Ⅲ型分布式中,()~的伽玛函数,,,a0:三个参数,它们与三个统计参数有一定的关系,其表达式为:dxexx01)(Γsvc,c,x)21(2402svsvsccxaccxc可见,当以上三个参数确定后,P-III型密度函数亦完全确定。f(x)皮尔逊Ⅲ型概率密度曲线a0M0(x)Me(x)xPPxdxxfP)(xP-III型曲线的特点:一端有限另一端无限的不对称单峰正偏曲线PxaxPdxeaxxXPP)(100)()()(在水文计算中,一般要求出指定概率P所相应的随机变量的取值xP,即求出的xP满足下列等式:按上式计算相当复杂,故实用中,采用标准化变换:取标准变量(离均系数),即代入上式,,,a0以相应的和关系式表示,简化后得:VCxxx)()1(VCxxVCx,SCdCfPPsP),()(0.031.302.473.384.160.20.021.292.403.233.940.10.001.282.333.093.720.0501010.10.01P(%)pCsP-III型曲线离均系数P值表注:详表见附表1,p266被积函数含有参数,Cs,而包含在中,制成对应关系表:,VxCPs~P~CVCxxx)(xCxVPP)1(因此,由给定的CS及P,从P-III型曲线离均系数值表,查出P,再由下式求:即求出指定概率P所相应的随机变量的取值xP已知:某地年平均降雨量=1000mm,CV=0.5,CS=1.0,若年降雨量符合P-III型分布试求:P=1%的年降雨量。x【算例】求解:由CS=1.0及P=1%,查附表1得p=3.021%(1)(3.020.51)1000=2510PPVxxΦCxmm+引入模比系数:x/xKPP1VPPCΦK另一种求解方法:xCΦxVPP1)(由由此建立的对应数值关系[P-III型曲线模比系数KP值表(见附表2)]P~K~CPV上例的解法:由CV=0.5,CS=1.0=2CV,P=1%查附表2得:mmxKxKP1%P251010002.512.51P-III型曲线模比系数KP值表(附表2,P266)P(%)CV0.010.10.20.330.512510205075909599(一)CS=CV0.051.191.161.151.141.131.121.111.091.071.041.000.970.940.920.89……………………………………1.5011.68.858.027.366.876.005.113.923.002.040.64-0.10-0.53-0.70-0.89(二)CS=1.5CV0.05(三)CS=2CV。。。。。。(三)CS=6CV水文随机变量的总体是无限的,这就需要在总体不知道的情况下,靠抽出的样本(观测的系列)去估计总体参数。4.3.随机变量系列统计参数的估计估算方法有:矩