811第三章水文统计基本原理与方法3.1水文统计基本概念3.2统计参数与抽样误差3.3经验频率曲线与理论频率曲线3.4水文频率计算方法3.5相关分析8123.1水文统计基本概念一、水文统计水文现象是自然现象的一种,在其发生和演变过程中,包含着必然性的一面,也包着偶然性的一面。必然现象是在一定条件下,必然出现或不出现的现象。偶然现象是在一定条件下,可能出现也可能不出现的现象,也称随机现象。813随机现象所遵循的规律称为统计规律,研究统计规律的学科称为概率论,而由随机现象的一部分试验资料去研究全体现象的数量特征和规律的学科称为数理统计学。一些水文现象具有一定的随机性,用数理统计方法来分析研究这些现象称为水文统计学。814水文统计的基本任务利用所获得的水文、气象资料,研究和分析随机水文现象(如河川径流)的统计变化规律,并以此为基础,对其未来的长期变化作出概率意义下的定量预估,为水利工程的规划、设计、施工和运行管理提供水文依据。譬如:某流域修建一个水库,其规模取决于水库运行期间(未来100年)的径流和洪水的大小。但是,未来100年的径流和洪水有多大?必须做出估计。815水文统计的基本方法和内容根据已有的资料(样本),进行频率计算,推求指定频率的水文特征值;研究水文现象之间的统计关系,应用这种关系延长、插补水文特征值和作水文预报。816水文统计对水文资料的要求:1.可靠性以实测水文数据为资料,一般可直接应用。2.一致性指同一系列水文资料属于同一类型、同一条件下产生的。如:日平均流量和月平均流量。3.代表性水文统计分析是利用已知水文资料推求可能水文情势,资料实测系列越长,代表性越好。8173.1水文统计基本概念二、事件与随机变量1.事件事件是指随机试验的结果。必然事件:如果可以断定某一事件在试验中必然发生,称此事件必然事件。不可能事件:可以断定试验中不会发生的事件称为不可能事件。随机事件:某种事件在试验结果中可以发生也可以不发生,这样的事件就称为随机事件。8183.1水文统计基本概念二、事件与随机变量2.随机变量随机事件的每次试验结果可用一个变量X的数值来表示,称为随机变量。可分为离散型的和连续型的随机变量两类。水文现象中的随机变量指水文特征值,如流量,降雨量、水位等。819连续型随机变量——在一定的概率区间内取得任何值。自记水位过程——Z(t)~t自记雨量过程——P(t)~t离散型随机变量——在一定的概率区间内取得某些间断值。年降雨量X={x1},X={x2},…,X={xn-1},X={xn}年径流量W={W1},W={W2},…,W={Wn-1},W={Wn}81103.1水文统计基本概念三、总体、个体与样本将随机变量所能取值的全体称为总体。总体中的一个单体称作个体。总体是所有个体的集合。从总体中随机抽取一部分个体称为样本。样本所含个体的数目称为样本容量(大小)。水文变量的总体是指自古迄今以至未来的水文系列,现有的水文观测系列可以当作总体的一个样本。81113.1水文统计基本概念四、概率与频率1.概率随机事件A在试验结果中可能出现也可能不出现,但其出现可能性的大小的数量标准就是概率。古典概率表达式()kPAn古典概率通常又叫事前概率,是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知,而无需经过任何统计试验即可计算各种可能发生结果的概率。古典概率满足“随机等可能,独立同分布”。81123.1水文统计基本概念四、概率与频率2.频率水文事件不属古典概型事件,只能通过试验来估算概率。设事件A在n次试验中出现了k次,则称为事件A的频率。()kWAn当n→∞时,W(A)稳定并趋于概率值,概率论中和实践已严格证明。水文上,将计算的频率作为概率的近似值。81133.1水文统计基本概念五、随机变量概率分布随机变量的取值x与其概率P的对应关系,称为随机变量的概率分布。离散型的——用随机变量的分布序列表示,即P(X=xi)=Pi(i=1,2,…,n)其概率分布满足两个条件:0≤Pi≤1,且,∑Pi=1连续型的——用随机变量X大于某值xp的概率p表示,即F(X)=P(X≥xp)=p8114五、随机变量概率分布水文学习惯研究事件Xx的概率及其分布。称F(X)=P(X≥x)为随机变量的分布函数,代表随机变量大于等于某一取值的概率。其几何图形称为随机变量的概率分布曲线,也称作水文频率曲线或累积频率曲线。见后图(b)81150.20.40.60.81.011001000900800700P(X>x)x某雨量站的年雨量分布曲线(1)年雨量超过900mm的概率P(X>900)=0.2(2)年雨量小于800mm的概率P(X>800)=0.52P(X≤800)=1-0.52=0.48(3)P(X>x)=0.1的设计值xx=995mm(4)P(X≤x)=0.1的设计值xP(X>x)=1-0.1=0.9x=720mm函数f(x)=-F’(x)=-dF(x)/dx为概率密度函数,简称为密度函数或密度曲线。表示随机变量落入区间的概率与区间长度之比值。f(x)xdxf(x)dx概率密度函数f(x)xxpF(xp)=P(X>xp)密度函数xdxxfxXPxF)()()(xf(x)F(x)xF(xP)=P(XxP)xPF(xP)概率密度函数与分布函数关系81203.1水文统计基本概念六、累积频率与重现期1.累积频率可理解为等量值和超量值累积出现的次数(m)与总观测次数(n)之比值,以百分数或小数表示。实际工程规划和设计并不需要知道等于某一特征值的频率,而需要知道大于或等于某一特征值的频率,此即累积频率。()100%imPXxn≥81213.1水文统计基本概念六、累积频率与重现期2.重现期频率比较抽象,为便于理解,常采用重现期。所谓重现期是指在许多试验中,某一事件重复出现的时间间隔的平均数。在水文中,重现期用字母T表示,一般以年为单位。在江河水利工程水文计算中,重现期是频率的倒数。8122当研究暴雨洪水问题时,P(X>x)是暴雨洪水事件发生的频率,其重现期为)(1xXPT例如,当暴雨或洪水频率为1%时,重现期T=100年,称此暴雨为百年一遇的暴雨或洪水。一般设计频率P50%8123例如,对于P(X>x)=80%枯水流量,重现期T=5年,称此为五年一遇的枯水流量,或称为保证率为80%的流量。)(11)(1xXPxXPT当研究枯水问题时,P(X≤x)是枯水频率,而P(X>x)称为保证率,其重现期一般设计频率P50%8124所谓百年一遇的暴雨或洪水,是指大于或等于这样的暴雨或洪水在长时期内平均100年发生一次,而不能认为每隔100年必然遇上一次。81253.2统计参数与抽样误差一、统计参数概率分布曲线完整地刻画了随机变量的变化规律。但随机变量特别是水文随机变量,其概率分布的确定是十分困难的。实际上,我们有时仅需要知道它的一些数字特征即统计参数就足够了。水文水利计算中常用离散特征参数(均值、均方差、变差系数、偏态系数等)。对水文随机变量,设有实测系列值:x1,x2,x3,…,xn,则n1iin21xn1nxxxx1.均值2.均方差n)xx(n1i2i意义:为系列值分布的中心,表示对象的平均情况,即总体水平的高低。意义:表示分布函数的绝对离散程度。均方差越大,分布函数越分散,其值变化幅度越大;反之,亦然。均方差对频率曲线的影响σ1σ2σ2>σ1f(x)x3.变差系数意义:表示分布函数的相对离散程度。Cv越大,分布函数越分散;反之,亦然。2211()(1)1nniiiivxxKCxxnn式中:为模比系数。iixKx例1.计算均方差并比较它们的离散程度。序列1:5,10,15序列2:1,10,19例2.计算变差系数(Cv)并比较它们的离散程度。序列1:5,10,15序列2:995,1000,1005答案:1:σ1=4.08σ2=7.352:X1=10σ1=4.08Cv1=0.48X2=1000σ2=4.08Cv2=0.00484.偏态系数意义:表示分布函数的对称程度。Cs=0——分布函数对称;随机变量大于均值与小于均值出现机会相等Cs0——分布函数正偏;随机变量大于均值比小于均值出现的机会小Cs0——分布函数负偏;随机变量大于均值比小于均值出现的机会大331133()(1)nniiiisvxxKCnnCCs>0Cs=0Cs<0Cs对密度曲线的影响81323.2统计参数与抽样误差二、抽样误差用一个样本的统计参数来估计总体的统计参数是存在误差的,称之为抽样误差。这种误差是由于从总体中随机抽取的样本与总体有差异而引起的。样本抽样误差的均方值称为均方误,是衡量抽样误差的大小的常用指标。8133皮尔逊Ⅲ型分布参数矩法估计的均方误公式:42222165231(62432124312SSCsSVSvvCvsXCCnCCCcnCcnn绝对误差样本参数的均方误(相对误差,%)由表中可见,当n=100时,CS的误差在40~126%之间。水文资料一般都很短(n<100),按矩法公式算得的CS值,抽样误差太大。EXCVCS参数nCv1005025101005025101005025100.1112375014221261782523900.334610710152351721021620.557101281116254158821300.7710142291217274056801261.0101420231014203242608513481353.3经验频率曲线与理论频率曲线一、经验频率及其计算公式1.经验频率用根据水文实测系列(样本)计算出来的频率分布近似代替总体概率分布,这种意义上的累积频率称为经验(累积)频率。x12001000800020406080100W(%)某地年降雨量经验频率曲线P(X≥xi)=m/n81373.3经验频率曲线与理论频率曲线一、经验频率及其计算公式2.经验频率计算公式如果用P(X≥xi)=m/n的经验分布曲线估计总体分布曲线,存在不合理现象。当m=n时,最末项的频率为100%,样本末项值为总体中的最小值,不符合事实。水文上用数学期望公式(维泊尔公式)估计频率:()100%1imPXxn≥式中:P为大于等于xi的经验频率;m为水文变量从大至小排列的序号;n为样本容量。81383.3经验频率曲线与理论频率曲线二、经验频率曲线1.经验频率曲线的绘制:1)将实测水文数据列表,并由大到小,重新排序;2)根据经验频率公式计算经验频率;3)以实测水文变量xi为纵坐标,经验频率Pi为横坐标,在概率格纸(或普通坐标上)上点绘经验频率点,然后用目估法过经验频率点群绘制一条光滑的曲线;4)根据工程设计标准,在曲线上查出所对应的水文变量值。81398140正态分布频率曲线:纵横坐标均匀划分,在50%对称的S形曲线①;P-III型概率格纸:将横坐标按标准正态频率曲线转换成“中间较密,两端稀疏”不均匀划分,在50%对称的直线②。81413.3经验频率曲线与理论频率曲线二、经验频率曲线2.经验频率曲线的延长问题:一般实测河流径流量n100年,最多推求百年一遇的洪峰量,若推求0.1%、0.01%频率下的洪峰量,则运用经验累积曲线外延人为性太大,误差大。解决办法:理论频率公式-用实测数据拟合理论频率曲线,然后运用理论频率公式外推。常用的有皮尔逊III型公式。81423.3经验频率曲线与理论频率曲线三、理论频率曲线1.曲线的数学方程式及其特点)(10)()()(oaxaaeaxxf皮尔逊Ⅲ型曲线(见图)为一端有限一端无限的不对称单峰曲线,概率密度函数式中,参数α,β,a0,且有:24sC2vsxCC02(1)vsCaxCf(x)x皮尔逊Ⅲ型曲线)(10)()()(oaxaaeaxxf8144皮尔逊Ⅲ型分布的积分无解析解,实用中制表查用。已知x、CV、CS,由f(x)推求F(x)0()