水文地质随机方法水资源与环境学院2014年5月中国地质大学(北京)课程内容•回归分析回顾•自回归分析•空间插值方法•区域化变量•克里格方法•随机模拟•其它泉流量预测模型(确定模型)确定性与随机性Qt泉流量预测模型图4--5趋势-周期-随机模型拟合图024681012141618195819621966197019741978198219861990年泉流量(m3/s)泉流量拟合值(随机模型)确定性与随机性回归分析回顾数据类型数量性资料质量性资料质量性资料,也称属性资料,是某种观测对象的定性指标。如地层的岩性有砂岩、灰岩等。为了统计分析,一般先把质量性资料数量化,可以采取下面两种方法:·统计次数法在一定的总体内,根据某—质量性状的类别统计其次数,以次数来作为质量性状的数据。在分组统计时可按质量性状的类别进行分组,然后统计各组出现的次数。因此,这类资料也称次数资料。例如,裂隙发育密度是度量岩体强度和渗透性的指标,在库区渗控工程中有重要的意义。·评分法这种方法是用数字级别表示某现象在程度上的差别。例如,根据断层发育规模和渗透能力,可以把断层分为若干个级别,按不同级别的断层在库区渗控工程中的有重要性进行评分。这样,就可以将质量性资料数量化。经过数量化的质量性资料的处理方法可以参照计数资料的处理方法。数量性资料—般由计数、测量得到。由计数法得到的数据称为计数资料。计数资料的变量值以正整数出现,不含小数。如岩石断面上裂隙发育的条数1,2,3,….M。由测量或度量所得的数据称为计量资料。数据通常用长度、重量、体积等单位表示。如裂隙的宽度、长度等。数据描述数据排序与分组050010001500200025003000123456789101112131415161718192021洪峰流量排序洪峰流量过程·求全距:全距是样本数据资料中最大观测数与最小观测数的差值。它是整个样本的变异幅度。·确定组数和组距。在确定组数和组距时,应考虑样本容量的大小、全距的大小、便于计算、能反映出资料的真实面貌等因素。数据描述组数一般为:5—15组组距=(最大值—最小值)/组数直方图00.20.40.60.811.21.41.61.82ModeMedianArithmeticMean00.20.40.60.811.21.41.61.82ModeMedianArithmeticMeanFrequencyPermeability1、均值一、集中参数2、中值3、众值00.010.020.030.040.050.060.070.08MeanModeMedian数据描述直方图二、离散参数1、方差(标准差)222222)]([)(1)(1xExExxnxxnii2、变差系数nxxxxCiv2)(1A、标准差20,均值10B、标准差30,均值3000变差系数2变差系数0.0114710131619222528313437404346012345678单位:m3/s月基流量流量数据描述直方图三、形态参数Cs=0Cs0Cs0Ce=0Ce0Ce0峰度系数偏态系数1、偏态系数2、峰度系数33)(nxxCis3)(44nxxCie数据描述变量间的关系0501001502002503003501.522.533.54饱和差径流量050100150200250300350400450500550600650700750降雨量径流量年份径流量y(mm)降水量x1(mm)饱和差x2(mm)19322907201.819331355532.6719342345751.7519351825482.0719361455722.491937694533.5919382055401.8819391515792.2219401315152.4119411065763.0319422005471.8319432245681.919442717201.9819451307002.91、函数(确定)关系2、相关关系变量关系相关性度量相关系数:22()()()()iiiixxyyrxxyy协方差:)]}()][({[),(YEYXEXEYXCov)()()(YExEXYE相关系数—单位协方差变量关系相关性分类完全相关、不完全相关、和不相关正相关和负相关线性相关和非线性相关单相关、复相关和偏相关注意:假相关现象变量关系一元线性回归1.回归模型2.确定回归系数3.回归模型检验0yx0501001502002503003501.522.533.54饱和差径流量回归分析一元线性回归模型xOi(,)iixyiiixy10ni,,2,1其中i同服从于正态分布相互独立,),0(2N),0(~)0(,2110NxY回归分析y确定回归系数由观测值确定的回归函数,应使得较小。1122(,)(,)(,)nnxyxyxy01Yx01iiiyx设:bxayx:自变量;y:因变量;a、b:待定系数。残差:)(iiibxayyy残差平方和:22)()(),(iiiibxayyybaf回归分析xOi(,)iixyy确定回归系数(续)最小二乘法确定系数a、b0)(2)(2xbaynbxayafiiiiixbxaybf)(20)(22iiixbxnayx将方程简写成:iiiyxxbxanyxba2iiiyxybaxxnx21回归分析22)()(),(iiiibxayyybaf确定回归系数(续)yxbr2()2iyyyn2()2ixxxn22()()()()iiiixxyyrxxyy()yxyyrxx回归方程自由度n-2回归系数计算数字特征值计算bxayxbya回归分析}回归模型相关系数检验1、平方和分解式2)(yyDiD=E+RxOi(,)iixyyyir22)ˆ()ˆ(yyyyiii离差平方和=残差平方和+回归平方和DRr22、相关系数DrE)1(2相关系数越接近于1,残差越小,回归模型越精确回归分析回归模型相关系数检验F-检验构造统计量:)2(122nrrF该统计量服从自由度为(1,n-2)的F分布。在给定显著水平a的情况下,与F分布表中Fa(1,n-2)值比较,若FFa(1,n-2),则两变量之间的线性相关关系是显著的。某序列样本数n=30,相关系数r=0.352,计算n-2=28时96.3)230(352.0352.01352.0352.0F查自由度(1,28),显著水平α=0.05的临界值为4.196,FF,接受原假设,认为相关系数是不显著的。回归分析回归模型相关系数检验t-检验构造统计量:)2(122nrrF在给定显著水平a的情况下,与t分布表中ta(n-2)值比较,若tta(n-2),则两变量之间的线性相关关系是显著的。某序列样本数n=30,相关系数r=0.352,计算99.1352.01352.0230||2t查自由度n-2=28时,显著水平α=0.05的临界值为2.048,tt,接受原假设,认为相关系数是不显著的。回归分析一元非线性回归1、抛物线型2bQaQsw→→bQaQsw2、幂函数型mwsqQ10wsmqQlg1lglg03、对数型wsbaQlg外推限度:2.5~3.0•smax地下水动力学中Q~s曲线预报水量方法回归分析水位降深s(米)1.392.893.845.09流量Q(升/秒)78141163190多元线性回归3.4.1多元线性回归方程mmxbxbxbby22110b0:常数项;bi:偏回归系数残差平方和2110210)]([)(),,,(mimiiiimxbxbbyyybbbf回归分析为了便于叙述,考虑两个自变量的情况222110210)(),,(iiixbxbbybbbf用最小二乘法确定系数0)(2221100iiixbxbbybf0)(21221101iiiixxbxbbybf0)(22221102iiiixxbxbbybf计算多元线性回归方程系数0)(22110iiixbxbby0)(122110iiiixxbxbby0)(222110iiiixxbxbby回归分析0)(22110iiixbxbby0)(122110iiiixxbxbby0)(222110iiiixxbxbby计算多元线性回归方程系数(协方差矩阵)22110xbxbyb0)]()()[(1222111iiiixxxbxxbyy0)]()()[(1222111xxxbxxbyyiii0))](()()[(11222111xxxxbxxbyyiiii0))(()())((22112211111xxxxbxxbxxyyiiiii方程1:方程2:方程3:0)())(())((22222211122xxbxxxxbxxyyiiiii回归分析由均值公式知:计算多元线性回归方程系数协方差矩阵根据离散协方差的定义,nii))((),cov(221121可以将方程组用协方差表示如下:),cov(1xyn),cov(111xxnb0),cov(212xxnb),cov(2xyn),cov(211xxnb0),cov(222xxnb整理成标准形式,并用矩阵表示为:),cov(),cov(),cov(),cov(22212111xxxxxxxx21bb),cov(),cov(21xyxy回归分析显著性检验1、拟合优度检验2)(yyTSSi2)(iiyyESS2)ˆ(yyRSSi总离差平方和:残差平方和:回归平方和:相关系数:222)()ˆ(yyyyRiiRSSTSSESSTSSRESS)1(2相关系数作为总的回归效果的一个指标,受自变量观测系列的长度n影响,除此以外还受方程中自变量个数m的影响。当n相对于m并不很大时,常常有较大的R值。特别当n=m+1时,即使这m个自变量x1,x2,…xm与y互不相干,也必然有r=1(即残差的平方和=0)。在实际计算时,要注意m与n的适当比值。一般认为,n至少是m的5到10倍。平方和分解:残差平方和与相关系数回归分析2、回归方程显著性检验第一步,作出假设:0:210kH备择假设H1:b1,b2,…,bk不同时为00HF第二步,在成立的条件下,计算统计量第三步,查表临界值对于假设0H,根据样本观测值计算统计量F给定显著水平,查第一个自由度为k,第二个自由度为1kn的F分布表得临界值1,knkF。当1,knkFF时,拒绝0H,则认为回归方程显著成立;当1,knkFF时,接受0H,则认为回归方程无显著意义。)1,(~)1/(/knkFknESSkRSSF回归分析mmxbxbxbby22110对回归系数3、回归系数显著性检验iˆt进行显著性检验,步骤如下:t(1)提出原假设0:0iH;备择假设0:1iH。(2)构造统计量iiiStˆˆ,当0i成立时,统计量ˆ~1ˆiittnkS。这里iSˆ是iˆ的标准差,k为解释变量个数。(3)给定显著性水平,查自由度为1kn的t分布表,得临界值)1(2