1《数学地质》复习内容第一章绪论1.数学地质的现代定义。数学地质是利用数学的思维、数学的逻辑、数学模型和计算机科学的理论和方法,智能化、定量化研究地质过程中所产生的地质体和资源体的科学。2.数学地质的主要研究内容。①地质多元统计分析:是应用统计分析方法研究地质问题方法的统称。多元元统计分析方法中的几种最常用方法:1)回归分析:研究相关变量的相关关系,确定它们之间近似函数关系的一种统计分析方法。2)趋势面分析:是研究地质变量空间分布趋势及其局部异常的统计分析方法。3)聚类分析:是一种定量分类的统计分析方法。4)判别分析:是定量确定样本归属的一种多元统计分析方法。5)相关分析(数据序列分析):研究数据序列间相互关系及自身性质的统计方法。6)模糊识别分析。7)模糊聚类分析。8)地质因子分析。9)对应分析:在同一空间内研究样品与变量的关系,对样品进行成因解释的一种统计分析方法。②矿产资源预测:一直是数学地质的重要组成部分和研究内容。油气资源定量评价的重要方法:蒙特卡罗模拟、盆地数值模拟、油田规模序列法、回归分析法、Weng旋回模型法、历史趋势外推法。③地质数据库:它是存储在某种存储介质上的地质信息(数值型、符号型、文字及图形等)和信息处理软件的集合。④地质过程的数学模拟:用数学模型描述地质过程的发生和演化过程,并在计算机上现地质过程的一种试验。⑤计算机地质绘图第二章地质变量与地质数据1.地质变量、地质数据的概念和类型及特点。①地质变量概念:是反映某地质现象在时间或空间上变化规律的量。如生油岩的厚度、地层的埋藏深度、生油岩中有机质的丰度等。地质变量类型:一般根据地质变量所取数据的方法及性质,可将其分为观测变量(定性和定量变量)和综合变量。1)观测变量:是可以直接进行观测、分析或度量的地质变量。如地层的厚度、原油的密度或粘度等。2)综合变量:是把两个或两个以上的观测变量按一定的方式进行组合而得到的具有综合意义的地质变量。如区分天然气成因类型的“甲烷系数”。地质变量特点:1)具有明确的地质意义:指地质变量所代表的具体地层含义或特征。如地层的时代、地层温度、圈闭闭合面积等变量可表示石油地质特征;有机质类型、有机质丰度、有机质成熟度等变量可表示地球化学特征。2)具有明显的统计性质:多数地质变量可认为是随机变量,因此它们的观测值具有明显的统计意义。如观测值的平均值是地质变量数学期望的估计值,而观测值的标准差则反映了地质变量在区域上的波动程度。3)具有相关性:地质变量之间具有一定程度的相关性。如岩石的渗透率与有效孔隙度密切相关。②地质数据概念:用物理、化学及直接观测方法获得的用以表示地质样品特性的各种数据和其它形式记录的资料统称为地质数据(或样品观测值)地质数据分类:狭义上分为定量和定性数据。广义上分为定量、定性、图形及其它形式记录的资料等。按地质数据的来源,又把地质数据分为观测、综合、经验数据三类:1)观测数据:对样品用物理、化学或直接观测方法获得的表达样品特性的数据。a.定性数据:它是用符号或代码表示的没有数量概念的观测数据。又分为名义型和有序型两类:名义型数据是没有数量概念和次序之分,但彼此之间有“相等”或“不相等”关系的定性数据;有序2型数据是没有数量概念,但彼此之间具有次序关系的定性数据。b.定量数据:是指用数值来描述的观测数据。包括间隔型数据和比例型数据:间隔型数据是有明确数量概念和地质含义的定量数据;比例性数据是指定量数据的比值。2)综合数据:由定量数据(或经定量化后的定性数据)经有限次算数运算后得到的定量数据。3)经验数据:是在研究地质现象和规律的基础上,根据大量实际资料和经验总结归纳出的数据。地质数据特点:1)地质数据类型多,性质不一,反应地质内容丰富,量纲不统一,定量数据的数量级相差很大,各类数据的数量和精度相差悬殊。2)地质数据往往是多种地质因素综合作用的结果,故具有混合分布特征。3)地质数据以定量数据为主,而定性数据的定量化研究和应用目前尚不成熟。2.定量数据的标准差标准化、极差标准化、极差正规化的含义是什么?各种标准化后的新数据有何特点?①定量数据的标准差标准化:变量xj的每个观测值xij减去该变量观测值的平均值,再除以观测值的标准差sj。标准化后数据的特点:平均值为0,标准差为1。②极差标准化:是变量Xj的每个观测值Xij减去该变量观测值的平均值,再除以极差△Xj(变量观测值的最大值与最小值之差)。标准化后数据的特点:各列的极差为1。③极差正规化:变量的每个观测值减去观测值的最小值,再除以极差。极差正规化后新数据的特点是:最大值为1,最小值为0,即新数据分布在区间[0,1]内。3.按象限取点距离倒数加权平均法的基本原理。以插值点(xi,yi)为坐标原点,在四个象限内各取一个距坐标原点最近的点,记为:(xk,yk)(k=1,2,3,4)各点到坐标原点(xi,yi)的距离记为:k=1,2,3,4考虑到距离大小对网格点上预测值的影响,故取距离的倒数作为权,求网格交点(xi,yi)的预测值。在上式中,当出现dk=0时,则以zk作为网格点(xi,yi)上的值。以此实现数据的网格化。4.离群数据识别和处理的主要步骤。①判断数据体中是否存在失真数据(分布检验)②挑选出失真数据③处理失真数据第三章回归分析1.相关变量的概念。相关变量是存在着相互依赖性和制约性,但并没有严格数量关系的变量。2.回归分析的概念及解决的主要问题。回归分析的概念:根据相关变量xi(i=1,2,…,m)、y的观测值,建立y与xi之间近似定量关系的一种多元统计方法。回归分析解决的问题:①变量间是否存在相关性。②各变量间的相关程度。③建立相关变量间的定量表达式。④实际应用。3.最小二乘求回归系数的原理。假设已有自变量xi和因变量y的n组观测值,记为:22)()(iiyyxxdkkk41411/kkikkkddzz3将xik代入线性回归方程,可得n个yk的预测值:确定回归系数的原则是使n个偏差的平方和:达到最小。由上式可知,Q1是关于b0、b1、…、bm的二次函数,且Q10,根据极值原理,有:上式是以b0、b1、…、bm为未知数的线性方程组,可求出b0、b1、…、bm,故可确定式(3-2),即:4.求非线性回归变量替换法。①用数学推导的方法把非线性相关变量关系转化为线性关系。②用变量替换的方法,将已转化为线性关系的相关变量进行替换。③用最小二乘法求回归模型系数。④进而求出回归模型。5.回归模型检验(两种方法)。回归检验是解决y与xi之间是否具有线性关系的问题。总偏差平方和Q:反映y观测值离散程度的一个指标;偏差平方和Q1:反映观测值与回归值的逼近程度;回归平方和Q2:反映xi的变化对y引起的波动。21QQQ①复相关系数检验:定义变量y与xi的复相关系数:2/12)/(QQR作为检验变量相关程度的指标,R的值越接近于1,变量间的相关性越密切,即回归方程越显著。②F分布检验:假设Ho:变量y与xi没有线性关系若Ho为真,则Q1相对较大,Q2相对较小。当Q2/Q1小于某个临界值时,就接受假设Ho,否则否定原假设Ho,既认为变量y与xi(i=1,2,…,m)有显著的线性关系。对于给定的检验水平ɑ,在F分布表上查得临界值Fɑ,当FFɑ时,否定原假设Ho,这时称回归方程是显著的,可以使用;否则,接收原假设Ho,认为求得的回归方程不能应用。6.逐步回归分析的概念。逐步回归分析:在回归过程中,按变量xi(i=1,2,…,m)对y作用的大小,把作用达到一定程度的变量r(1≤r≤m)逐个“引入”回归方程,同时逐个检验已引入回归方程的变量对y的影响,若xɑ(xɑ∈xr)对y作用已不显著,就再从回归方程中“剔除”它,如此直到既没有对y作用显著的变量引入回归方程,又没有作用不显著的变量从回归方程中“剔除”。7.逐步回归引入和剔除变量的原则(假设检验)。(1)检验xkα是否选入(引入)假设Ho:变量xkα对y作用不显著(作用不大)统计量Fkɑ服从F(1,n–l-2)分布,给定检验水平α(H0成立的概率),查F分01kbQmk,...,2,1,0),,2,1(),,,,(21nkyxxxkmkkkmiikikxbby10ˆnkkkyyQ121)ˆ(miiixbby10ˆ4布表得一个临界值,记为F1。当FkɑF1时,则否定原假设,说明原假设不成立,应把变量xkɑ引入回归方程,否则引入变量结束。(2)检验xkɑ是否剔出假设H0:变量xkɑ对y作用不显著(作用不大)统计量F’kɑ、服从F(1,n–l-1)分布,给定显著性检验水平α,查F分布表得临界值F2,若F’kɑF2,则否定H0,即xkɑ对y作用大,将其留在回归方程中,否则接受假设H0,从方程中去掉变量xkɑ。8.举例说明回归分析在油气勘探开发中的应用。①温度时间指数TTI对镜质体反射率Ro回归方程在油气勘探中的应用。松辽盆地南部61个样品的R0(%)与TTI有密切相关关系,其数量关系式为R0(%)=0.493lgTTI,R=0.99②体积速度法估算资源量③利用成油地质条件预测油气资源量④参数预测模型1)测井盖层突破压力预测模型2)油气运聚系数预测模型⑤预测有机成熟区⑥确定含油面积系数,预测有利含油面积第四章趋势面分析1.趋势面分析的概念。趋势面分析:就是在空间中已知点Mi(xi,yi,zi)的控制下,拟合一个连续的数学曲面,并以此研究地质变量在区域上和局部范围内变化规律的一种统计方法。2.求多项式趋势面方程的方法。多项式曲面的一般形式:确定多项式曲面,就是根据观测值Mi(xi,yi,zi)(i=1,2,…,n)确定多项式中的系数。假设β1、β2、β3…的估计值为b1、b2、b3,…则近似可得多项式趋势面方程:把地理坐标(xi,yi)(i=1,2,…,n)代入上式,可得地质变量的趋势值:确定多项式系数的原则是使达到最小。Q1是关于b1,b2,b3,…的二次函数,且Q10,因此有:上式中L为多项式系数及常数项的个数。整理后可得:解上述L阶线性方程组,可得b1,b2,…bL,从而确定趋势面方程。3.趋势面拟合度定义及趋势面次数选择。趋势面的拟合度:是指观测值与趋势值在总体上的逼近程度。26524321ˆybxybxbybxbbz26524321ˆiiiiiiiybyxbxbybxbbz26524321yxyxyxzniiizzQ121)ˆ(),,2,1(01LkbQkCBATnTTLTzzzZZXCbbbBXXA)(,,)(,21215记:定义:为趋势面的拟合度。拟合度越高,说明趋势面拟合程度越好。趋势面的次数选择:方法1:进行1次、2次…趋势面分析,相应拟合度为C1,C2…,作图标出点(1,C1),(2,C2),(3,C3)…,连接各点构成一条折线,在折线上取斜率最大的线段末对应的k为趋势面的次数。方法2:进行1次、2次…趋势面分析,相应的拟合度为C1、C2…。预先给定一个小正数δ,当Ci+1-Ciδ时,取Ci对应的k为趋势面的次数。2.趋势面异常分布图的绘制。趋势面异常分布图是根据趋势面偏差值绘制的图件,它是研究地质变量局部特征的图件。其中的关键是确定偏差的异常限:确定异常限时,应该尽量消除或者抑制ri。简单的处理方法:取m个正偏差zi+的平均值作为异常限,或取2s+为异常限。其中s+为Δzi+的标准差:从Δzi+中划分正异常时,e+(或2s+)为异常下限,Δzi+异常下限为正异常点。从Δzi-中划分负异常时,e-(或-2s-)为异常上限,Δzi-异常上限为负异常点。根据异常上、下限可以在偏差图上圈出正、负异常区,即趋势面异常分布图。5.举例说明判别分析在油气勘探或地质研究中的应用。①寻找构造油气田:对地层面埋藏深度进行趋势面分析,趋势面偏差图上的正偏差区可能是油气聚集的局部构造。如美国的堪萨斯州东部的密西西比砾石,其构造为一区域性的向西倾斜的单斜,其上最大的局部圈