石油数学地质复习资料第一章地质数据的表达方式及其特征一、地质变量的概念及其分类★1、地质变量的概念(GeologicalVariables)它是反映某地质现象在时间或空间上变化规律的量。★2、地质变量的分类一般根据地质变量所取数据的方法及性质,可将其分为观测变量(定性和定量变量)和综合变量。★二、地质变量的特征(1)具有明确的地质意义:指地质变量所代表的具体地质含义或特征。(2)具有明显的统计性质:多数地质变量可认为是随机变量,因此,它们的观测值具有明显的统计意义。(3)具有相关性:地质变量之间具有一定程度的相关性。三、地质数据★1、地质数据的概念(GeologicalData)用物理、化学及直接观测方法获得的用以表示地质样品特性的各种数据和其它形式记录的资料统称为地质数据(或样品观测值)。★2、地质数据的分类狭义上地质数据分为定量和定性数据。据地质数据的来源,又把地质数据分为观测数据、综合数据和经验数据三类。(1)观测数据指对样品用物理、化学或直接观测的方法获得的表达样品特性的数据。依据观测数据的性质,又可分为定性、定量数据两类。①定性数据它是用符号或代码表示的没有数量概念的观测数据。又分为名义型和有序型两类:a.名义型数据:是没有数量概念和次序之分,但彼此之间有“相等”或“不相等”关系的定性数据。b.有序型数据:是没有数量概念,但彼此之间具有次序关系的定性数据。②定量数据定量数据是指用数值来描述的观测数据。包括间隔型数据和比例型数据。a.间隔型数据:是有明确数量概念和地质含义的定量数据。b.比例型数据是指定量数据的比值。(2)综合数据由定量数据(或经定量化后的定性数据)经有限次算术运算后得到的定量数据。(3)经验数据经验数据是在研究地质现象和规律的基础上,根据大量实际资料和经验总结归纳出的数据。★四、地质数据的主要特点及数据矩阵★1、地质数据的主要特点因地质系统复杂性及测试手段的差异等因素影响,地质数据有如下主要特点:(1)地质数据类型多,性质不一,反映地质内容丰富;量纲不统一,定量数据的数量级相差很大,各类数据的数量和精度相差悬殊。(2)地质数据往往是多种地质因素综合作用的结果,故具有混合分布特征。(3)地质数据以定量数据为主,而定性数据的定量化研究和应用目前尚不成熟。地质数据的特点决定了地质数据不是单一性质的数据集合,而是多种来源的混合数据集合,这一特点客观存在且不易改变。使用地质数据时,要注意它们的适用性,同时还要研究和改进数据加工和处理技术,发挥各种地质数据的作用,才能使地质定量研究获得良好效果。★2、数据矩阵假设有个n样品,每个样品有个m变量,为便于数据处理,那么常把样品变量的观测值记为如下数据矩阵:其中Xij是第i个样品第j个变量的观测值。★五、地质数据的预处理(Pretreatment)指在定量研究地质问题时,预先对原始数据进行的各种处理。其主要内容为定量数据的标准化、定性数据的定量化、原始数据的网格化、原始数据的简缩和增补、离群(异常)数据的识别与剔除等。★1、定量数据的标准化(记公式!)是对变量的观测值进行的标准化。主要目的是消除量纲造成的数量级差异。常用方法有标准差和极差标准化、极差正规化。(1)标准差标准化其中:注:①标准化是对每一列进行的。②标准化后数据的特点:平均值为0,标准差为1,又称Xj’为规格化变量。(2)极差标准化nmnnmmmnjixxxxxxxxxxX212222111211][jjjijisxxx),,,;,,,(mjni2121niijjxnx11211()1njijjisxxn),,2,1;,,2,1(/)(mjnixxxxjjjijimj,,2,1其中:注:特点:各列的极差为1。(3)极差正规化注:极差正规化后新数据的特点是:最大值为1,最小值为0,即新数据分布在区间[0,1]内。第二章多变量相关分析§1相关分析★1、相关分析(correlationanalysis)的概念是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。2、相关关系是变量之间存在关系,但不是严格对应的依存关系,而是一种不确定的依存关系,当一种现象发生变化时,会引起另一种现象的变化,当一种现象确定时,另一种现象不会随之完全确定。具有相关关系的变量称为随机变量。3、相关关系的特点(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;(3)当变量x取某个值时,变量y的取值可能有几个;(4)各观测点分布在直线周围;(5)现象之间客观存在的不严格、不确定的数量依存关系。★4、相关关系常见类型包括线性相关(正线性相关、负线性相关)、非线性相关、完全相关和不相关。★5、相关系数的计算相关系数r:是确切表示变量之间相关关系密切程度的指标。求取方法有:①公式法;②EXCEL计算。★公式法计算相关系数:可简化为:),,2,1(minmax11mjxxxjinijinij122111()()11()()niixyinnxyiiiixxyysnrssxxyynn1222211()()niixyinnxyiiiixynxyLrLLxnxyny相关系数有如下特点:①相关系数的取值范围在-1~+1之间,即-1≤r≤+1;②当r0时,表明变量之间呈正相关,当r0时,表明变量之间呈负相关;③相关系数的绝对值越接近于1,说明两个变量之间的相关关系越强,越接近于0说明相关关系越弱,当|r|=1时,说明两个变量之间的关系属于确定性关系,当|r|=0时说明两个变量之间完全没有线性相关关系,但并不说明两个变量之间不存在其他非线性相关关系。6、相关系数的显著性检验常用两种检验法:①相关系数检验法;②t检验法;§2一元线性回归分析1、回归分析:处理变量之间的相关关系的一种数学方法。★2、最小二乘法求线性回归方程所谓“最小二乘”原理就是要使误差平方和(式①)达到最小。只需将Q分别a,b求偏导并令其为0,即,(式②)。即可得到:。其中,,。式①两边同时乘以再与式②相加,得到:。再将代入上式整理后可得:,其中,,。再由可求出a,便可得出y与x之间的关系:上式就称为y对x的回归方程,它所对应的直线就称为回归直线,同理,我们也可求出x对y的回归方程:。★3、观测值ky围绕其平均值y的波动大小,可用总离差平方和总S来描述。总离差平方和可分解为两部分:一部分叫做剩余(偏差)平方和,记为剩S,另一部分叫做回归平方和,叫做回S。★4、用回归方程来预测其精度如何?为了研究预测的可靠程度,我们采用类似于区间估计的方法,假定随机变量y服从正态分布,由正态分布的性质可知,对于任一固定的ix、iy以95%的概率落在区间之内。★5、回归分析主要解决以下几个方面的地质问题:(1)对于具有相关关系的地质变量,找出它们之间的数学表达式。(2)根据一个或几个相对而言较易测定或控制的变量值,来预测或控制另一个变量的取值,并确定这种预测的精度。(3)在共同影响某个特定地质变量的许多变量(因素)之间找出哪些是主要因素,哪些是次yabx222111()()nnniiiiiiiiQyyyabx12()0niiiQyabxa12()0niiiiQyabxxbaybx11niixxn11niiyynx1()()0niiiiyabxxxaybx121()()()niixyinxxiixxyyLbLxx11()()nnxyiiiiiiLxxyyxynxy22211()nnxxiiiiLxxxnxaybx**xaby2(,)Ny(1.96,1.96)iiyy要因素,以及这些因素之间有什么关系,从而提供解决地质问题的方法。★6、回归方程的显著性检验,常用两种检验法:①相关系数检验法;②F检验法。第三章多变量分类分析§1相似性统计量★1、相似性统计量:衡量个体间性质或成因亲疏(相似、相关)程度的统计指标。是开展定量分类工作的基础。最常用的相似性统计量(聚合法):①相似系数;②距离系数;③相关系数。★(1)对于样品的统计量(记公式!)①相似系数设样品观测值:将Xi与Xj看成两个矢量,则Xi与Xj的相似系数定义为两矢量夹角的余弦:如此,可形成一个相似系数矩阵nnijrR][。在上述相似系数矩阵中,jiijrr,iir=1。ijr越接近1,Xi与Xj的性质越相近。R描述了各样品间的相似程度。②相关系数矢量Xi与Xj的相关系数为:如此可形成一个相关系数矩阵n]n[rRij。在相关系数矩阵中,jiijrr,iir=1。ijr越接近1,Xi与Xj的性质越相近。imiiixxxX,,,21jmjjjxxxX,,,21mkmkjkikmkjkikjijijijixxxxXXXXr11221cos),,2,1,(njinnnnnnrrrrrrrrrR212222111211jjiijimkmkjkjikimkjkjikijiSSSxxxxxxxxr11221)()())((),,2,1,(nji③距离系数在m维直角坐标系中,2个点间的距离为:为避免dij过大造成计算溢出,将上式改为:即形成距离系数矩阵nndij][。dij=dji,dii=0。dij越接近0,Xi与Xj的性质越相近。(2)变量的统计量变量间的相关性是数据矩阵中列间的相关关系。仿照样品的统计量,容易写出变量的统计量。§2聚类分析★聚类分析:根据个体之间的亲疏程度,将它们进行逐级定量分类的一种多元统计分析方法。根据分类的不同方式,又把聚类分析分为聚合法和分解法聚类分析。★①对样品进行分类,称Q型聚类分析;②对变量进行分类,称R型聚类分析。★★★1、对样品进行分类,Q型聚类分析(一次形成法)(PPT)(1)第一步,原始数据标准化:将原始数据极差正规化,以消除量纲的影响,得到标准化数据。(2)第二步,求取统计量矩阵:计算两两样品的相似系数(夹角余弦),得相似系数矩阵。(3)第三步,形成分群图:用一次形成法形成分群图(根据矩阵Q一次对样品分类完毕)。★注:一定要画聚类结果表!Q型聚类结果表2/112)(mkjkikjixxd2/112)(1mkjkikjixxmd),,2,1,(nji[cos][]ijijQq(Ⅰ)记下Q中的非1的最大值230.9933q,划去矩阵的第3行第3列。(Ⅱ)记下Q中剩余元素非1的的最大值240.9364q,划去矩阵第4行第4列。(Ⅲ)记下Q中剩余元素非1的的最大值560.7809q,划去矩阵第6行第6列。(Ⅳ)记下Q中剩余元素非1的的最大值250.7306q,划去矩阵第5行第5列。(Ⅴ)记下Q中剩余元素非1的的最大值120.2626q,划去矩阵第2行第2列。连接顺序连接样品相似系数1X2X30.99332X2X3X40.93643X5X60.78104X2X3X4X5X60.73065X2X3X4X5X6X10.2626Q型聚类一次划分分群图:★注:地质解释很重要!6个样品之间关系存在一定差异,反应不同储集能力的储集岩,其中X2、X3、X4之间关系相对密切,相似系数均在0.9以上;X5、X6之间关系较密切,X1和其它5个样品之间的关系较不密切。因此,我们可以判断X1代表一类储集能力的储集岩,X2、X3、X4代表另一类储集能力的储集岩,X5、X6则是代表不同于前两类储集能力的储集岩。§3费歇准则下的两组判别分析1、判别分析的类型设ag(g=1,2,···,G)表示G个总体,每个总体中分别有ng个样品,