第二章地质变量与地质数据§1地质变量2.地质变量的分类由于地质现象的复杂性,导致不同地质特征的地质变量各不相同。但是,根据地质变量所取数据的性质及方法,可将其分为观测变量(定性和定量变量)和综合变量。一、地质变量的概念及其分类1.地质变量的概念它是反映某地质现象在时间或空间上变化规律的量。如生油岩的厚度、地层的埋藏深度、生油岩中有机质的丰度等。观测变量是可以直接进行观测、分析或度量的地质变量。如地层的厚度、石油的密度和粘度、岩石的颜色等。综合变量是把二个或二个以上的观测变量按一定的方式进行组合而得到的具有综合意义的地质变量。如区分天然气成因类型的甲烷系数:511iiCCM/当时,认为是生物成因气,否则是热解成因气。又如总烃与有机碳之比为有机质转化率。%99M1.具有明确的地质意义地质意义主要是指对地质变量所代表的特定研究对象的认识,主要是:对地质变量所代表的石油地质特征的认识,如地层的时代、地层温度、圈闭闭合面积等;对地质变量所代表的盆地地球化学特征的认识,如有机质类型和丰度、干酪根成熟度等;对地质变量所代表的地球物理特征的认识等。二、地质变量的特征2.具有明显的统计性质很多地质变量是随机变量。因此,它们的观测值具有明显的统计意义,如观测值的平均值是地质变量数学期望的估计值,而方差反映了地质变量在区域上的波动。3.具有相关性地质变量之间具有一定程度的相关性,如岩石的渗透率与有效孔隙度密切相关。分析研究地质变量的目的是想通过它们预测地质体的特征及有关的地下资源。因此提出用什么样的地质变量才能较好地实现我们的研究目标,这就是地质变量的选择问题。例如,要想通过一些地质变量预测某沉积单元的油气资源量,那么就要选择与油气资源量相关的生油条件、储集条件、保存条件、圈闭条件等这样的地质变量。一般来说,地质变量的选择应遵循以下基本原则:三、地质变量的选择①地质概念模型。以相关地质学科理论为指导,分析,建立地质概念模型,并据其选择相应的地质变量。②变量间的成因联系。地质变量之间存在着程度不同的成因联系,应选择与矿藏形成或地质体特征等有密切成因联系的控矿因素和找矿标志。③代表性。变量的代表性是指所选择的地质变量能否表征某地质作用过程的程度,或者变量的观测区与未观测区之间的相似程度。④地质意义。拟定的地质变量、特别是构造的综合变量要有确切的地质含义。如在油气资源评价中,生油岩体积与沉积岩体积之比为评价区的生油条件,而近油源圈闭面积与沉积岩面积之比则为评价区的圈闭条件,总烃与有机碳之比为有机质转化率等。用以代表地质体或其它自然产物特性的实物样子称为样品。地质样品的采集对象有岩体、地层、矿体、油气、生油岩、储集层、土壤及各种松散的沉积物、地表水及地下水、植物、空气等。用各种物理、化学以及直接观测的方法获得的用以表示样品特性的各种数据和其它形式记录的资料统称为地质数据或样品变量观测值。§2地质数据一、地质数据的概念它是地质样品的变量观测值。因此,狭义上把地质数据分为定量和定性数据,广义上分为定量、定性、图形及其它形式纪录的资料等。据其来源,地质数据分为观测、二、地质数据的分类综合、经验数据三类。1.观测数据指对样品(或采样对象)用各种物理、化学或直接观测的方法获得的表达样品特性的数据。这种源于样品、没有经过任何加工处理的数据,故又称为原始数据。依据数据的性质,又分为定性和定量数据两类。(1)定性数据用符号或代码表示的没有数量概念的观测数据。可将其分为名义型和有序型两类:名义型数据是没有数量概念和次序之分,但彼此之间有“相等”或“不相等”关系的定性数据。如岩石的红、绿、灰、黄色可以用字母A、B、C、D表示,又如砂岩、泥岩、灰岩可用S、N、H代替,有A=A,A≠B,S=S,S≠N的含义。有序型数据是没有数量概念,但彼此之间具有次序关系的定性数据。如Ⅰ、Ⅱ、Ⅲ型干酪根可用数字1、2、3表示,但有Ⅰ型干酪根生烃潜力优于Ⅱ型干酪根的含义。(2)定量数据定量数据是指用数值来描述的观测数据。包括间隔型数据和比例型数据。间隔型数据是有明确的数量概念和地质含义定量数据。如地层分层数据是典型的间隔型数据。间隔型数据有相等、不等以及大于、小于关系。数据之间的差异具有实际的地质意义。如某地层底界和顶界分层深度值之差等于该地层的厚度。由定量数据的比构成比例型数据。比例型数据本身及其差值都有实际意义。比例型数据是大于等于0的实数组成的数据集合,这是它与间隔型数据的一个重要区别。如两地层厚度的比值反映其中一个地层厚度是另一个地层厚度的百分之几,或反映某种沉积环境,或反映生油条件等。2.综合数据综合数据是指由定量数据(或经定量化处理后的定性数据)经有限次算术运算后得到的定量数据。这种数据具有明显的地质意义,例如总烃含量、时间—温度指数、生油岩厚度与沉积岩厚度的比等。另外,随机变量的各种数值特征,如平均值、标准差、极差、相关系数等都可视为综合数据。征,如平均值、标准差、极差、相关系数等都可视为综合数据。3.经验数据经验数据是在研究地质现象和规律的基础上,根据大量实际资料和经验总结归纳出的数据。如单储系数、排烃系数、聚集系数等。它是大量地质信息的综合反映,地质意义明确,但它受哪些主控因素的影响,以及各因素之间的作用关系等问题目前尚不清楚。另外,经验数据还具有较明显的地域性。因此,在油气资源评价等工作中使用经验数据时,要特别注意对比地质条件的相似性。1.地质数据的主要特点由于地质系统、地质条件和地质作用的复杂性,测试手段的差异等,导致地质数据有如下几个主要特点:二、地质数据的主要特点及数据矩阵(1)地质数据类型多,性质不一,反映地质内容丰富;量纲不统一,定量数据的数量级相差很大,各类数据的数量和精度相差悬殊。(2)地质数据往往是多种地质因素综合作用的结果,故具有混合分布特征。(3)地质数据以定量数据为主,而定性数据的定量化研究和应用目前尚不成熟。地质数据的特点,决定了地质数据不是单一性质的数据集合,而是多种来源的混合数据集合,这一特点客观存在且不易改变。使用地质数据时,要注意它们的适用性,同时还要研究和改进数据加工和处理技术,发挥各种地质数据的作用,方可使地质研究获得良好的效果。2.数据矩阵假设有个n样品,每个样品有个m变量,为便于数据处理,那么常把样品变量的观测值记为如下数据矩阵:nmnnmmmnjixxxxxxxxxxX212222111211][X1X2…Xm表1地质圈闭数据编号闭合面积/102m2闭合高度/m长短轴比埋藏深度/m110005001.5200022501501.022003100703.015004102002.018005401005.0250025000.51004018000.22001015000.37010022000.115025020005.15001000][45jixXX1X2X3X42-1其中是第i个样品第j个变量的观测值。jix例如表1中地质圈闭数据矩阵。定量数据的标准化是对变量的观测值进行标准化。作用或目的:消除量纲造成的数量级差异。§3地质数据的预处理一、定量数据的标准化方法:标准差标准化、极差标准化、极差正规化、总和标准化、最大值标准化、模标准化和中心标准化等。常用方法:标准差和极差标准化、极差正规化。地质数据的预处理是指在定量研究地质问题时,预先对原始数据进行的各种处理。其主要内容为定量数据的标准化、定性数据的定量化、原始数据的网格化、原始数据的简缩和增补、离群数据的识别与剔除等。nmnnmmmnjixxxxxxxxxxX212222111211][X1X2…Xm1.标准差标准化变量的每个观测值减去观测值的平均值,再除以观测值的标准差,即矩阵X第j列上的每个元素减去该列元素的平均值,再除以第j列元素的标准差,变换公式为:jXjSjxijx第j个变量观测值的平均值,即标准化前的数据(原始数据);标准化后的数据(无量纲数据);第j个变量观测值的标准差,即nijjijxxns12)(1),,2,1(11mjxnxnijij),,,;,,,(mjni2121jjjijiSxxx468.1768.1673.0650.0587.0354.0026.0731.0468.1354.0867.0487.0587.0016.1350.0081.0000.0707.0916.1949.1X变量叫做标准化变量。标准化后数据的特点:平均值等于0,标准差为1,故又叫做规格化变量。jXjX对式(2-1)中数据标准差标准化后,得新的数据矩阵:25000.51004018000.22001015000.37010022000.115025020005.15001000][45jixXX1X2X3X42-1),,2,1(minmax11mjxxxjinijinij极差标准化是变量的每一个观测值减去观测值的平均值,再除以极差,即:jxjX),,2,1(nixijjx),,2,1;,,2,1(/)(mjnixxxxjjjiji对式(2-1)中的数据标准差标准化后,得新的数据矩阵(极差等于1):2.极差标准化极差—变量观测值的最大值与最小值之差,即:最大值、最小值500.0625.0242.0242.0200.0125.0009.0273.0500.0125.0312.0182.0200.0375.0126.0030.0000.0250.0688.0727.0X25000.51004018000.22001015000.37010022000.115025020005.15001000][45jixXX1X2X3X42-1各列的极差为1变量的每个观测值减去观测值的最小值,再除以极差。变换公式为:),,2,1;,,2,1(/)min(1mjnixxxxjjinijiji极差正规化后,新数据的最大值等于1,最小值为0,即新数据分布在区间[0,1]内。3.极差正规化对式(2-1)中的数据标准差标准化后,得新的数据矩阵:观测值的最小值000.1000.1070.0030.0300.0250.0302.0000.0000.0500.0000.0091.0700.0000.0186.0242.0500.0125.0000.1000.1X二、定性数据的定量化根据定性数据状态的多少,可分为二态和多态有序定性数据。定性数据的定量化是指把定性数据变换为数值表示形式。定量化方法:对定性数据的状态赋值。1.二态定性数据的变换只有两种对立状态,可用0和1表示这两个状态,从而实现定性数据的定量化。如某观测点有无某种化石,若有用1表示,若无用0代表。一般来说,按以下原则处理:二态定性数据状态肯定或有利否定或不利赋值10四态定性数据状态不含油油斑含油饱含油赋值01232.多态有序定性数据的变换有序多态定性数据是指状态多于两个,并且状态又可按一定次序排列的定性数据。如储层岩心的含油性,按含油程度可分为4级,采用等差方式赋值如下:又如泥岩的颜色可分为4级,按生油能力强弱赋值如下:这种赋值就采用了非等差方式。总的原则是按状态的重要性对状态赋值。四态定性数据状态红色浅灰色灰色黑色赋值0135三、原始数据的网格化原始数据的网格化:把平面上无规则分布的定量数据分配到规则矩形网格交点上(如下图所示),产生规则分布的定量数据。这是计算机绘制等值图线图必须做的工作。1x2x3xix1ixjx无规则分布的原始数据1x2x3xix1ixjx规则分布的网格数据)1,707.0,707.0()1,707.0,707.0()1,707.0,707.0()1,7