第六章 聚类分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

分类研究的问题:如沉积岩、古生物、矿物、油气藏、油气地表化探指标的分类等是直接分类的例子;油气资源评价,油源对比等是间接分类研究的问题;地层划分是另一种分类。第六章聚类分析聚类概念、聚类统计量、聚合法聚类分析和分解法聚类分析(最优分割)。§1聚类分析和聚类统计量一、聚类分析个体是样品,表征样品特征的指标为变量。聚类是指对样品或变量进行分类。12546738910111312140.251.000.750.500.950.900.830.820.880.350.070.931.001.001.001.000.91图6-1油气化探指标聚类谱系图(1,2,…,14为化探指标编号)1.聚合法聚类分析例1化探指标的分类某地区油气地表化探样品具有14项指标,按照指标相关程度(成因联系)分类,其结果如图4-1。类内指标具有密切的成因联系,据此可以化简研究系统。参照上例,给出聚合法聚类分析的一般概念。根据分类原理,聚类分析分为聚合法分解法聚合法聚类分析又称为点群分析,它是按个体(样品或变量)在性质或成因上的亲疏关系,把个体进行逐级定量分类的一种多元统计分析方法。研究样品的相似性,对样品的分类又称为Q型聚类分析,而研究变量的相关性,对变量的分类则叫做R型聚类分析。这种聚类分析,开始时个体各自为一类,然后以某种表示个体亲疏关系的统计量为分类依据,把彼此关系相对密切的个体合并为小类,再把关系相对亲近的小类进一步合并,…,直到合并成一类为止,得到一个反映各对象间亲疏关系的定量分类系统—聚类分析谱系图,如图4-1。例如,假设数列是6个个体某项指标的观测值,据观测值的相似性,把个体分为3类,结果是:、、。因此,这是一种把大类分解成小类的问题,地层的划分则属于这个问题。3322111122332.分解法聚类分析从方法原理上讲,这种聚类方法与聚合法恰好相反,开始时全部个体为1大类,依据某种分类指标,把全部个体分为2类、3类、…,直到满足分类的要求为止。二、聚类分析统计量它是衡量对象相似(相关)程度的统计指标。在此介绍几个最常用的聚类分析统计量。(一)聚合法聚类统计量设n个对象m个变量的观测值(i=1,2,…,n;j=1,2,…,m)构成一个数据矩阵,记为:ijxnmnnmmmnxxxxxxxxxX212222111211①第i行是第i个样品m个变量的观测值,可视其为m维空间的一个点或一个矢量;②第j列是第j个变量的n次观测值,可视其为n维空间的一个点或一个矢量;由Xn×m可以看出:分类对象imiiixxxX,,,21jmjjjxxxX,,,21③样品间的相似性就是矩阵行间的相似性,对样品分类就是把矩阵中相似程度高的行合并为类;变量间的相关性就是矩阵列间的相关性,对变量分类就是把矩阵中相关程度高的列合并为类。1.Q型聚类分析统计量(1)相似系数设矢量:定义与的相似系数为:iXjXmkmkjkikmkjkikjijijijixxxxXXXXr11221cos),,2,1,(nji(6-1)在中,、的性质越相近。ijiiiijjiXrrrr,1,1,jXnnijr][),,2,1,(nji(6-2)jjiijimkmkjkjikimkjkjikijiSSSxxxxxxxxr11221)()())((iXjX矢量与的相关系数为在中,、的性质越相近。ijiiiijjiXrrrr,1,1,jXnnijr][(2)相关系数为了防止过大而造成计算溢出,把上式改写为:jid2/112)(1mkjkikjixxmd),,2,1,(nji(6-3)(3)距离系数在直角坐标系中,m维空间中2个点间的距离为:2/112)(mkjkikjixxd在中,、的性质越相近。nnijd][ijiiiijjiXdddd,0,0,jX2.R型聚类分析统计量nmnnmmmnxxxxxxxxxX212222111211因此,仿照Q型聚类分析统计量,易写出R型聚类分析统计量。如前所述,变量间的亲缘关系是矩阵列间的相关关系。分类对象注意:求和限的变化,观测值下角标互换。),,2,1,(mjinknkkjkinkkjkijijijijixxxxXXXXr11221cos(6-4)(1)相似系数iXjX矢量与的相关系数为在中,、的相关程度越高。ijiiiijjiXrrrr,1,1,jXmmijr][mkmkjkikmkjkikjijijijixxxxXXXXr11221cos(6-1)R型Q型iXjX(2)相关系数矢量与的相关系数为:jjiijinknkjkjikinkjkjikijiSSSxxxxxxxxr11221)()())((),,2,1,(mji(6-5)在中,、相关越密切。ijiiiijjiXrrrr,1,1,jXmmijr][),,2,1,(nji(6-2)jjiijimkmkjkjikimkjkjikijiSSSxxxxxxxxr11221)()())((R型Q型在直角坐标系中,n维空间中2个点间的距离为:2/112)(1nkkjkijixxnd),,2,1,(mji(6-6)在中,、的性质越相近。ijiiiijjiXdddd,0,0,jXmmijd][(3)距离系数nmnnmmmnxxxxxxxxxX212222111211(二)分解法聚类统计量介绍分解法中的最优分割法。n个对象m个变量的观测值构成的一个数据矩阵分类对象数据矩阵又可叫做有序数据序列。(分类时对象的排列顺序不能改变)。mnX此处分类是指把有序数据分段分割)(1)2(1)1(1)(12)2(12)1(12)(11)2(11)1(11111mnnnmmxxxxxxxxx第1段)(2)2(2)1(2)(22)2(22)1(22)(21)2(21)1(21222mnnnmmxxxxxxxxx第2段)()2()1()(2)2(2)1(2)(1)2(1)1(1mknknknmkkkmkkkkkkxxxxxxxxx第k段……分割就是把分段。最优分割是指把分段后,各段内数据的离差平方和最小(各段内样品的差异最小),而各段之间数据的离差平方和最大(各段之间样品的差异最大)。mnXmnX如果把分成k段(组),每段内有(l=1,2,…,k)个样品,分段结果记为:lnmnX总离差平方和:(常数)klnjmiijilxxS1112)()(把分为k段,有分法。对于其中的任何一种分法mnX11knC段内离差平方和:klnjmiiljilxxS1121)(1)((6-7)miiilkllklnjmiiilxxnxxSl2)()(11121)()(2)()(段间离差平方和:式中:样品的总数;kllnn1第l段内第j个样品第i个变量的观测值;)(ijlxklklillnjijlixnnxnxl11)(1)()(11第i个变量n个观测值的平均值。lnjijllilxnx1)()(1第l段内第i个变量个观测值的平均值;ln(下面讨论最优分割统计量)对于给定的数据来说,S是个常数,S1最小,S2必然最大。因此,可把段内离差平方和klnjmiiljilxxS1121)(1)(21SSS可以证明:作为分解法聚类分析的聚类统计量。把数据序列分为k段,若段内离差平方和达到最小就叫做最优k分割。③第2级聚类,再计算个体间的亲疏程度,把关系密切的个体合并为1类(可能是个体与个体或个体与上一级已聚成的小类合并),并构造一个代表该类的代表性个§2聚合法聚类分析聚合法聚类是将类由多变少、直到把全部研究个体合并成1类的一种定量分类方法。它是目前对无约束关系的个体进行分类的常用方法。聚类过程大致如下:①原始类,即聚类以前的类,个体各自成类;②第1级聚类,取某种统计量计算各个体间的亲疏程度,把关系密切的对象归并成1类,并构造成一个类的代表性个体参加下一级聚类;④按上述方法进行第3级聚类、第4级聚类、…,直到全部个体合并为1类为止。在上述聚类过程中,要不断地计算个体与个体、个体与类、类与类间的亲疏程度,下面给同学们介绍计算它们之间亲疏程度的递推公式和聚类过程。体参加下一级聚类;对于m维(样品点)或n维(变量点)的2个点来说,2点间的距离在概念上是明确的(点间线段的长度)。但是,2类间距离就可以有不同的定义,即可定义2个类中相距最近的2点之间的距离为2类间距离,又可定义2个类中相距最远的2个点之间的距离作为2类间的距离,还可以取2类的重心距离作为2类间的距离等。由于距离的定义不同,因此也就产生了不同的聚合法。下面介绍四种距离度量聚合法。一、距离类统计量聚合法最短距离最长距离图6-2类间距离(一)最短距离法1.最短距离如图6-2,如果类p和类q聚为1类r,那么定义类p、类q间的最短距离为:qxpxjipqjidD,min(6-8)式中是p、q类中2个样品与之间的距离。用最短距离进行的聚合聚类叫做最短距离法。计算类r与某类f之间最短距离的递推公式为:jidixqfpfqfpffrDDDDD21)(21(6-9)jx【例1】下面以油源对比为例,说明聚类过程。油源对比包括原油与原油、原油与生油岩的对比,主要是解决油源的问题。假设编号为①、②、③的样品是取自生油层k1、k2、k3的岩样,编号为④的样品是取自储集层k0的油样。解决的问题是k0的油来自哪个生油层?表6-1给出了油源对比常用的甾烷族化合物相对含量甾烷族化合物相对含量表6—1储集层油样k0样品分子离子生油层岩样k1生油层岩样k2生油层岩样k33.725.309.6510.7837238639840041241411.206.1210.2013.105.785.309.617.8115.808.1013.2015.905.207.129.407.819.117.8010.7012.80①准备工作计算个体(样品)点间的距离,记为:44)0()0(jidD0000.02110.50907.138325.82110.50000.06831.98183.80907.136831.90000.06553.98325.88183.86553.90000.0)0(D①②③④②第一级聚类在中,=5.2110所有距离中最短的,表4334dd)0(D明岩样k3与油样k0的甾烷族化合物相对含量最接近,应合成1类,记为r,r={③,④}。同时,按式(6-9)计算类r与其它各类间的最短距离,记为D(1):③第二级聚类①②r={③,④}0000.06831.98183.86831.90000.06553.98183.86553.90000.0)1(D在中,=8.8183,是所有距离中最短的,表明岩样与r类的甾烷族化合物相对含量接近,应合为1类,记为k,k={③,④,①}。同时按式(6-9)计算类k与其它各类(仅有一个编号为②的样品)间的最短距,记为:)1(D3113dd1k)(2D0000.06553.96553.90000.0)2(D④第三级聚类由D(2)可知,四个样品以距离D=9.6553聚为一大类。按聚类顺序绘制聚类谱系如下:0.00005.21108.81839.6553①③②④根据聚类谱系图,可以说储层中的油主要来自生油层,但也不能排除混有其他生油层的油。3k0

1 / 52
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功