上一页下一页退出返回目录第六章地理系统的聚类分析第六章地理系统的聚类分析聚类分析的基本思想主要聚类方法上一页下一页退出返回目录第六章地理系统的聚类分析§1聚类分析的基本思想一、聚类分析的意义和作用聚类分析法:基本思路:具体做法:特点:上一页下一页退出返回目录第六章地理系统的聚类分析§1聚类分析的基本思想二、原始数据处理为什么要对聚类分析的原始数据进行标准化处理?原始地理数据矩阵nmnnmmxxxxxxxxx21222211121112…n地点12…m指标上一页下一页退出返回目录第六章地理系统的聚类分析§1聚类分析的基本思想二、原始数据处理(一)数据的对数变换ijijxxln'(二)数据的标准化标准差标准化级差标准化上一页下一页退出返回目录第六章地理系统的聚类分析二、原始数据处理(二)数据的标准化标准差标准化),,2,1;,,2,1('mjniSxxxjjijij其中:§1聚类分析的基本思想niijjxnx11变换后,每一列均值为0,方差为1,且与指标的量纲无关。1)(12nxxSnijijj上一页下一页退出返回目录第六章地理系统的聚类分析二、原始数据处理(二)数据的标准化极差标准化),,2,1;,,2,1()min()max()min('mjnixxxxxjjjijij§1聚类分析的基本思想变换后,数据的变化范围都在0到1之间,也消除了量纲的影响。上一页下一页退出返回目录第六章地理系统的聚类分析§1聚类分析的基本思想三、分类统计量(一)相似系数1.夹角余弦(cosθ)二维空间:212121sinsincoscos)cos(cosx1x2O21xj1xi1xj2xi2Pi(xi1,xi2)Pj(xj1,xj2)P1P222122111PxPxPxPxjiji2221222211jjiixxPxxP上一页下一页退出返回目录第六章地理系统的聚类分析三、分类统计量-夹角余弦))((cos222122212211jjiijijixxxxxxxx三维:))((cos232221232221332211jjjiiijijijixxxxxxxxxxxxn维:mkmkjkikmkjkikijxxxx11221cos§1聚类分析的基本思想二维:式中:i和j代表两个地点(样品),xik,xjk分别代表第个地点和第j个地点的第k个地理指标值。上一页下一页退出返回目录第六章地理系统的聚类分析三、分类统计量-夹角余弦nnnnnncoscoscoscoscoscoscoscoscos212222111211§1聚类分析的基本思想相似系数矩阵性质:对角线元素为1对称方阵取值范围:-1~1绝对值越大,相似程度越强。上一页下一页退出返回目录第六章地理系统的聚类分析§1聚类分析的基本思想三、分类统计量(一)相似系数2.相关系数(r)mkmkjjkiikmkjjkiikijxxxxxxxxr11221)()())((在数据标准化后,相关系数公式简化为:式中:i和j代表两个地点(样品),xik,xjk分别代表第i个地点和第j个地点的第k个地理指标值。mkjkikijxxmr11上一页下一页退出返回目录第六章地理系统的聚类分析三、分类统计量-相关系数nnnnnnrrrrrrrrrR212222111211§1聚类分析的基本思想相关阵性质:对角线元素为1对称方阵取值范围:0~1取值越大,相关程度越强。上一页下一页退出返回目录第六章地理系统的聚类分析§1聚类分析的基本思想三、分类统计量(二)距离系数1.绝对距离(dij(1))式中:i和j代表两个地点(样品),xik,xjk分别代表第i个地点和第j个地点的第k个地理指标值。mkjkikijxxd1)1(上一页下一页退出返回目录第六章地理系统的聚类分析§1聚类分析的基本思想三、分类统计量(二)距离系数2.欧氏距离(dij(1))空间中两点的距离:称为三维空间中的欧几里德距离,简称欧氏距离。距离小表示两点接近,反之则远离。221221221)()()(zzyyxxd上一页下一页退出返回目录第六章地理系统的聚类分析三、分类统计量-夹角余弦mkjkikijxxd12)(§1聚类分析的基本思想n维空间中:i(xi1,xi2,…,xim),j(xj1,xj2,…,xjm)式中:i和j代表两个地点(样品),xik,xjk分别代表第i个地点和第j个地点的第k个地理指标值。mkjkikijxxmd12)(1)2(欧氏距离系数:上一页下一页退出返回目录第六章地理系统的聚类分析三、分类统计量-欧氏距离nnnnnndddddddddD212222111211§1聚类分析的基本思想距离系数矩阵性质:对角线元素为0对称方阵取值越小,相似程度越强。上一页下一页退出返回目录第六章地理系统的聚类分析§2主要聚类方法一、系统分类法聚类分析的分类:Q型聚类分析R型聚类分析基本做法:将n个地点各自看成一类,定义类与类间的距离;选择距离最小的一对合成一新类;计算新类与其它类间的距离,重复第一步。上一页下一页退出返回目录第六章地理系统的聚类分析§2主要聚类方法一、系统分类法定义类与类之间距离的方法:最短距离法最长距离法类平均法重心法离差平方和法上一页下一页退出返回目录第六章地理系统的聚类分析§2主要聚类方法二、聚类形成的方法(一)最短距离法应用广泛;定义两类之间的距离:两类间所有样本中最近的两个样本距离;dij表示地点i与j的距离;G1,G2,…表示类别。},min{qkpkrkddd新类的记号旧类的记号上一页下一页退出返回目录第六章地理系统的聚类分析二、聚类形成的方法-最短距离法例:有一组5个区域,2个指标的地理资料矩阵如表所示。试对这5个区域用最短距离法进行聚类分析。§2主要聚类方法区域指标x1指标x211322434546105812均值4.26.8标准差2.863.96上一页下一页退出返回目录第六章地理系统的聚类分析二、聚类形成的方法-最短距离法1.数据的标准差标准化处理。§2主要聚类方法区域指标x1指标x21-1.12-0.962-0.77-0.713-0.07-0.4540.630.8151.331.310862.0252.2910.2337.30442.1060.2484.20723.0167.10043.00)0(54321GGGGGD1G2G3G4G5G2.计算初始距离系数矩阵D(0)。上一页下一页退出返回目录第六章地理系统的聚类分析二、聚类形成的方法-最短距离法1.在D(0)中,选出距离系数最小的,即d12=0.043,将G1和G2合并成新类G6,记为G6={G1,G2},并记入联结表中。§2主要聚类方法},min{231363ddd723.0}723.0,167.1min{},min{241464ddd060.2}060.2,484.2min{},min{251565ddd910.2}910.2,337.3min{再利用最短距离公式计算G6与其它各类之间的距离。从而形成距离系数矩阵D(1)。上一页下一页退出返回目录第六章地理系统的聚类分析二、聚类形成的方法-最短距离法§2主要聚类方法0862.0252.2910.20442.1060.20723.00)1(5436GGGGD6G3G4G5G计算G7与其它各类之间的距离。2.在D(1)中,选出距离系数最小的,即d63=0.723,将G6和G3合并成新类G7,记为G7={G6,G3},并记入联结表中。上一页下一页退出返回目录第六章地理系统的聚类分析二、聚类形成的方法-最短距离法§2主要聚类方法},min{346474ddd442.1}442.1,060.2min{},min{356575ddd252.2}252.2,910.2min{从而形成距离系数矩阵D(2)。0862.0252.20442.10)2(547GGGD7G4G5G上一页下一页退出返回目录第六章地理系统的聚类分析二、聚类形成的方法-最短距离法§2主要聚类方法计算G8与其它各类之间的距离。3.在D(2)中,选出距离系数最小的,即d45=0.862,将G4和G5合并成新类G8,记为G8={G4,G5},并记入联结表中。},min{574787ddd442.1}252.2,442.1min{从而形成距离系数矩阵D(2)。0442.10)2(87GGD7G8G上一页下一页退出返回目录第六章地理系统的聚类分析二、聚类形成的方法-最短距离法§2主要聚类方法4.d78=1.442,将G7和G8合并成新类G9,记为G9={G7,G8},并记入联结表中。5.作出分类谱系图。G6G7G8G9G1G2G3G4G50.0430.7230.8621.442下一页上一页下一页退出返回目录第六章地理系统的聚类分析二、聚类形成的方法-最短距离法§2主要聚类方法联结表G9G8G7G6新类联结法联结顺序0.862G4、G531.442G3、G1、G2、G4、G540.723G3、G1、G220.043G1、G21距离系数类别第一步第二步第三步第四步上一页下一页退出返回目录第六章地理系统的聚类分析二、聚类形成的方法-最短距离法§2主要聚类方法注意:分类谱系图不能交叉。例如:G9G8G7G6新类联结法联结顺序0.862G5、G2、G431.442G1、G3、G5、G2、G440.723G2、G420.043G1、G31距离系数类别上一页下一页退出返回目录第六章地理系统的聚类分析G6G7G8二、聚类形成的方法-最短距离法§2主要聚类方法G1G2G3G4G50.0430.7230.8621.442G1G3G2G4G50.0430.7230.8621.442G6G7G8G9上一页下一页退出返回目录第六章地理系统的聚类分析§2主要聚类方法二、聚类形成的方法(二)最长距离法定义新类与其它类距离的原理不同;其余相同。},max{qkpkrkddd上一页下一页退出返回目录第六章地理系统的聚类分析