聚类分析方法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第6666讲聚类分析第6666讲聚类分析�6.16.16.16.1概述�6.26.26.26.2相似性度量�6.36.36.36.3聚类方法�6.46.46.46.4聚类结果的解释和实证�6.56.56.56.5SPSSSPSSSPSSSPSS聚类分析6.16.16.16.16.16.16.16.1概述概述�聚类分析聚类分析聚类分析聚类分析也是一种分类技术。与多元分析的其他方也是一种分类技术。与多元分析的其他方也是一种分类技术。与多元分析的其他方也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应法相比,该方法较为粗糙,理论上还不完善,但应法相比,该方法较为粗糙,理论上还不完善,但应法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析、判别分析一用方面取得了很大成功。与回归分析、判别分析一用方面取得了很大成功。与回归分析、判别分析一用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。起被称为多元分析的三大方法。起被称为多元分析的三大方法。起被称为多元分析的三大方法。�聚类的目的。聚类的目的。聚类的目的。聚类的目的。根据已知数据,计算各观察个体或变根据已知数据,计算各观察个体或变根据已知数据,计算各观察个体或变根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根量之间亲疏关系的统计量(距离或相关系数)。根量之间亲疏关系的统计量(距离或相关系数)。根量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离据某种准则(最短距离法、最长距离法、中间距离据某种准则(最短距离法、最长距离法、中间距离据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类法、重心法),使同一类内的差别较小,而类与类法、重心法),使同一类内的差别较小,而类与类法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干之间的差别较大,最终将观察个体或变量分为若干之间的差别较大,最终将观察个体或变量分为若干之间的差别较大,最终将观察个体或变量分为若干类。类。类。类。6.16.16.16.16.16.16.16.1概述概述��聚类分析的应用例子聚类分析的应用例子聚类分析的应用例子聚类分析的应用例子聚类分析的应用例子聚类分析的应用例子聚类分析的应用例子聚类分析的应用例子((((1111))))不同地区城镇居民收入和消费状况的分类研究。(2)区域经济及社会发展水平的分析及全国区域经济综合评价(3)在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类聚类分析的统计思想聚类分析的统计思想聚类分析又叫群分析、点群分析或者簇分析,是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。聚类分析方法根据分类对象的不同可以分为两类:一类是对样品所作的分类,即Q-型聚类,一类是对变量所作的分类,即R-型聚类。聚类分析的基本思想是,对于位置类别的样本或变量,依据相应的定义把它们分为若干类,分类过程是一个逐步减少类别的过程,在每一个聚类层次,必须满足““““类内差异小,类间差异大””””原则,直至归为一类。评价聚类效果的指标一般是方差,距离小的样品所组成的类方差较小。6.16.16.16.16.16.16.16.1概述概述聚类的种类聚类的种类聚类的种类聚类的种类聚类的种类聚类的种类聚类的种类聚类的种类�根据分类的原理可将聚类分析分为:根据分类的原理可将聚类分析分为:根据分类的原理可将聚类分析分为:根据分类的原理可将聚类分析分为:系统聚类系统聚类系统聚类系统聚类与与与与快速聚类快速聚类快速聚类快速聚类�根据分类的对象可将聚类分析分为:根据分类的对象可将聚类分析分为:根据分类的对象可将聚类分析分为:根据分类的对象可将聚类分析分为:系统系统系统系统QQQQ型型型型与与与与RRRR型型型型(即样品聚类(即样品聚类(即样品聚类(即样品聚类clusteringforclusteringforclusteringforclusteringforindividualsindividualsindividualsindividuals与与与与指标聚类指标聚类指标聚类指标聚类clusteringforvariablesclusteringforvariablesclusteringforvariablesclusteringforvariables))))6.16.16.16.16.16.16.16.1概述概述聚类分析数据格式聚类分析数据格式聚类分析数据格式聚类分析数据格式聚类分析数据格式聚类分析数据格式聚类分析数据格式聚类分析数据格式6.16.16.16.16.16.16.16.1概述概述6.26.26.26.26.26.26.26.2相似性度量相似性度量相似性度量相似性度量相似性度量相似性度量相似性度量相似性度量6.26.26.26.26.26.26.26.2相似性度量相似性度量相似性度量相似性度量相似性度量相似性度量相似性度量相似性度量�6.2.16.2.16.2.16.2.1距离测度�6.2.16.2.16.2.16.2.1关联性测度�6.2.36.2.36.2.36.2.3相关性测度�6.2.46.2.46.2.46.2.4有关注意事项6.2.16.2.16.2.16.2.16.2.16.2.16.2.16.2.1距离测度距离测度��假使每个样品有假使每个样品有pppppppp个变量,则每个样品都可以看成个变量,则每个样品都可以看成pp维空间中的一个点,维空间中的一个点,nn个样品就是个样品就是pp维空间中的维空间中的nn个点个点,则第,则第iiiiiiii样品与第样品与第jjjjjjjj样品之间的距离记为样品之间的距离记为ddddddddijijijijijijijij��距离测度须满足的条件距离测度须满足的条件((11))对称性对称性ddddddddijijijijijijijij==ddddddddjijijijijijijiji≥≥≥≥≥≥≥≥00((22)三角不等式)三角不等式ddddddddijijijijijijijij≤≤≤≤≤≤≤≤ddddddddikikikikikikikik++ddddddddjkjkjkjkjkjkjkjk((33))ddddddddijijijijijijijij≠≠≠≠≠≠≠≠00000000则则样品样品ii≠≠≠≠≠≠≠≠样品样品jj6.2.16.2.16.2.16.2.16.2.16.2.16.2.16.2.1距离测度距离测度11、欧氏(、欧氏(EuclidianEuclidian)距离)距离∑=−=−=pkjkikjiijxxd12)(xxxxxxxx2222、明氏(、明氏(、明氏(、明氏(MinkowskiMinkowskiMinkowskiMinkowski)距离)距离)距离)距离rpkrjkikrjiijxxd1)||(1∑=−=−=xxxxxxxx明氏(明氏(明氏(明氏(MinkowskiMinkowskiMinkowskiMinkowski)距离是通用的距离公式。)距离是通用的距离公式。)距离是通用的距离公式。)距离是通用的距离公式。r=1r=1r=1r=1时时时时为绝对值距离,为绝对值距离,为绝对值距离,为绝对值距离,r=2r=2r=2r=2时为欧氏距离。时为欧氏距离。时为欧氏距离。时为欧氏距离。r=r=r=r=����时为切时为切时为切时为切比雪夫距离,比雪夫距离,比雪夫距离,比雪夫距离,jkikkjiijxxd−=−=∞maxxxxxxxxx6.2.16.2.16.2.16.2.16.2.16.2.16.2.16.2.1距离测度距离测度3333、马氏(、马氏(、马氏(、马氏(MahalanobisMahalanobisMahalanobisMahalanobis))))距离距离距离距离)()(1jiTjiijdxxxxxxxxxxxxxxxx−Σ−=−�马氏距离的马氏距离的马氏距离的马氏距离的优点:马氏距离既排除了各指标间的相关性干扰,又消除了各指标的量纲4444、LanceLanceLanceLance和和和和WilliamsWilliamsWilliamsWilliams距离距离距离距离∑=+−=pkjkikjkikijxxxxd1)(该距离与变量单位无关,对大的异常值不敏感,适用该距离与变量单位无关,对大的异常值不敏感,适用该距离与变量单位无关,对大的异常值不敏感,适用该距离与变量单位无关,对大的异常值不敏感,适用于较大变异的数据,但未考虑相关问题于较大变异的数据,但未考虑相关问题于较大变异的数据,但未考虑相关问题于较大变异的数据,但未考虑相关问题6.2.16.2.16.2.16.2.16.2.16.2.16.2.16.2.1距离测度(距离测度(举例举例))�运动员的分类6.2.16.2.16.2.16.2.16.2.16.2.16.2.16.2.1距离测度(距离测度(举例举例))6.2.16.2.16.2.16.2.16.2.16.2.16.2.16.2.1距离测度(距离测度(举例举例))ProximityMatrixProximityMatrixProximityMatrixProximityMatrix.0003.0001.7324.5834.1232.2363.7427.1416.4817.1418.36711.2253.000.0003.7422.4494.6901.4141.0004.2434.1234.4725.5688.3071.7323.742.0004.6905.4772.4494.1237.8747.4167.6169.11011.9584.5832.4494.690.0005.4772.8281.7324.2435.5683.1626.0837.9374.1234.6905.4775.477.0005.0995.3857.2117.4166.7828.88810.7242.2361.4142.4492.8285.099.0001.7325.4775.1965.4776.7089.5393.7421.0004.1231.7325.3851.732.0003.8734.2433.8735.2927.8747.1414.2437.8744.2437.2115.4773.873.0003.0002.4492.2364.1236.4814.1237.4165.5687.4165.1964.2433.000.0005.1962.4496.0007.1414.4727.6163.1626.7825.4773.8732.4495.196.0004.5835.1968.3675.5689.1106.0838.8886.7085.2922.2362.4494.583.0003.74211.2258.30711.9587.93710.7249.5397.8744.1236.0005.1963.742.000Case123456789101112123456789101112EuclideanDistanceThisisadissimilaritymatrix6.2.16.2.16.2.16.2.16.2.16.2.16.2.16.2.1距离测度(距离测度(举例举例))ProximityMatrixProximityMatrixProximityMatrixProximityMatrix.0002.0001.0004.0004.0002.0003.0005.0006.0005.0007.0008.0002.000.0003.0002.0003.0001.0001.0003.0004.0003.0005.0006.0001.0003.000.0003.0005.0002.0003.0006.0007.0005.0008.0009.0004.0002.0003.000.00

1 / 83
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功