电子科技大学政治与公共管理学院本科教学实验报告(实验)课程名称:数据分析技术系列实验电子科技大学教务处制表1电子科技大学实验报告学生姓名:学号:指导教师:一、实验室名称:电子政务可视化实验室二、实验项目名称:聚类分析三、实验原理基于划分的聚类:基于划分的聚类分析(partitioning-basedclusteranalysis)与层次聚类分析不同,事先需要指定将数据分为几类。给定一个有n个个体的数据集,将它划分为k个部分(k≤n),每个小部分即为一类。它需要满足以下两个条件:(1)k类中任意一类不为空集,即每一类中至少有一个个体;(2)每一个体都属于且仅属于k类中的一类。在新近发展起来的一些基于划分的聚类分析算法中,第二个条件可以被适当放松。总之,限制条件不是绝对的。1.初始凝聚点的选择凝聚点即各类的代表点,基于划分的聚类分析算法中首先需要找到k个凝聚点分别作为k类的中心,用来形成初始分类。初始凝聚点的选择主要有以下几种方法:(1)经验选择,根据对问题背景的了解,选择合适的点作为初始凝聚点。这是最理想的一种方法,利用对问题本身背景信息的了解,既可以通过较少的迭代次数达到稳定分类,又能够满足问题在聚类中的一些特殊需求。(2)随机选取k个点或者选择数据中前k个点作为凝聚点。在缺少已知信息的情况下常常使用这种方法。(3)将数据人为地分为k类,将每一类的重心作为初始凝聚点。(4)密度法2人为地指定两个正数d1和d2(d2d1),以每个样本点为中心,落在与该点距离小于dl的球内的样本个数即为该点的密度。首先选择具有最大密度的点作为第一个凝聚点,然后选择次大密度的样本点,如果它和第一凝聚点之间的距离小于d2,则该点取消;如果它与第一凝聚点之间的距离大于d2,则该点作为第二个凝聚点。按照这个方法一直选下去,每个新选出的凝聚点与已经选好的凝聚点之间的距离均要大于d2,直到选出k个凝聚点为止。若无法选出k个凝聚点,则应适当调整d1和d2的大小使过程能够进行下去。2.初始分类最常用的初始分类方法有以下几种。(1)根据样本点间距离的定义,每个样本归入与其距离最近的凝聚点所代表的类中。(2)将选出的每个凝聚点视为一类,第一个样本点进入时,归入与其距离最近的凝聚点所代表的一类,并对更新的类重新计算中心作为修正后的凝聚点替代原有凝聚点,此后各个样本点按此方法依次进入。(3)首先人为指定一个正数d,将第一个样本点视为第一类。此后第二个样本点进入,若它与第一个样本点之间的距离d12d,则第二个样本点视为第二类;若它与第一个样本点之间的距离d12≤d,则第二个样本点进入第一类。当第l个样本点进入时已经有m个划分好的类,每个类第一次进入的样本点记为xi1,xi2,…,xim。若mindiij≤d,则第l个样本进入与其距离最近的点所代表的那一类;否则,第l个样本自成为新的一类。注意,这个方法不需要选择初始凝聚点就能够进行初始分类。3.修改分类的方法修改分类的方法主要有两种:(1)按批修改法1)选择一批初始凝聚点,定义点与点之间的距离;2)所有样本点按照最近初始凝聚点分类;3)计算每一类的重心,将类的重心作为新的凝聚点,重新对所有样本点分类,当所有凝聚点与上一次凝聚点重合时过程停止。按批修改法的优点是计算量较小,计算速度快;其缺点是最终聚类结果与初始凝聚点选择有关。逐个修改法3(2)逐个修改法按批修改法在每一次迭代的过程中凝聚点不变,另一种想法是在每一个样本进入之后随之调整凝聚点,这就是逐个修改法。逐个修改法又被称为“K-means”方法,由MacQueen在1967年提出,现在已经成为聚类分析中最常用的方法之一。其步骤为:1)在n个数据中选取k个作为凝聚点,并且定义点与点之间的距离;2)其余n-k个点逐个进入,每个点进入时归入与相应凝聚点距离最近的类中,每个点进入之后重新计算每一类的重心作为该类新的凝聚点;3)重复2)直至所有类的凝聚点均不再变化为止。EM聚类EM聚类是一种基于模型的聚类方法。即试图使给定数据与某个数学模型达到最佳拟合。主要有统计方法和神经网络方法。EM聚类主要基于数理统计模型和概念进行聚类。EM聚类方法认为:样本点都是来自服从某种分布的总体,属于不同类的个体分别来自具有不同分布或者参数的总体,而整个样本就是来自多个分布的数据的一个混合,每一个分布成为一个子总体。EM聚类即要在一定的分布假定基础上找到一系列参数来拟合不同的子总体,再根据每个样本落入不同总体的概率来判定该样本来自哪一个子总体,进而对样本进行聚类。EM聚类算法的具体过程如下:1)确定数据被聚为多少类,即需确定k。2)对数据的分布类型作出假定。3)给出各子总体的初始参数初始参数的选择对最终结果有很大影响。4)利用EM方法对初始参数迭代进行修正,直到满足终止条件。1.E步骤E代表expectation根据贝叶斯公式计算样本点xi来自第m个子总体的概率。可以理解为在先验分布条件下xi来自第m个子总体的概率的期望值,公式如下:42.M步骤M代表maximization利用E步骤中得到的每个样本点来自不同子总体的概率对子总体参数进行更新,使数据似然函数达到最大值,这里假定每个子总体均服从高斯分布,则参数更新公式如下:似然函数计算公式为:四、实验目的掌握Statistica软件的基本运用,运用基于划分的聚类方法(K-means)和EM模型进行聚类分析,理解相关参数设置的具体含义。五、实验内容及步骤实验内容:根据花萼的长度(sepallength)和宽度(sepalwidth),花瓣的长度(petallength)和宽度(petalwidth)把鸢尾花分为三类。运用基于划分的聚类方法:K-means进行分析和EM聚类算法。实验步骤:基于K-means聚类算法的步骤:5选择聚类方法选择聚类变量6聚类参数(细节)设置7总的输出结果8EM模型聚类步骤:聚类参数(细节)设置EM聚类总体输出窗口9六、实验器材(设备、元器件):计算机、打印机、硒鼓、碳粉、纸张七、实验数据及结果分析基于K-means聚类算法结果分析:Centroidsfork-meansclustering(Irisdat)Numberofclusters:3Totalnumberoftrainingcases:150ClusterSEPALLENSEPALWIDPETALLENPETALWIDNumberofcasesPercentage(%)1235.0060003.4280001.4620000.2460005033.333336.8461543.0820515.7025642.0794873926.000005.8885252.7377054.3967211.4180336140.66667表1如表1所示,三个类别中心位置分别为(5.006,3.428,1.462,0.246)、(6.846,3.082,5.703,2.079)和(5.889,2.738,4.397,1.418),包含的个体分别为50、39和61个。各类别在总体中所占的比例分别为33.33%、26%和40.67%。Standardizeddistancebetweencentroidsofk-meansclustering(Irisdat)Numberofclusters:3Cluster1Cluster2Cluster3Cluster1Cluster2Cluster30.0000001.1756990.7929211.1756990.0000000.4650710.7929210.4650710.000000表2如表2所示,类1与类2的距离为1.175699,类2和类3的距离为0.465071,类1和类3的距离为0.792921。10GraphofmeansforcontinuousvariablesNumberofclusters:3k-MeansCluster1Cluster2Cluster3SEPALLENSEPALWIDPETALLENPETALWIDVariables0.00.10.20.30.40.50.60.70.80.91.0Normalizedmeans表3表3反映了四个变量在各类中的均值,第一类与另二类差别较大。Graphofdistributionsforvariable:PETALWIDNumberofclusters:3Cluster1~normal(x,0.246000,0.105386)Cluster2~normal(x,2.079487,0.281144)Cluster3~normal(x,1.418033,0.272341)Cluster1Cluster2Cluster3-0.50.00.51.01.52.02.53.03.5x(PETALWID)0.00.51.01.52.02.53.03.54.04.5Probabilitydensity11表4表4展示了该变量取值在不同类别之间分布的不同。EM模型结果分析:Priors(a-prioriprobabilities)forEMclustering(Irisdat)Numberofclusters:3Totalnumberoftrainingcases:150ClusterPRIOR1230.2520800.3333330.414586表5如图5所示,最终分入第1类所占比例为25.208%,分入第2类所占的比例为33.333%,分入第3类所占的比例为41.4586%。Classificationprobabilities(weights)forEMclustering(Irisdat)Numberofclusters:3Totalnumberoftrainingcases:150Cluster1Cluster2Cluster3Finalclassification1234567891011121314151617181920212223242526270.0000001.0000000.00000020.0000000.0000001.00000030.3545790.0000000.64542130.0000000.0000001.00000030.0914580.0000000.90854230.0000001.0000000.00000020.0000000.0000001.00000030.9770520.0000000.02294810.0051000.0000000.99490030.0000001.0000000.00000020.7675950.0000000.23240510.1282960.0000000.87170430.0000030.0000000.99999730.9999130.0000000.00008710.0000190.0000000.99998130.0020260.0000000.99797430.0000000.0000001.00000030.0000001.0000000.00000020.9903820.0000000.00961810.0000000.0000001.00000030.0000000.0000001.00000030.0252490.0000000.97475130.0000000.0000001.00000030.0000000.0000001.00000030.9529720.0000000.04702810.0000001.0000000.00000020.0000000.0000001.0000003表6如表6所示,输出每个样本点指定到每个子总体的权数。该权数即成为每个样本点归属的依据。12GraphofmeansforcontinuousvariablesNumberofclusters:3EMCluster1Cluster2Cluster3SEPALLENSEPALWIDPETALLENPETALWIDVariables0.00.10.20.30.40.50.60.70.80.9N