实验报告--数据聚类实验题目:数据聚类1实验目的本实验要求掌握数据聚类的定义和实现算法,能根据算法编制相应的程序,并且能根据算法,对实验结果做出分析。2实验步骤2.1算法原理聚类:将物理或抽象对象的集合分组成为由类似的对象组成的多各类的过程被称为聚类。所形成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。对于数据聚类的效果,可以使用类内距离来描述。在空间中,定义两个对象的距离,使用欧式空间的距离公式。设x1,x2是两个样本数据,分别有n个属性,则其空间距离定义为d=类内总距离定义为11KLijD===i表示类别点,ix-表示第i类的中心点,jx表示属于第i类的第几个点。本实验采用k均值聚类方法对样本数据对象进行聚类。该方法实现代价小,对不存在极大值的数据有很好的聚类效果,并且对大数据集有很好的伸缩性。2.2算法步骤本实验采用的是k均值算法,类中心的选择基于簇中对象的平均值。(1)获取用户的类中心数目k;(2)任意选取k个对象作为初始的簇中心;(3)根据簇中对象的平均值,将每个对象重新赋给最类似的簇;(4)更新簇的平均值,即类中心,重新计算每个簇中对象的平均值;(5)如果新的平均值发生改变,转至(2)步;(6)新的平均值不在发生改变,算法聚类结束。2.3程序流程图图1k均值算法流程图K均值算法中的K,由用户输入,最终得到的类别数及时用户输入的数目。聚类过程中,涉及到初始类中心的选择。在程序中,对于类中心,是选择前k个作为初始类中心,对于数据的组织,前k个数据有较大差别,可以提高程序的运行效率和分类结果的准确率。3实验结果分析首先对原始数据(参见附录)进行观察,初步分类。观察后三组数据,可以初始的初略分为3类,所以在实验中,去K=3,取原始样本数据的前三项作为初始的类中心点。图2数据聚类划分结果图从数据聚类的结果图中,可以看出:对于71个样本数据点的聚类,选取K=3,初始的类中心点是样本数据的第1行,第2行,第3行的对象。计算的三类的样本内总距离之和为dis=3.04。三类最终的类中心点是三类样本数据点数据均值。对于分类情况,我们知道测试数据集的原始类别,进行分类后,在n=12,42,54,60,66五个数据样本点分类错误,分类的准确率达到92.96%。对该算法再选取不同的初始值例如:第1行,第2行,第4行作为初始选取值,其结果如下图所示。图3分类结果图示在上图中,分类得到的大量结果数据属于第一类,出现了大量的错误分类。可以得出,采用不同的分类首选中心点,其分类性能显著下降。4实验结论K均值算法,对于类别数的选择K值有较高的要求,如果类别数较少,则不能区分数据。K均值算法找出平均误差最小的K个划分。当结果簇是密集的,而簇与簇之间的区别明显时,它的效果较好。该算法值有在簇的平均值被定义的情况下才能使用。对于初始类中心的选择,特别重要。对于分类的准确度和距离影响明显。而且该算法对孤立点是敏感的。所以如果数据集中存在有极大值的对象,应该消除这种敏感性。K-中心法可以消除这种敏感性,但是该算法的代价较高,特别是K取值较大时。5实验心得体会1、初始值K的选取K均值算法对于类别数目的选择,需要使用该算法的人员对于数据分类有一定的了解,并且可以根据观察部分原始抽样数据,得出该样本数据的大致类别数目,否则,应用该方法的聚类可能会出现较大的错误率。2、初始类中心的选取初始类中心的选择对聚类的准确度有较大的影响。在初始类中心的选择时,最好选择两两距离较大,最好是能代表不同数据样本类别的点作为初始的类中心点。参考文献[1]数据挖掘:概念与技术/(加)韩家炜,(加)坎伯(Kamber,M.)著;范明等译.-北京:机械工业出版社,2021.8附录(原始数据)注:前三项是数据项,后三项表示类别项0.2240.6240.0670.0431.00.00.00.7490.5020.6270.5410.01.00.00.5570.5410.8471.0000.00.01.00.1100.5020.0510.0431.00.00.00.7220.4590.6630.5840.01.00.00.7760.4160.8310.8310.00.01.00.1960.6670.0670.0431.00.00.00.6120.3330.6120.5840.01.00.00.6120.4160.8120.8750.00.01.00.0550.5840.0670.0821.00.00.00.5570.5410.6270.6240.01.00.00.1650.2080.5920.6670.00.01.00.0270.3760.0670.0431.00.00.00.6390.3760.6120.4980.01.00.00.6670.2080.8120.7100.00.01.00.3060.7100.0860.0431.00.00.00.1960.0000.4240.3760.01.00.00.6120.5020.6940.7920.00.01.00.1370.4160.0670.0001.00.00.00.4710.0820.5100.3760.01.00.00.6940.4160.7610.8310.00.01.00.4160.8310.0350.0431.00.00.00.4160.3330.6940.9570.00.01.00.3060.7920.0510.1251.00.00.00.3610.4160.5920.5840.01.00.00.6120.4160.7610.7100.00.01.00.3880.7490.1180.0821.00.00.00.5290.0820.5920.5840.01.00.00.9450.2511.0000.9180.00.01.00.3060.5840.1180.0431.00.00.00.4430.5020.6430.4590.01.00.00.7220.5020.7960.9180.00.01.00.0820.6670.0000.0431.00.00.00.5570.2080.6630.5840.01.00.00.9450.3330.9650.7920.00.01.00.1370.5840.1530.0431.00.00.00.5840.3760.5610.4980.01.00.00.6670.5410.7960.8310.00.01.00.1960.5840.1020.1251.00.00.00.6940.3330.6430.5410.01.00.00.5290.3330.6430.7100.00.01.00.2510.5840.0670.0431.00.00.00.4710.3760.5920.5840.01.00.00.5840.3330.7800.8310.00.01.00.1370.4590.1020.0431.00.00.00.3330.1690.4750.4160.01.00.00.8630.3330.8630.7490.00.01.00.2510.8750.0860.0001.00.00.00.4160.2900.4900.4590.01.00.00.5840.3330.7800.8750.00.01.00.1650.4590.0860.0431.00.00.00.3060.4160.5920.5840.01.00.00.4980.2510.7800.5410.00.01.00.3330.6240.0510.0431.00.00.00.6670.4590.6270.5840.01.00.00.5570.5840.7800.9570.00.01.00.0270.4160.0510.0431.00.00.00.3610.4160.5250.4980.01.00.00.4710.4160.6430.7100.00.01.00.1960.6240.0510.0821.00.00.00.3330.2510.5760.4590.01.00.00.6670.4590.7800.9570.00.01.00.0270.5020.0510.0431.00.00.00.4160.2510.5100.4590.01.00.00.4160.2900.6940.7490.00.01.00.3610.2900.5410.4980.01.00.00.6670.5410.7961.0000.00.01.00.2240.7490.1020.0431.00.00.00.3880.3760.5410.4980.01.00.0