聚类效果评价是指通过定量的方式对聚类分析算法得到的结果进行可靠性评估。常见的评价指标有:准确率(precision),召回率(recall),纯度(purity),F值(F-measure)(Shehataetal.,2010)等。假定输入样本为12,}nXxxxL,12,}nCcccL为基准聚类结果,12,}kSsssL为实际聚类结果,则对于聚类中某基准类别ic,准确率和召回率分别定义如下:iEiHiF实际聚类结果与基准聚类结果的比较首先定义准确率和召回率分别有公式(1)和(2)计算得到/()iiiiprecisionEEF(1)/()iiiirecallEEH(2)其中,iE表示实际聚类中正确划分到基准类ic的样本的个数;iF表示实际聚类中不属于基准类ic却被错误划分到基准类ic的样本个数;iH表示实际聚类中应该划分到基准类ic却未错误划分到基准类ic的样本个数。基于准确率和召回率,F-measure值由公式(3)计算得到:2**iiiiiprecisionrecallFmeasureprecisionrecall(3)理论上,要达到最优聚类效果,算法的准确率和召回率都应该尽量提高。但实际中,由于这两个指标具有一定的互斥性(提高一个指标的值往往会降低另外一个指标的值),任何一个聚类算法都不可能二者兼顾。为了综合评估本文提出的聚类算法对初始DSM数值的鲁棒性,采用F-measure值来评价聚类的质量,F-measure值作为查准率及召回率的综合度量,更能体现聚类算法的性能。