模糊聚类模糊聚类所谓聚类分析就是根据事物间的不同特征、亲疏程度和相似性等关系,对他们进行分类的一种数学方法,其数学基础是数理统计中的多元分析。由于在现实世界中,事物间的关系其界限往往是不分明的,即为模糊关系,故利用模糊数学方法来进行聚类分析会显得更自然,更符合客观实际。应用:天气预报、地震预报、灾害预测、环境保护、地质研究、石油与天然气勘探、工程设计、图像分析、经济管理、医学研究等领域。历史时间事件1965L.A.Zadeh创立模糊集合论1969E.H.Ruspinid引入模糊划分的概念进行模糊聚类分析I.Gitman和M.D.Levine提出了单峰模糊集方法用于处理大数据集和复杂分布的聚类1974J.C.Dunn提出了模糊ISODATA聚类方法1981J.C.Bezdek改善了FCM方法分类与聚类分类(Classification):根据数据的特征或属性,划分到已有的类别中,是一种监督学习(SupervisedLearning)方法,必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。常用的分类算法:•决策树分类法•基于规则的分类器•朴素的贝叶斯分类算法(nativeBayesianclassifier)•神经网络法•基于支持向量机(SVM)的分类器分类与聚类聚类(Clustering):聚类就是按照一定的要求和规律对事物进行区分和分类的过程,在这一过程中没有任何关于分类的先验知识,没有教师指导,仅靠事物间的相似性作为类属划分的准则,因此属于无监督学习(unsupervisedlearning)。不同的聚类类型:•划分聚类(PartitionalClustering)•层次聚类(HierarchicalClustering)•互斥聚类(ExclusiveClustering)•重叠的(Overlapping)或非互斥的(Non-exclusive)聚类•模糊聚类(FuzzyClustering)•完全聚类(CompleteClustering)•部分聚类(PartialClustering)聚类分析传统的聚类是一种硬划分,它把每个待辨识的对象严格地划分到某个类中,具有非此及彼的性质,因此这种分类的类别界限是分明的。而实际上大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性,适合进行软划分。由于模糊聚类得到了样本属于各个类别的不确定性程度,表达了样本类属的中介性,即建立起了样本对于类别的不确定性的描述,能更客观地反映现实世界,从而成为聚类分析研究的主流。模糊聚类分类常用的模糊聚类方法可分为两大类:1.基于模糊等价矩阵的模糊聚类分析法:分类数不定,根据不同要求对事物进行动态聚类,主要方法有:模糊传递闭包法、直接聚类法、最大树法;2.基于目标函数的模糊聚类分析法:分类数给定,寻找出对事物的最佳分类方案,主要方法有模糊IOSDATA聚类分析法(模糊C均值聚类法)。基于模糊等价关系的动态聚类法模糊等价关系(矩阵)的每一个截矩阵都对应一个普通等价关系。利用上述结论,对论域进行分类。当截集水平λ从1变化到0时,可以得到论域从细到粗的不同的分类,形成一个动态的聚类图。基于模糊等价关系的聚类步骤:1.建立数据矩阵2.建立模糊相似矩阵:相似系数法、距离法3.基于模糊等价关系聚类并画出动态聚类图①传递闭包法;②直接聚类法。模糊传递闭包法步骤:①求出模糊相似矩阵的传递闭包t(R):之前建立的模糊矩阵只是一个模糊相似矩阵,不一定具有传递性,即R不一定时模糊等价矩阵,为进行分类,还需将R改造成模糊等价矩阵,通过逐次平方法求传递闭包t(R);②在[0,1]区间上适当选取置信水平值λ,求出t(R)的λ截矩阵t(R)λ,得到λ水平上的等价分类;③画出动态聚类图:将t(R)中所有互不相同的元素按由大到小的顺序编排进行聚类,这一系列聚类画在同一个图上,直观地看到被分类对象之间的相关程度。基于模糊等价关系的动态聚类法模糊传递闭包法流程基于模糊等价关系的动态聚类法直接聚类法当被分类对象很多时,计算模糊相似矩阵R的传递闭包的工作量是很大的。为减少计算工作量,可以用直接聚类法,不求传递闭包,直接用模糊相似矩阵R进行聚类。步骤:①将模糊相似矩阵R中的所有不同的元素按从大到小的顺序编排,直接在模糊相似矩阵R上找出λ水平上的等价分类;②画出动态聚类图。基于模糊等价关系的动态聚类法例:设𝑈={𝑥1,𝑥2,𝑥3,𝑥4,𝑥5},它上面有模糊等价关系𝑅=10.40.80.50.50.410.40.40.40.80.410.50.50.50.40.510.60.50.40.50.61当λ=1时,分类为𝑥1,𝑥2,𝑥3,𝑥4,𝑥5;当λ=0.8时,分类为𝑥1,𝑥3,𝑥2,𝑥4,𝑥5;当λ=0.6时,分类为𝑥1,𝑥3,𝑥2,𝑥4,𝑥5;当λ=0.5时,分类为𝑥1,𝑥3,𝑥4,𝑥5,𝑥2;当λ=0.4时,分类为𝑥1,𝑥2,𝑥3,𝑥4,𝑥5。基于模糊等价关系的动态聚类法画出动态聚类图如下:λ越大,分类越细。基于模糊等价关系的动态聚类法基于模糊等价关系的动态聚类法特点1.传递闭包法、直接聚类法,尽管在形式上不相同,但其聚类原则不外乎是,ui与uj在λ水平上归为一类,即元素ui与uj具有等价关系R的程度不小于λ。因此,对于同一问题,这些方法的聚类结果是相同的。2.传递闭包法适合于计算机操作,直接聚类法当矩阵阶数小时,容易手工实现。但是,基于模糊关系的模糊聚类法不适用于大数据量情况,难以满足实时要求高的场合,并且计算复杂度高。基于目标函数的模糊聚类分析法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。隶属度函数是表示一个对象x隶属于集合A的程度的函数,通常,隶属度为{0,1},即非0即1。而模糊C均值算法中隶属度为区间[0,1],即隶属度可以属于[0,1]中的任意值。基于目标函数的模糊聚类分析法为了便于理解FCM算法的原理,以在X轴上的单维数据为例。这个数据集传统上可以分为两个集群。通过在X轴上选择一个阈值,数据被分成两个簇。如右图,结果集群标记为A和B。属于该数据集的每个点因此将具有1或0的成员系数。每个相应数据点的该成员系数由包含y轴表示。基于目标函数的模糊聚类分析法在模糊聚类中,每个数据点可以具有多个聚类的成员资格。通过从严格的1或0中放宽成员系数的定义,这些值的范围可以从1到0的任何值。图显示了来自先前聚类的数据集,但是现在应用了模糊c均值聚类。首先,可以生成定义两个集群的新的阈值。接下来,基于聚类质心以及与每个聚类质心的距离来生成每个数据点的新的成员系数。可以看出,中间数据点属于A类和B类群,0.3的值是A类群的这个数据点的隶属系数。基于目标函数的模糊聚类分析法FCM算法步骤(a)确定类别数C,参数m,和迭代停止误差以及最大迭代次数;(b)初始化聚类中心P;(c)计算初始的距离矩阵D;(d)按下列公式更新隶属度;(e)更新聚类中心;(f)重新计算距离矩阵,并计算目标函数的值;(g)若达到最大迭代次数或者前后两次的J的绝对差小于迭代停止误差则停止,否则转(d),也可以使用前后两次隶属度矩阵的差来判断;(h)将样本点划分为隶属度最大的那一类。基于目标函数的模糊聚类分析法例:待分类的数据集有188个点,每个点是二维的,我们要把他分成4类,通过FCM算法得到的输出V就是左下的图,图中有4个中心向量,右下图表示的是矩阵U,横坐标是188个元素,纵坐标是隶属度值。基于目标函数的模糊聚类分析法基于目标函数的模糊聚类分析法特点1.FCM中,同一样本属于所有类的隶属度之和为1,使得它对噪声敏感。2.FCM采用迭代下降的算法,其对初始化的聚类中心或隶属度矩阵敏感,不能保证收敛到全局最优解,有可能收敛到局部极值。3.FCM需要预先设定聚类类别个数,类别个数设定不同,可能导致不同的聚类结果。因此,FCM改进算法的基本思想是优化目标函数中的相关参数、算法停止准则的设立和原型初始化等。基于目标函数的模糊聚类分析法