1目录1引言:...................................................................................................................32理论准备:.........................................................................................................32.1模糊集合理论..............................................................................................32.2模糊C均值聚类(FCM)...................................................................................42.3加权模糊C均值聚类(WFCM).........................................................................43聚类分析实例.....................................................................................................53.1数据准备......................................................................................................53.1.1数据表示...............................................................................................53.1.2数据预处理...........................................................................................53.1.3确定聚类个数.......................................................................................63.2借助clementine软件进行K-means聚类......................................................73.2.1样本在各类中集中程度........................................................................83.2.2原始数据的分类结果............................................................................83.2.3结果分析...............................................................................................93.3模糊C均值聚类..........................................................................................103.3.1数据集的模糊C划分..........................................................................103.3.2模糊C均值聚类的目标函数求解方法................................................103.3.3MATLAB软件辅助求解参数设置..........................................................113.3.4符号表示.............................................................................................1123.3.5代码实现过程.....................................................................................113.3.6FCM聚类分析.....................................................................................113.4WFCM算法.................................................................................................143.4.1WFCM聚类结果展示............................................................................143.4.2样本归类.............................................................................................163.4.3归类代码实现.....................................................................................164.结论................................................................................................................175参考文献...........................................................................................................186附录..................................................................................................................183模糊聚类与非模糊聚类比较分析摘要:聚类分析是根据样本间的相似度实现对样本的划分,属于无监督分类。传统的聚类分析是研究“非此即彼”的分类问题,分类结果样本属于哪一类很明确,而很多实际的分类问题常伴有模糊性,即它不仅仅是属于一个特定的类,而是“既此又彼”。因此为了探究模糊聚类与非模糊聚类之间聚类结果的差别,本文首先采用系统聚类方法对上市公司132支股票数据进行聚类,确定比较合理的聚类数目为11类,然后分别采用K-means聚类与模糊聚类方法对股票数据进行聚类分析,最终得出模糊聚类在本案例中比K-means聚类更符合实际。关键字:模糊集合,K-means聚类,FCM聚类,WFCM聚类1引言:聚类分析是多元统计分析的方法之一,属于无监督分类,是根据样本集的内在结构,按照样本之间相似度进行划分,使得同类样本之间相似性尽可能大,不同类样本之间差异性尽可能大。传统的聚类分析属于硬化分,研究对象的性质是非此即彼的,然而,现实生活中大多数事物具有亦此亦彼的性质。因此传统的聚类分析方法往往不能很好的解决具有模糊性的聚类问题。为此,模糊集合理论开始被应用到分类领域,并取得不错成果。本文的研究目的是通过对比传统聚类和模糊聚类的聚类结果,找出二者之间的不同之处,并说明两种聚类分析方法在实例中应用的优缺点。2理论准备:2.1模糊集合理论模糊集合定义:设U为论域,则称由如下实值函数μA:U[0,1],uμA(u)所确定的集合A为U上的模糊集合,而称μA为模糊集合A的隶属函数,μA(u)称为元素u对于A的隶属度。若A(u)=1,则认为u完全属于A;若A(u)=0,则认为u完全不属于A,模糊集合是经典集合的推广。42.2模糊C均值聚类(FCM)预先给定类别数c,把含有n个样本的数据集分成c个模糊类,用每个类的类别中心𝑉𝑗代表该类,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数收敛时,聚类完成。目标函数:211min,cnmFCMijJUPijijd(1)约束条件:i11cij(2)𝜇𝑖𝑗∈[0,1],∀i,j2.3加权模糊C均值聚类(WFCM)算法过程与FCM类似,只是目标函数不同,WFCM算法考虑了各样本点对分类的重要性,在FCM算法中加入了权值𝑝𝑖,𝑝𝑖称为样本点的密度,本文中𝑝𝑖采用径向基函数方法来确定,当样本点x远离类中心𝑥𝑐时函数取值很小,此时该样本点对分类的重要性比较小。最常用的径向基函数是高斯核函数,形式为exp^2/2*^2cckxxxx(3)目标函数:211min,cnmFCMijJUPijiijpd(4)约束条件:𝜇𝑖𝑗∈[0,1],∀𝑖,𝑗,11ciji(5)53聚类分析实例3.1数据准备3.1.1数据表示本文采用数据是上市公司2000-2003年共4年132支股票31个变量的数据进行聚类分析,表1是各变量所代表的含义。表1数据表示X1每股收益X2每股净资产······X30净利润X31未分配利润3.1.2数据预处理为了排除各因素变量的单位不同以及数量级间的悬殊差别带来的影响,尽可能的反映实际情况,需要对数据进行无量纲化处理。常用的处理方法有:标准化处理方法和极值处理方法。以下均采用“标准化”处理法。即取ijjijjxxxs(6)(i=1,2,···,528;j=1,2,···,31)6其中xij∗为标准观测值,其平均值和均方差分别为0和1。式中x̅j(j=1,2···31)为第j项指标原始观测值的平均值,sj(j=1,2,···,31)为第j项指标原始观测值的均方差。3.1.3确定聚类个数如前文所述,聚类分析是无监督分类,分类之前并不知道聚多少类是合适的,所以为了保证分类的合理性,首先借助SPSS软件对数据进行系统聚类以确定合理的分类数。谱系聚类图结果显示如下,我们初步选择在距离为5处截取,确定合理聚类数为11类。图1系统聚类谱系图73.2借助clementine软件进行K-means聚类为了实现传统聚类与模糊聚类结果的对比,这里首先对数据做了传统的K均值聚类,具体的操作流程如下图2所示图2clementine实现K-means过程83.2.1样本在各类中集中程度对模型结果进行查看,得到各类中所包含的样本个数如下图3所示,发现样本主要集中在第5,7,8,9,10类。图3样本在各类中集中程度3.2.2原始数据的分类结果图4的最后两列分别是样本所属类别和样本与该类别的类中心之间的距离,如对于第1个样本,属于第1类,与类中心的距离是0.394。9图4K-means聚类结果3.2.3结果分析分析总结上述K-means聚类结果:对这528个记录的聚类结果中,在第1,,3,5,11类中,样本的个数都比较少,其中第11类仅有一个样本,而第7,8,9类中样本数分别高达93,181,97个,这些类中样本过于集中,说明得到的结果不是很理想,因此尝试模糊状态下对数据进行聚类分析。103.3模糊C均值聚类3.3.1数据集的模糊C划分设待分数据集X={𝑥1,𝑥2,⋯𝑥528}表示对上市公司股票的528次观测数据,𝑥𝑘=(𝑥𝑘1,𝑥𝑘2,⋯𝑥𝑘31)是第k个样本