模糊聚类分析在统计分类中的应用2020/4/171聚类分析有普通聚类与模糊聚类两类方法。普通聚类是建立在普通等价关系的基础上的一种严格的分类,它要求被分类集合中的任意两个元素要么等价,要么不等价,分类是硬性的。事实上,有许多事物相互间的有些关系是模糊的,按普通聚类往往难以实现分类目的。模糊聚类是建立在模糊等价关系基础上的,这种等价关系并不要求被分类集合中的任意两个元素是否等价,两者之间的关系是具有弹性的。例如,以某个家庭中的成员为论域X,令R表示“相貌相似”,显然R是X上的一个模糊关系,因此按相貌相似对家庭成员进行分类具有一定的弹性。一、普通聚类与模糊聚类2020/4/172模糊聚类是利用集合X上元素间的模糊关系将X中的元素进行分类。其基本原理如下:设分类的集合为,对X中每一个元素采用个统计指标进行分类,即有:第一步:将每个元素的各项统计指标值进行标准化处理。标准化处理的方法很多,常用的有极值标准化公式:二、模糊聚类的基本原理12(,,)nXxxxL(1,2,,)ixinL12(,,)iiiimxxxxLminmaxminxxxxx2020/4/173m第二步:确定各元素之间的相似关系,即建立X上的相似关系矩阵:上式中的,表示元素与元素之间的相似程度。这种关系的度量方法有许多,如欧式距离法、数量积法、夹角余弦法、相关系数法、指数相似系数法、非参数方法、最大最小法、算数平均最小法、几何平均最小法等等。第三步:进行聚类。有两种方法。二、模糊聚类的基本原理2020/4/174111212122212nnnnnnrrrrrrRrrrLLLLLLL[0,1](1,2,,;1,2,,)ijrinjnLLirjr进行模糊聚类必须使用模糊等价关系矩阵。在有些问题中,通过标定得到的模糊相似关系矩阵R是进行模糊聚类的基础依据。但它必须同时满足自反性、对称性与传递性。如果一个模糊相似关系矩阵同时具有满足这三个性质,就成为模糊等价关系矩阵。自反性要求主对角线上的元素为1,即对称性要求主对角线上下元素均对称,即传递性要求,K为一正整数。总存在该正整数使前式成立,具有传递性。三、模糊相似关系与模糊等价关系2020/4/175ijjirr(,)1()ijijrxxij122kkRR2kR以模糊综合评判之案例中的数据,按企业经济效益好坏对六个企业进行聚类分析。首先,对统计指标进行标准化处理,本案例采用极值标准化处理方法得:四、模糊聚类分析案例2020/4/176一厂二厂三厂四厂五厂六厂全员劳动生产率X110.00000.57600.70840.10140.0922资金利税率X20.38460.61540.53850.46150.00001产值利税率X30.00000.44440.33330.77780.77781销售收入利润率X40.54590.35160.627010.00000.3243万元产值占用流资X50.00000.23850.36030.680210.0647万元固资提供利税X60.07690.46150.69230.00000.15381流动资金周转期X70.28330.20830.50000.333310.0000增加值率X810.50770.89350.81540.00000.2012其次,根据标准化数值建立分类元素之间的模糊相似关系矩阵R。本案例采用夹角余弦法计算模糊相似关系矩阵中的元素,夹角余弦法是计算公式为:其中,分别表示第i个企业与第j个企业的第k项统计指标,表示两个企业在项经济效益指标上的相似程度。四、模糊聚类分析案例2020/4/17712211(1,2,,8)mikjkkijmmikjkkkxxrkxxL,ikjkxrijrm将标准化数据代入上式,可得六个企业在八项经济效益指标上的模糊相似关系矩阵:显然,该模糊相似关系矩阵具有自反性、对称性,但是否具有传递性,还需进行检验。四、模糊聚类分析案例2020/4/17810.580.840.780.150.330.5810.880.760.470.870.840.8810.520.470.680.780.760.5210550.540.150.470.470.5510.350.330.870.680.540.351R首先检验是否成立:上述模糊关系合成使用的是逻辑乘与逻辑加算子,发现矩阵不具有传递性,需要对其进行进一步改造。改造过程如下:四、模糊聚类分析案例2020/4/1792RR210.840.780.8410.880.760.550.870.840.8810.780.550.870.780.160.7810.550.760.550.550.550.5510.540.680.870.870.760.5410.840.550.68RRRRo检验是否成立:说明还不是模糊等价矩阵,需进一步改造:四、模糊聚类分析案例2020/4/171024RR422210.840.840.780.550.8410.880.780.550.840.840.8810.750.550.870.780.780.7810.550.780.550.550.550.5510.550.840.840.870.780.0.85145RRRRo2R检验是否成立:说明还不是模糊等价矩阵,需进一步改造:四、模糊聚类分析案例2020/4/171148RR844410.840.840.780.550.840.8410.880.780.550.840.8810.780.550.870.780.780.7810.550.780.550.550.550.5510.550.840.870.870.780.0.85175RRRRo4R检验是否成立:说明是模糊等价矩阵,聚类分析就可以利用来进行。四、模糊聚类分析案例2020/4/1712816RR1688810.840.840.780.550.840.8410.880.780.550.870.840.8810.780.550.870.780.780.7810.550.780.550.550.550.5510.550.840.870.870.780.551RRRRo8R8R进行模糊聚类分析,需要对模糊等价取不同的阀值对其中的全部元素求截集。阀值的选择说明:关于取值规则:最大阀值可以是模糊等价矩阵中最大的元素值,或更大值;最小阀值可以是模糊等价矩阵中最小的元素值,或更小值关于取值水平:若分类要求较细,阀值可以大一些;若分类要求较粗,则阀值可以小一些。四、模糊聚类分析案例2020/4/1713对模糊等价矩阵求其截矩阵,按下列规则进行:取时:六个企业分为六类四、模糊聚类分析案例2020/4/1714()ijRr()()ijRr()1,0,ijijijrrr0.881100000010000001000000100000010000001R取时:六个企业分为5类即:{一厂}、{二厂、三厂}、{四厂}、{五厂}、{六厂}。四、模糊聚类分析案例2020/4/17150.870.88100000000000000001000000111000110100R取时:六个企业分为4类即:{一厂}、{二厂、三厂、六厂}、{四厂}、{五厂}。四、模糊聚类分析案例2020/4/17160.840.87100000000000000100000010000111111111R取时:六个企业分为3类即:{一厂、二厂、三厂、六厂}、{四厂}、{五厂}。四、模糊聚类分析案例2020/4/17170.780.84000000000100001111111111111100100001R取时:六个企业分为2类即:{一厂、二厂、三厂、四厂、六厂}、{五厂}。四、模糊聚类分析案例2020/4/17180.550.78000000001111111111111111111111110111R取时:六个企业分为1类即:{一厂、二厂、三厂、四厂、五厂、六厂}。四、模糊聚类分析案例2020/4/171900.55111111111111111111111111111111111111R上述聚类是根据模糊等价关系矩阵进行的,如果被分类的元素较多、分类指标也多时,求等价关系矩阵就比较麻烦,此时,可以采用“编网法”。该方法是先对模糊关系矩阵R选定一个水平,算得截矩阵,然后在的主对角线上填上被分类集合中元素的符号,并在主对角线的下方以节点“*”代替中的“1”,而“0”擦去,再由节点向对角线上连经线和纬线,凡经过同一节点的经纬线所连接的主对角线的被分类元素符号所代表的元素都可归为一类。四、模糊聚类分析案例2020/4/1720RRR取时四、模糊聚类分析案例2020/4/17210.881100000010000001000000100000010000001R123456xxxxxx取时:四、模糊聚类分析案例2020/4/17220.870.88100000011000011000000100000010000001R123456xxxxxx取时:余此类推。四、模糊聚类分析案例2020/4/17230.780.87100000011001011001000100000010011001R123456xxxxxx2020/4/17242020/4/17252020/4/17262020/4/17272020/4/17282020/4/17292020/4/17302020/4/17312020/4/17322020/4/1733