模糊聚类案例分析

phklau
2 ℃
2019-12-24

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

模糊数学方法及其应用论文题目：模糊聚类方法案例分析小组成员：王季光宋申辉兰洁陈倩芸肖仑杨洋吴云峰2013年10月27日模糊聚类分析方法1.1距离和相似系数为了将样品（或指标）进行分类，就需要研究样品之间关系。目前用得最多的方法有两个：一种方法是用相似系数，性质越接近的样品，它们的相似系数的绝对值越接近1，而彼此无关的样品，它们的相似系数的绝对值越接近于零。比较相似的样品归为一类，不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点，并在空间定义距离，距离越近的点归为一类，距离较远的点归为不同的类。但相似系数和距离有各种各样的定义，而这些定义与变量的类型关系极大，因此先介绍变量的类型。由于实际问题中，遇到的指标有的是定量的（如长度、重量等），有的是定性的（如性别、职业等），因此将变量（指标）的类型按以下三种尺度划分：间隔尺度：变量是用连续的量来表示的，如长度、重量、压力、速度等等。在间隔尺度中，如果存在绝对零点，又称比例尺度，本书并不严格区分比例尺度和间隔尺度。有序尺度：变量度量时没有明确的数量表示，而是划分一些等级，等级之间有次序关系，如某产品分上、中、下三等，此三等有次序关系，但没有数量表示。名义尺度：变量度量时、既没有数量表示，也没有次序关系，如某物体有红、黄、白三种颜色，又如医学化验中的阴性与阳性，市场供求中的“产”和“销”等。不同类型的变量，在定义距离和相似系数时，其方法有很大差异，使用时必须注意。研究比较多的是间隔尺度，因此本章主要给出间隔尺度的距离和相似系数的定义。设有n个样品，每个样品测得p项指标（变量），原始资料阵为pxxxnpnnppnxxxxxxxxxXXXX2122221112112121其中(1,,;1,,)ijxinjp为第i个样品的第j个指标的观测数据。第i个样品iX为矩阵X的第i行所描述，所以任何两个样品XK与XL之间的相似性，可以通过矩阵X中的第K行与第L行的相似程度来刻划；任何两个变量Kx与Lx之间的相似性，可以通过第K列与第L列的相似程度来刻划。1.2F相似关系1.2.1定义设)(UUFR，如果具有自反和对称关系，则称R为U上的一个F相似关系（F表示模糊）当论域U为有限时，F相似关系可以用F矩阵表示。具有F相似关系的矩阵，称为F相似矩阵。在实际应用时，通常只能得到自反矩阵和对称举证，即相似矩阵。现在的问题是对具有相似关系的元素怎样进行分类，也就是如何将相似矩阵改造为等价矩阵。1.2.2定理若TRR，则称R为对称矩阵。（1）若RI（I是单位矩阵），则称R为自反矩阵。（2）若2RR,则称R为传递的F关系。（3）若满足上面三点则称为等价矩阵。定理1：相似矩阵nnRu的传递闭包是等价矩阵，且nRR。证只需要证明R是自反的、对称的。因R是自反的，故RI，2RR。不难得到nR不减，因此1nknkRRRI，即R是自反的。因为TRR，()()nTTnnRRR，故R是对称的。有定理1可见，要想将相似矩阵改变为等价矩阵，只需求相似矩阵的传递闭包。定理2：设nnRu是自反矩阵，则任意自然数mn，都有mRR证由R自反性推得2......nRRR当mn时，有1nmkkRRRRR1.3聚类分析所谓聚类分析，就是用数学的方法对事物进行分类，它有广泛的实际应用。在模糊数学产生之前，聚类分析已是数理统计多元分析的一个分支，然而现实的分类问题往往伴有模糊性。例如，环境污染分类、春天连阴雨预报、临床症状资料分类、岩石分类，等等。对这些伴有模糊性的聚类问题，用模糊数学语言来表达更为自然。模糊聚类分析的步骤：第一步：数据标准化数据矩阵设论域12{,,}nUxxx为被分类的对象，每个对象由m个指标表示其性状，即12(,,...,)miiiixxxx于是得到原始数据矩阵为111212122212mmnnnmxxxxxxxxx数据标准化在实际问题中，不同的数据一般有不同的量纲。为了使有不同的量纲的量也能进行比较，通常需要对数据作适当的变换。但是，即使这样，得到的数据也不一定在区间[0,1]上。因此，这里说的数据标准化，就是要根据模糊矩阵的要求，将数据压缩到区间[0,1]上。通常需要作如下集中变换。1）平移标准差变换2）平移极差变换3）对数变换第二步标定（建立模糊相似矩阵）设12{,,,}nUuuu为待分类的全体。其中每一待分类对象由一组数据表征如下：12(,,...,)miiiiuxxx现在的问题是如何建立iu和ju之间的相似关系。这有许多方法（这里选一些，列在下面），我们可以按照实际情况，选其中一种来求iu与ju的相似关系(,)ijijRuur。（1）形似系数法数量积法111.kkmijijkijrxxijM当当其中M为一适当选择之正数，满足,1max(.)kkmijijkMxx夹角余弦法12211mijjkkijmmikjkkkxxrxx相关系数法12211||||().()kkkkmiijjkijmmiijjkkxxxxrxxxx其中11111,kkmiijjkkxxxxmm最大最小法11min(,)max(,)kkkkmijkijmijkxxrxx算术平均最小法11min(,)1()2kkkkmijkijmijkxxrxx几何平均最小法11min(,).kkkkmijkijmijkxxrxx绝对值指数法1||mijkkkxxijre绝对值减数法111||kkmijijkijrcxxij当当其中，c适当选取，使01ijr。（2）距离法1）直接距离法海明距离欧几里得距离切比雪夫距离2）倒数距离法3）指数距离法选择上述哪一个方法好，要按实际情况而定。在实际应用时，最好采用多种方法，选取分类最符合实际的结果。第三步聚类（求动态聚类图）。由第一步得到的矩阵R一般只满足自反性和对称性，即R是相似矩阵，需将它改造成模糊等价矩阵。为此，采用平方法求出R的传递闭包ˆR，ˆR便是所求的模糊等价矩阵。通过ˆR便可对U进行分类。实际应用具体问题如下：1x：地区生产总值(当年价格)(亿元)；2x：第一产业增加值；3x：第二产业增加值；4x：第三产业增加值；5x：地方财政一般预算内收入；6x：工业企业数(个)；7x：工业总产值(当年价格)(万元)；8x：从业人员年平均人数(万人)；9x：流动资产年平均余额(万元)；10x：主营业务收入(万元)11x：利润总额(万元)；12x：移动电话年末用户数(万户)；13x：国际互联网用户数(户)；14x：公路里程；15x：普通中学学生数(万人)；16x：医院、卫生院数(个)；17x：医生数(执业医师+执业助理医师)(个)。17项指标来描述江西省11各市区经济发展水平情况。现将11个不同经济发展水平的市区进行聚类。标准差变换下——夹角余弦法构造相似矩阵R采用传递闭包法进行聚类，得到的动态聚类图如下：λ1352681147910分类数1110.8573100.685390.6620380.614470.563660.496950.486240.452730.4316201标准差变换下——相关系数法构造相似矩阵R采用传递闭包法进行聚类，得到的动态聚类图如下：λ1924567810311分类数1110.9526100.87290.868480.857270.840860.837350.8273540.7549130.716520.68881极差变换下——夹角余弦构造相似矩阵R采用传递闭包法进行聚类，得到的动态聚类图如下：λ1235478910116分类数1110.8904100.864490.839480.837670.783860.7733150.771940.720130.6949320.63561极差变换下——相关系数法构造相似矩阵R采用传递闭包法进行聚类，得到的动态聚类图如下：λ1924785103611分类数1110.9563100.936690.8859580.876770.85960.830850.756740.756530.69220.677211