模糊数学方法及其应用论文题目:模糊聚类方法案例分析小组成员:王季光宋申辉兰洁陈倩芸肖仑杨洋吴云峰2013年10月27日模糊聚类分析方法1.1距离和相似系数为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大,因此先介绍变量的类型。由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分:间隔尺度:变量是用连续的量来表示的,如长度、重量、压力、速度等等。在间隔尺度中,如果存在绝对零点,又称比例尺度,本书并不严格区分比例尺度和间隔尺度。有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间有次序关系,如某产品分上、中、下三等,此三等有次序关系,但没有数量表示。名义尺度:变量度量时、既没有数量表示,也没有次序关系,如某物体有红、黄、白三种颜色,又如医学化验中的阴性与阳性,市场供求中的“产”和“销”等。不同类型的变量,在定义距离和相似系数时,其方法有很大差异,使用时必须注意。研究比较多的是间隔尺度,因此本章主要给出间隔尺度的距离和相似系数的定义。设有n个样品,每个样品测得p项指标(变量),原始资料阵为pxxxnpnnppnxxxxxxxxxXXXX2122221112112121其中(1,,;1,,)ijxinjp为第i个样品的第j个指标的观测数据。第i个样品iX为矩阵X的第i行所描述,所以任何两个样品XK与XL之间的相似性,可以通过矩阵X中的第K行与第L行的相似程度来刻划;任何两个变量Kx与Lx之间的相似性,可以通过第K列与第L列的相似程度来刻划。1.2F相似关系1.2.1定义设)(UUFR,如果具有自反和对称关系,则称R为U上的一个F相似关系(F表示模糊)当论域U为有限时,F相似关系可以用F矩阵表示。具有F相似关系的矩阵,称为F相似矩阵。在实际应用时,通常只能得到自反矩阵和对称举证,即相似矩阵。现在的问题是对具有相似关系的元素怎样进行分类,也就是如何将相似矩阵改造为等价矩阵。1.2.2定理若TRR,则称R为对称矩阵。(1)若RI(I是单位矩阵),则称R为自反矩阵。(2)若2RR,则称R为传递的F关系。(3)若满足上面三点则称为等价矩阵。定理1:相似矩阵nnRu的传递闭包是等价矩阵,且nRR。证只需要证明R是自反的、对称的。因R是自反的,故RI,2RR。不难得到nR不减,因此1nknkRRRI,即R是自反的。因为TRR,()()nTTnnRRR,故R是对称的。有定理1可见,要想将相似矩阵改变为等价矩阵,只需求相似矩阵的传递闭包。定理2:设nnRu是自反矩阵,则任意自然数mn,都有mRR证由R自反性推得2......nRRR当mn时,有1nmkkRRRRR1.3聚类分析所谓聚类分析,就是用数学的方法对事物进行分类,它有广泛的实际应用。在模糊数学产生之前,聚类分析已是数理统计多元分析的一个分支,然而现实的分类问题往往伴有模糊性。例如,环境污染分类、春天连阴雨预报、临床症状资料分类、岩石分类,等等。对这些伴有模糊性的聚类问题,用模糊数学语言来表达更为自然。模糊聚类分析的步骤:第一步:数据标准化数据矩阵设论域12{,,}nUxxx为被分类的对象,每个对象由m个指标表示其性状,即12(,,...,)miiiixxxx于是得到原始数据矩阵为111212122212mmnnnmxxxxxxxxx数据标准化在实际问题中,不同的数据一般有不同的量纲。为了使有不同的量纲的量也能进行比较,通常需要对数据作适当的变换。但是,即使这样,得到的数据也不一定在区间[0,1]上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。通常需要作如下集中变换。1)平移标准差变换2)平移极差变换3)对数变换第二步标定(建立模糊相似矩阵)设12{,,,}nUuuu为待分类的全体。其中每一待分类对象由一组数据表征如下:12(,,...,)miiiiuxxx现在的问题是如何建立iu和ju之间的相似关系。这有许多方法(这里选一些,列在下面),我们可以按照实际情况,选其中一种来求iu与ju的相似关系(,)ijijRuur。(1)形似系数法数量积法111.kkmijijkijrxxijM当当其中M为一适当选择之正数,满足,1max(.)kkmijijkMxx夹角余弦法12211mijjkkijmmikjkkkxxrxx相关系数法12211||||().()kkkkmiijjkijmmiijjkkxxxxrxxxx其中11111,kkmiijjkkxxxxmm最大最小法11min(,)max(,)kkkkmijkijmijkxxrxx算术平均最小法11min(,)1()2kkkkmijkijmijkxxrxx几何平均最小法11min(,).kkkkmijkijmijkxxrxx绝对值指数法1||mijkkkxxijre绝对值减数法111||kkmijijkijrcxxij当当其中,c适当选取,使01ijr。(2)距离法1)直接距离法海明距离欧几里得距离切比雪夫距离2)倒数距离法3)指数距离法选择上述哪一个方法好,要按实际情况而定。在实际应用时,最好采用多种方法,选取分类最符合实际的结果。第三步聚类(求动态聚类图)。由第一步得到的矩阵R一般只满足自反性和对称性,即R是相似矩阵,需将它改造成模糊等价矩阵。为此,采用平方法求出R的传递闭包ˆR,ˆR便是所求的模糊等价矩阵。通过ˆR便可对U进行分类。实际应用具体问题如下:1x:地区生产总值(当年价格)(亿元);2x:第一产业增加值;3x:第二产业增加值;4x:第三产业增加值;5x:地方财政一般预算内收入;6x:工业企业数(个);7x:工业总产值(当年价格)(万元);8x:从业人员年平均人数(万人);9x:流动资产年平均余额(万元);10x:主营业务收入(万元)11x:利润总额(万元);12x:移动电话年末用户数(万户);13x:国际互联网用户数(户);14x:公路里程;15x:普通中学学生数(万人);16x:医院、卫生院数(个);17x:医生数(执业医师+执业助理医师)(个)。17项指标来描述江西省11各市区经济发展水平情况。现将11个不同经济发展水平的市区进行聚类。标准差变换下——夹角余弦法构造相似矩阵R采用传递闭包法进行聚类,得到的动态聚类图如下:λ1352681147910分类数1110.8573100.685390.6620380.614470.563660.496950.486240.452730.4316201标准差变换下——相关系数法构造相似矩阵R采用传递闭包法进行聚类,得到的动态聚类图如下:λ1924567810311分类数1110.9526100.87290.868480.857270.840860.837350.8273540.7549130.716520.68881极差变换下——夹角余弦构造相似矩阵R采用传递闭包法进行聚类,得到的动态聚类图如下:λ1235478910116分类数1110.8904100.864490.839480.837670.783860.7733150.771940.720130.6949320.63561极差变换下——相关系数法构造相似矩阵R采用传递闭包法进行聚类,得到的动态聚类图如下:λ1924785103611分类数1110.9563100.936690.8859580.876770.85960.830850.756740.756530.69220.677211