南昌航空大学硕士学位论文开题报告基于改进的SOFM聚类方法研究学号:100081002005姓名:肖鹏导师:余达祥学院:信息工程学院专业:信号与信息处理研究方向:人工神经网络日期:2011年10月南昌航空大学研究生学院制目录一、选题依据...........................................................................................................................3二、本课题国内外研究状况及发展趋势...............................................................................3国内外研究状况...............................................................................................................3聚类的要求.......................................................................................................................7聚类算法的发展趋势.......................................................................................................7三、人工神经网络的发展.......................................................................................................7四、竞争性网络在聚类分析中存在的问题...........................................................................9五、论文预期成果的理论意义和应用价值.........................................................................10六、课题研究的主要内容.....................................................................................................10研究目标.........................................................................................................................10研究内容.........................................................................................................................10创新点.............................................................................................................................10实验大致流程.................................................................................................................10七、研究计划进度与安排.....................................................................................................11八、传统的SOFM神经网络结构和学习算法.....................................................................11SOFM神经网络结构......................................................................................................11传统的SOFM神经网络算法具体描述.........................................................................12九、改进的SOFM算法.........................................................................................................12孤立点的检测.................................................................................................................13SOFM神经网络算法具体描述......................................................................................13kmeans算法和sofm算法性能之间的比较.................................................................16参考文献.................................................................................................................................18一、选题依据在人类从工业社会向信息社会演进的今天,计算机越来越普及,人们获取的数据和信息也越来越多。过去的数十年中,存储数据的爆炸式增长业已激起对新技术和自动信息处理工具的需求,以便将海量的数据和信息转化为有用的知识。人们希望由计算机驱动的机器或者设备能代替或扩展人类的部分脑力劳动,让机器也具有认知学习思考的能力,要做到这些,首先计算机要对数据进行挖掘,对信息进行提取,聚类分析算法是数据分析与挖掘的一个必备工具。二、本课题国内外研究状况及发展趋势国内外研究状况现有的典型聚类分析算法有:(1)划分式聚类算法:最典型的划分式聚类算法是k-means算法和k-medoids算法。K-means算法的基本流程如下:首先选取k个对象作为初始的k个簇心,然后将剩余的每个对象根据其与各个簇心的距离分配到最近的簇心中,重新计算每个簇的簇心,直到准则函数收敛为止。平方误差准则函数:21kicxijk1ijcxn1),...,cE(c式中ic表示每个类的中心点,这个点可以是质心,也可以是该类的代表点。k-means算法对类球形且大小差别不大的类簇有很好的表现,实现非常简单,运算效率也很高,适合对大型数据进行聚类处理。缺点是聚类结果跟初始点的选择有很大的关系,不同的初始点选择对结果的影响很大,而且不能用于非凸集的数据,容易受噪声数据的影响。对k-means算法的改进方法也很多,2008年国内的雷小锋[1]等给出了K-MeansSCAN的算法,算法采用k-means对数据进行多次预聚类,对预聚类结果构造子簇的加权连通图,并根据连通性合并子簇。2009年,XiongH[2]等分析了数据集本身的分布与k-means算法的聚类结果之间的关系。2007年,钟国亮[3]等给出了一种基于对称距离测度的k-means算法。2005年,HuangJoshuaZhexu[4]给出了一种在迭代划分过程中自动变换变量权值的k-means算法。2008年,WuF.X[5]等采用遗传加权k-means算法来分析基因表达数据。同年,BagirovAdilM[6]提出了一种新的全局k-means算法,算法能够克服k-means算法对初始点选择敏感的问题。2003年,HamerlyG[7]等讨论了如何从聚类过程中学习k值的方法。2008年,Du[8]等将粒子群优化方法和k-means算法结合用于分析基因表达数据。k-medoids算法是直接选取一个对象作为一类的代表,这个代表为最靠近中心的一个对象。这种算法由于采用了实际的对象来代替中心店,因此可以消除孤立点带来的不利影响。(2)层次化聚类算法这种算法的基本思路是首先将所有的对象看成是单独的个体类,通过计算类间的距离来选择最小距离的两个类合并成一个新类,再重新计算新类和其它类之间的距离,同样选择最小距离的两个类合并,依次迭代合并直到没有合并为止。层次聚类算法的两个主要缺陷:(1)聚类结果的类个数难以确定;(2)聚类过程中对象的合并是不可逆过程,影响了聚类的结果。当然对层次聚类算法,前人也做了很多的改进工作。2008年,GoldbergerJaco[9]等人提出了一种基于匈牙利方法的层次聚类方法,使用匈牙利方法来构建基本的聚类块划分。同年,LoewensteinYani[10]等改进了非加权组平均法(UPGMA)方法,用于大规模的蛋白质序列聚类分析,算法可以在内存受限的环境下进行大数据量的聚类分析。2007年,WangH.[11]等采用改进的层次聚类算法分析基因表达序列数据。2006年,ArifinAgusZainal[12]等采用层次聚类算法对图像进行分割。由于层次聚类算法适用于大量数据的处理,因此被广泛应用于分析蛋白质数据上。(3)基于密度和网格的聚类算法基于密度的聚类算法采用局部数据的密度作为标准来划分数据。此算法的主要思想是将空间中的数据按照聚集密度的高低来划分,密度相近的划分成一个类。相对于k-means算法,此种算法能够发现任意形状的数据分布。如何定义数据分布的密度是基于密度的聚类算法研究的关键,通常情况下基于密度的聚类算法计算数据所处空间的密度,如果密度高于某个阀值就认为是高密度区,反之为低密度区;最后将得到高密区的部分与低密度区分离。具有代表性的基于密度的聚类算法有:DBSCAN[13],GDBSCAN[14],OPTICS[15],DENCLUE[16],CLIQUE[17]等。基于网格的聚类算法从输入对象中构建一个网格结构,围绕模式组织由矩形块划分的值空间,每个对象分类到一个单元或网格。(4)模糊聚类算法1969年,Ruspini首次将模糊集理论应用到聚类分析中,提出了模糊聚类算法(fuzzyc-means,简称FCM).模糊聚类算法最开始先初始化构建一个初步的划分,将数据划分为K个模糊组,构建一个隶属矩阵U,通过隶属矩阵求解每个模糊组的中心点,根据计算出的中心点来获得当前划分的目标函数值,将当前获得的目标函数值与上一次获得的目标函数值进行比较,如果满足截止条件则终止算法,否则更新隶属矩阵U,重复以上步骤。具体步骤如下:初始化:给定聚类类别数C,2NC,N是数据个数,设定模糊系数m和迭代停止阈值,随机初始化隶属度矩阵)0(U,初始化聚类原型模式)(0V,设置迭代计数器b=0。步骤1计算隶属度矩阵元素,对于任意的i,j,如果0)(bijd,jiijxcd为第i个聚类中心与第j个数据点间的欧几里得距离,ic为模糊组i的聚类中心,则隶属度矩阵元素为clmbilbijbijdd111)()()(1,jlclnjci;,...,2,1;,...,2,1;,...,2,1如果存在i,r,rj,使得0)(bijd,则有1)(bir。步骤2更新聚类