中山大学硕士学位论文不同条件下基因表达的双聚类分析姓名:贺凝馨申请学位级别:硕士专业:软件工程指导教师:戴宪华20070602不同条件下基因表达的双聚类分析作者:贺凝馨学位授予单位:中山大学相似文献(4条)1.学位论文周骋基于高维数据的双聚类算法研究与应用2009近年来,随着生物信息学、电子商务等行业的迅速发展,在这些领域积累了大量高维数据,利用数据挖掘技术能够在这些数据中找到许多对科学研究和市场营销起到重要作用的有价值的信息。在聚类分析技术方面,传统聚类方法只能在数据矩阵的行或者列某一方向上进行,因此只能找到全局信息,而高维数据的特点就是含有大量的局部信息,这是传统聚类方法所无法找到的。为了更好地聚类高维数据,尤其是在高维数据空间中聚类局部信息,双聚类这种新的聚类方法得到了越来越广泛的应用。双聚类算法之所以更加适应高维数据,是因为双聚类算法是在数据矩阵的行和列两个方向上同时聚类,这就使得双聚类算法能够更加有效地发现高维数据中的局部信息。双聚类算法的出现,很好地解决了传统聚类在聚类高维数据时遇到的瓶颈,但是由于国内外对双聚类算法研究还处于起步阶段,近年所提出的各种双聚类算法都还存在着各种不足之处,因此对双聚类算法的研究与改进尤为必要。本文的主要工作是首先对双聚类的定义、类型、结构作详细阐述,然后对近年来应用较多的双聚类算法的数学模型,聚类策略等方面进行研究分析,总结分析了这些双聚类算法的优缺点。在研究分析多种双聚类算法的基础上,提出了一种适合高维数据的基于惩罚策略的双聚类算法(PenaltystrategybasedOverlappingBiclusteringAlgorithm,简称POBA)。重点针对ChengandChurch算法中在每次迭代过程中,须引入随机数取代聚类结果中元素的替代过程进行了改进,利用惩罚策略改善双聚类算法的迭代过程,该策略能够使数据矩阵顺利完成双聚类,同时避免了贪心搜索策略中随机数干扰问题,并通过设置POBA算法中引入的控制惩罚力度的参数θ,达到控制双聚类结果重叠率的效果,这使得算法能够灵活的满足不同聚类应用的需求。论文最后设计实现了POBA算法并将其应用在公共的高维数据集的双聚类实验中,通过对实验结果分析,验证了算法的有效性,同时针对实验数据的分析结果,确定了算法中参数设置的原则。2.学位论文吕玉龙基于双聚类的基因表达芯片分析2009DNA基因表达芯片可以高通量地同时分析基因在不同条件下的表达水平,揭示细胞内哪些基因是表达的,哪些基因是不表达的。分析基因表达数据的关键一步是寻找具有相似表达模式的基因组。如果两个基因的表达模式是相似的,则它们或者是执行相似的功能,或者参与同一个生物学进程。因而,如果一个新测序基因的表达模式与一个已知的表达模式相似,那么生物学家就有理由猜测这两个基因可能执行相似的功能。基因表达分析的另一个重要应用是揭示调控途径,相似的表达模式通常意味着协同调控。因此,分析基因表达数据的关键就是寻找这样相似的“模块”。本论文的主要特点有:1.从数学角度介绍了常用的聚类分析的优点和缺点及相关的选择方案。2.对比分析了聚类分析的缺陷以及与双聚类分析的异同点。3.详细介绍了双聚类方法中的Cheng和Church方法以及基于模拟退火的双聚类算法,前者为贪婪式的算法,后者为随机智能优化算法。4.作者将遗传算法和禁忌搜索算法整合应用与基因表达数据的双聚类分析,避免了传统双聚类方法中随机数覆盖技术的使用,并且不用预先设定阈值。3.期刊论文胡云.苗夺谦.王睿智.陈敏.HUYun.MIAODuo-Qian.WANGRui-Zhi.CHENMin一种基于粗糙k均值的双聚类算法-计算机科学2007,34(11)双聚类算法是为了发现基因表达数据矩阵中局部相似性而提出的新聚类方法.本文根据Cheng和Church[1]的打分理论采用自底向上的策略,首先用粗糙k均值算法生成初始的基因数据块,再对这些数据块添加行和列,生成初始的双聚类.然后,删除初始的双聚类中一致性波动不好的行和列,从而得到最终的双聚类.实验表明,该算法能够高效地生成具有共表达水平的双聚类,更能找到一致波动水平很高的双聚类.4.学位论文王江基因芯片的数据分析2005本篇论文研究的方向属于生物信息学的范畴,主要以计算机为工具对生物信息即cDNA数据进行储存、检索、表达聚类和分析。 本文阐述了有关基因、基因芯片的相关概念以及数据聚类的相关算法,如K-均值、主成分分析(PCA)、层次聚类等。本文运用matlab7.0语言对NCBI的基因表达综合数据库系统(GEO)中的数据进行聚类分析,数据分析采用先用PCA降维方法得出大致数据分布图,即观测出大致的聚类数,然后再用K-均值对其进行细化,可以克服单一采用K-均值时盲目输入初始K值的缺点,可以得到良好的聚类效果。本文还通过求出层次聚类的结果与k-均值算法的不同k值产生的结果的交集,并对其有效性进行了检验。本文还论述了双聚类的基本原理,并编制相关算法,并对双聚类算法作了一些改进,如可视化其输出结果、对整个矩阵求出的相关性最大的子矩阵之后,再对其进行过滤与清除,如清除与均值相差比较大的点,这样可以去掉一些孤立点,得到良好的聚类效果。本文对不同实验条件下酵母菌的基因芯片数据进行双聚类分析,并得出了有效的聚类结果。在双聚类有效性验证方面,采用逐个去除每个条件,看其聚类效果的变化来判断其是否强壮,最后通过实例对双聚类的有效性进行了实例分析。本文链接:授权使用:北京交通大学(北京交通大学),授权号:248bb635-98dc-4ba0-8395-9e1c00d510e8下载时间:2010年10月27日