湖南大学硕士学位论文基于机器学习的DNA微阵列数据分析姓名:廖晨申请学位级别:硕士专业:模式识别与智能系统指导教师:李树涛20080301基于机器学习的DNA微阵列数据分析作者:廖晨学位授予单位:湖南大学相似文献(7条)1.会议论文陈晓辉.宁开达.陈铭基于大规模DNA微阵列数据的调控亚网络的重建2006DNA微阵列技术在一次实验中可以产生了全基因组的基因表达数据,如何从这些海量的表达数据中挖掘出我们感兴趣的基因之间相互作用的信息,即反向工程,是目前的研究热点之一。本文将介绍一种整合生物学知识先验的方法,基于现有的贝叶斯网络框架,对DNA微阵列数据分析建模过程做优化,使结果更接近生物学的实际。同时,我们还从可能的贝叶斯调控网络中,构建有向的2阶调控网络图,挖掘并重新构建出具有生物学功能的调控亚网络模块。然后,我们在S.cerevisiae细胞周期微阵列数据上来验证我们方法。最后,我们发布基于R的分析大规模基因微阵列表达数据的软件包:BNArray,使得对DNA芯片的统计建模成为一个连续的系统化的过程,并且我们的程序可以处理不完全的芯片数据。2.学位论文赵亚欧基于多特征的集成分类器在基因表达数据分类中的应用2008随着人类基因组计划的发展,DNA微阵列技术作为一项革命性的技术应运而生。它可以自动、快速、高效的检测成千上万个基因的表达情况,通过分析所产生的基因表达数据,可以在分子层面了解细胞的生理状态,如生存、增殖、分化、凋亡、癌变和应激等等。这些问题对于医学临床诊断、药物疗效判断、解释疾病发生机制等方面有重要的作用。基因表达数据数目巨大且极其复杂,人们通过医学影像学的方法很难直接对其做出解释。因此,基因表达数据分类成为了生物信息学领域中一个十分困难的问题。早期,人们常常使用模式识别的方法,借助计算机的强大计算能力对其进行分类,取得了一些成果。最近几年,随着机器学习算法在生物信息学领域的应用日益广泛,机器学习的算法作为一种新兴的解决问题的方法被不少学者提出,用于基因表达数据分类。但遗憾的是,由于基因表达数据特有的样本少、特征多、非线性的特点,直接使用机器学习的方法还存在着一定的困难。这主要是因为:1.过多的特征使得重要特征被众多无关特征掩盖,使得分类器难以学习。2.样本数目过少,使得大部分分类器出现过拟合现象。为了解决特征众多的问题,往往通过对原始数据进行特征基因抽取以达到降维的目的;对于样本少的问题,常常采用分类器集成的方法来增强单个分类器的学习能力,从而提高分类的准确率。对于一个优秀的基因表达数据分类系统而言,特征基因的选择和分类器的集成是必不可少的两个步骤。然而,这两个步骤在实际应用往往是孤立进行的,前一个步骤并不能很好的为下一步奠定一个良好的基础,甚至有可能降低整体系统的分类准确率。本文通过总结前人常用方法的优缺点,将特征基因的选择与分类器的集成有机的结合起来,提出了基于多特征的集成分类器方法。其算法思想如下:该方法首先使用不同的特征基因提取算法如相关性分析,Golub方法,t检验方法等对数据进行特征提取,得到样本的多个特征子集。然后通过可重复采样技术,在不同的特征子集中抽取样本形成训练子集。由于训练子集是在不同的特征子集中抽取的,所以具有更大的差异性。而后使用一组神经网络学习这组特定的训练子集,为了保证神经网络不陷入局部最优,训练采用粒子群优化算法(PSO)。最后,基于“Manycouldbebetterthanall”的选择性集成思想,使用分布估计算法(EDA)选取最优的神经网络分类器进行集成,做出最后的分类判决。为了验证方法的有效性,实验采用了国际通用的基因表达数据集Leukemia、Colon、Ovarian、LungCancer进行分类实验。结果表明,使用本文提出的方法比其他方法具有更高的分类准确率和稳定性。3.学位论文刘昆宏多分类器集成系统在基因微阵列数据分析中的应用2008多分类器集成系统是当前机器学习领域的一个研究热点。由于使用多个基分类器构建的集成系统通常比单个优秀的分类器具有更强的泛化能力,因此多分类器集成系统为许多基于传统模式识别方法很难解决的分类问题提供了新的解决方案。DNA微阵列技术是一种由物理学、微电子学与分子生物学等几个领域综合交叉形成的高新技术,该技术已经在医学与生物学上得到越来越广泛的应用,其中在癌症分析检测上的应用使得在大规模基因水平上深入研究癌症的发生、扩散等病理特征成为可能。特别地,进行可靠的癌症类型诊断与预测、癌症关键基因的识别和癌症的分类已成为当前癌症研究中的两项重要内容。尽管如此,由于微阵列数据具有数据维数高、样本数少的特点,因而使用常规的模式识别方法并不能总是获得理想的结果。本文主要针对多分类器集成系统在基因微阵列数据集上的应用进行了深入的分析与探讨,并设计了新的集成系统,以更好地解决微阵列数据的分类判别问题。(1)从机器学习的角度分析,癌症关键基因识别问题的核心是特征选择问题。本文集合filter方法,分别设计了基于标准遗传算法和多目标遗传算法的集成特征选择方法。实验中,首先使用filter方法对基因进行初步筛选,进而使用遗传算法进一步实现特征选择,然后将所选择的一组特征子集分别用于构造基分类器,以生成集成特征选择系统。实验结果表明,所设计的集成特征选择算法能有效地选择合适的基因子集,而且这种集成系统获得了良好的识别性能。(2)独立分量分析是一种近几年来新提出的线性变换方法,它已经成功地应用在微阵列数据分析上。本文借鉴了集成特征选择方法的思路,设计了集成独立分量选择系统。这种系统首先使用独立分量分析算法对微阵列数据进行线性变换,之后使用遗传算法选择合适的独立分量子集,并分别用于构建基分类器。由于使用这种方法能保证各个基分类器间的差异度,因此最后使用投票法将各个基分类器进行组合,即能构成稳健的集成系统。(3)在应用于微阵列数据分析中,通常独立分量分析算法得到的独立分量集并不总是可重复的。本文利用独立分量集之间的差异,提出一种新的构造集成系统的思路。这个集成系统基于多目标遗传算法,通过对独立分量分析变换后获得的不同独立分量集分别进行筛选,从各个不同的独立分量集中分别获得较优子集,用以构建基分类器。实验结果表明,使用这种方法,能够获得差异度更大的基分类器,因而最终的集成系统具有更优的性能。(4)旋转森林是一种新提出的多分类器集成系统,其特点在于使用线性变换方法生成旋转矩阵,使数据可以投影到不同坐标系中,从而构建有差异的分类器。由于这种系统要求数据集的特征维数不能过高,因此不能直接用在基因微阵列数据分析判别中。本文使用filter方法对基因微阵列数据进行降维,以获得适合旋转森林的数据集。此外,还引入独立分量分析技术作为一种新的产生旋转矩阵的方法。在两个常见数据集上的实验结果表明,旋转森林在基因微阵列数据判别中能获得较优的识别效果,并且基于独立分量分析的旋转森林能获得最佳的识别性能。(5)关键基因选择与癌症类别判别方法对处理多类癌症微阵列数据集往往比对两类癌症数据集更困难。其原因在于对多类问题,每类的样本数少,且往往各个类别样本数不均衡。本文设计了一种基于子集成系统的遗传规划,以同时实现特征选择和类别判定。首先,算法将多类问题分解为多个两类问题,然后,在遗传规划算法设计中,使用规模较小的集成系统(称为子集成系统)来分别处理各个两类问题,并将这些子集成系统融合起来,以构成一个个体。由于每个个体都包含一组子集成系统,因此它具有较强的泛化能力,且能直接处理多类判别问题。本文给出了基于特征的差异度测度,并使用局部优化算法来确保各个子集成系统的差异度,从而进一步提高系统运行的效率。实验结果表明,本文设计的算法能同时有效实现关键基因的选择与癌症类别的判定。4.学位论文王红强应用于基因选择与癌症分类的微阵列数据分析2005随着人类基因组计划的顺利完成,DNA微阵列技术越来越完善,癌症研究开始进入新的时代。DNA微阵列技术是一种物理学、微电子学与分子生物学综合交叉形成的高新技术。DNA微阵列技术具有划时代意义的特点是能同时监测成千上万条基因的表达,并能在同一阵列上对每一条基因进行定量表示;解决了特定物种细胞中,在某一特定的时间、特定的条件下基因表达谱测量问题。当前,DNA微阵列技术不仅是基因组信息学研究的主要支撑技术,而且为在基因组水平上进行癌症研究提供了最基本和必要的信息及依据,在生物学和医学研究中正受到越来越多的应用。癌症微阵列数据分析使得在大规模基因水平上深入研究癌症的发生、扩散和转移等病理特征成为可能,并被公认为癌症研究与治疗的强大工具。众所周知,癌症是一种复杂的遗传性疾病,往往是由先天的或外界的影响所造成的一些基因的突变、缺失等原因所引起。在临床表现上,癌症往往复杂多样并具有极强的隐蔽性和高复发率,从而导致较低的临床诊断与分类成功率。然而,癌症的成功治疗却往往在于可靠而精确的癌症类型诊断与预测。基于这些原因,癌症关键基因识别和癌症诊断与分类是癌症研究中的两项重要内容。为此,本文主要研究和探索了基于微阵列数据分析的癌症关键基因选择和癌症诊断与分类技术。众所周知,基因调控是一种重要的基因活动机制。在遗传中心法则中,基因调控活动通过调节和控制遗传信息由DNA双链分子转录为mRNA分子以决定基因在生物体内的表达。在不同的外部环境(实验)条件下,基因调控将对生物体的微观基因环境产生不同的影响。简单假设在两种不同的实验条件下被调控的基因表达水平表现为三种调控状态,即上调控状态、下调控状态和非显著调控状态,我们使用概率统计方法对基因调控状态进行建模。在该模型的基础上,我们应用三种参数概率估计方法对基因调控概率(GRP)进行估计。基于这种基因调控信息,我们提出了基于基因调控概率的癌症微阵列数据分析系统。概率统计方法的使用使得我们的分析系统能够克服癌症微阵列数据天生高噪声和高变异的缺陷。同时,众所周知,癌症微阵列数据中隐藏着大量的有用信息,概率统计方法也帮助了我们的分析系统挖掘和提取这些潜在的有用信息,比如上述基因调控信息。该基于基因调控概率的癌症微阵列数据分析系统主要包括两种癌症微阵列数据分析技术,即基于GRP的基因选择方法利基于GRP的加权投票癌症诊断与分类方法。这两种分析技术分别实现了癌症研究中的两个重要目标:癌症关键基因识别利癌症诊断与分类。对于该分析系统,本文在多个公开的癌症微阵列数据上进行验证,并与现有的分析方法进行比较。实验结果表明我们的基于基因调控概率的癌症微阵列数据分析系统具有良好的分析性能。目前,大多数癌症诊断与分类方法都是基于线性模型的分类技术。为了考察非线性癌症诊断与分类性能,本文探索了基于径向基函数神经网络的非线性癌症诊断与分类方法。众所周知,径向基函数网络作为一种非线性分析技术已经被成功的应用到了许多领域的非线性数据分析中,比如,信号处理,系统建模以及控制和故障诊断等领域。径向基函数网络被认为是通用的函数逼近子并具有快速的学习能力和紧致的拓扑结构等优点。为了提高径向基函数网络的分类性能,本文提出了一种改进模拟退火(MSA)径向基函数网络优化算法,并将优化的径向基函数网络用于非线性癌症诊断与分类。在白血病和结肠癌两个数据上的应用证明了该方法良好的癌症诊断与分类性能。从模式识别和机器学习角度看,癌症关键基因识别问题属于特征选择问题。为此,本文集合两种特征选择方法(即filter方法和wrapper方法)的优点提出了一种基于支持向量和惩罚策略(SVPS)的癌症关键基因选择算法。众所周知,支持向量机是一种能够实现高维甚至无穷维数据的有效分析方法。该方法能够有效避免传统机器学习算法应用中的维数恶化问题,最适合处理像癌症微阵列数据这样的高维小样本问题。因此,在我们的算法中,支持向量机分类器被使用。在癌症微阵列数据上的实际应用表明了我们提出的基于支持向量和惩罚策略的基因选择算法能够有效地识别癌症关键基因。本文的最后部分对研究工作进行总结并讨论了进一步的工作内容和方向。5.学位论文吴希贤基于优化算法的基因选择与癌症分类2008随着DNA微阵列(DNAmicroarray)技术的高