生命科学趋势2004年4月第2卷第1期TrendsinLifeSciences应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法*李霞cd饶绍奇ef张田文c郭政cd张庆普cKathyL.MOSERgEricJ.TOPOLef转载自:中国科学C辑生命科学2004,34(2):1-8(c哈尔滨工业大学计算机科学系,哈尔滨150001;d哈尔滨医科大学生物医学工程教研室与生物信息研究室,哈尔滨150086;eCenterforCardiovascularGenetics,DepartmentofCardiovascularMedicine,theClevelandClinicFoundation,9500EuclidAvenue,Cleveland,Ohio44195,USA;fDepartmentofMolecularCardiology,theClevelandClinicFoundation,9500EuclidAvenue,Cleveland,Ohio44195,USA;gDepartmentofMedicine,InstituteofHumanGenetics,UniversityofMinnesota,Minnesota55455,USA)责任编辑:TILS摘要:DNA芯片技术的迅速发展,可同时检测成千上万个基因的表达谱数据,为生物科学家们从一个全新的角度阐明生命的本质提供了可能性。目前,基因表达谱分析的工作大多集中在对癌症等疾病分类、疾病亚型识别等,而从这些基因表达谱信息中挖掘反映疾病本质特征的相关基因,是一项在后基因组时代更具挑战意义的科学研究,基因挖掘由于缺少理想的数据挖掘技术而被忽视。在本文中我们提出了一种新颖的特征基因挖掘的集成决策方法,目的在于解决三个重要的生物学问题:生物学分类及疾病分型,复杂疾病相关基因深度挖掘,和目标驱使的基因网络构建。我们成功地将此集成决策方法应用于一套结肠癌DNA表达谱数据。结果显示这一新颖的特征基因挖掘技术在应用DNA芯片数据分析、挖掘复杂疾病相关基因等方面具有很高的价值。关键词:基因表达谱集成决策递归分类树特征识别1:研究背景应用DNA芯片技术可以在一次实验中同时检测成千上万个基因的表达谱数据。这些基因的表达谱数据为生物体提供一定时空上的生命快照,它映射了生物体在四维空间(时间和三维生物体)某一特定横切面上基因的活动规律。近年来,尽管基因芯片这一创新生物学技术为我们探索生命的奥秘找到了新的切入点[1,2],但发展高效的基于芯片数据的分析方法和策略仍然是一项极其重要的工作。基因芯片数据挖掘技术涉及的学习算法可划分为无监督学习和有监督学习两大类:以聚类分析为代表的无监督学习忽略样本的表型特征,直接分析基因表达谱数据,是功能基因组学研究的一个有效工具,然而,这种方法不能有效地研究基因表达谱的变异与其表型的关系。相比之下,有监督学习是一个目标引导(驱使)的过程,可采用一个适当的归纳算法,寻找一定目标意义下特征相关基因。这些目标可能是生物类型分类、疾病亚型的划分;或是疾病相关基因的挖掘;或是研究疾病基因之间的网络关系,构建目标驱使疾病相关基因网络。目前,大量的工作集中在关于生物类型分类和疾病诊断方面的研究,__________________________________________*国家自然科学基金委(项目编号:30170515和30370798),中国863计划(项目编号:2003AA2Z2051和2002AA222052)和哈尔滨医科大学211工程“十五”计划**联系人(E-mail:Lixia@ems.hrbmu.edu.cnorraos@ccf.org)应用在基因组范围内的基因表达谱进行疾病基因挖掘和目标驱使基因网络的构建工作较少。由于基因芯片数据样2生命科学趋势第2卷本数量少(以十或百计)、特征基因维数高(以千或万计)及芯片数据高信噪比的特点,最佳的芯片数据分析策略应是通过识别相关基因和排除噪音特征降低特征基因的维数。目前,识别相关基因方法有不同种[3-8],其中基于决策树的方法对基因芯片等遗传数据分析或更广的领域[9,10]是最佳的方法之一。其主要原因是决策树可同时对样本和特征基因进行分析,因而非常适合揭示隐藏的遗传异质性[11,12],人类遗传学研究中一个悬而未决的课题。在这篇文章中,我们将提出一种新颖的基于决策树的疾病基因挖掘的集成方法,用于生物类型分类和疾病基因挖掘。首先,我们的目标是识别一个最佳特征基因子集,使得以此集为特征提高生物类型(例如肿瘤与正常组织)鉴别的准确率,亦称生物类型预测问题。目前,一类主要的对单基因选择方法是过滤(Filter)法,如排秩(Rank)、信息增益(InformationGain)、马尔可夫毯(MarkovBlanket)和边际过滤法等[13-15]。该类过滤方法独立于最终用于预测的分类方法,因而,不能肯定选入的特征基因是否可以改善最终的生物学分类。另一类特征基因挖掘的方法是缠绕法(Wrapper)法,以及过滤法与缠绕法的混合(Hybrid)方法等[16,17]。在缠绕法,特征基因选择的算法是作为一个围绕归纳算法的缠绕器,归纳算法既用来搜寻有效的特征基因子集,其本身又是特征基因的评价函数。这种归纳算法可用于基因芯片数据,通常基因芯片数据被人为地分割为内源性学习样本和外源性检验样本。具有最高评价的特征基因子集被选为最后的集合以创建一个模式分类器。由于通过缠绕器选择特征基因子集能够与分类器的决策机制很好地吻合,对检验样本的划分可获得最高的准确率。因此,在我们的集成决策方法中采用了一个基于决策树的缠绕器。第二,在这篇文章中,我们提出的基因挖掘新方法不仅仅是为了获得最高的分类准确率,我们试图识别与疾病本身有强相关的基因。有些人认为这二个目标是等价,我们将在后面的实际例子阐明这二个目标本质上的不同。换句话说,用于预测的最佳基因子集未必是映射复杂疾病的复杂遗传机制的基因功能子集,或者,可以肯定的说这一基因子集不能捕获这一复杂遗传机制的全貌。为挑战这一课题,我们引进了疾病相关基因的概念并定义评价疾病相关基因的相关性强度(数学描述在后面给出),我们可利用该指标有效地区分完全相关基因、部分相关基因以及无关基因,在实际的基因芯片数据分析中(包含有成千上万个基因的表达数据),大多数基因是与目标无关的,同时由于生物系统的复杂性,完全相关的基因亦是极少的,基因挖掘的主要目的就是要寻找到这些完全相关或部分相关的基因。由于基因芯片具有高度的基因冗余性,以获得最高分类准确率为目标的特征基因识别势必会造成大量的部分相关基因被排除,为克服这一缺点,我们提出新颖的集成方法处理这些冗余的基因。我们将机器学习领域集成决策理论[18]整合到决策树中,在这种方法中,我们通过重复取样技术产生训练集,由此创建大量的特征基因子集。然后根据每个基因在特征基因子集群中的分布,以一个关联强度指标进行评价。尽管集成(Ensemble)决策理论对提高分类准确率取得了较大的进展,受到了普遍关注,而应用集成决策技术进行特征基因挖掘还未见报道。2:方法2.1定义假设某一微阵列实验,点有p个基因探针的DNA芯片检测n个DNA样品(样本)的表达谱数据可由pn×矩阵()ijXx=[1,2]表示,其中ijx可代表第j个基因(jg)(属性变量)在第i个样品(iX)(观察个体)的表达水平。当DNA样品属于已知类别时,每一个样品观察值数据由基因表达谱),(1ipiixxXΛ=和类标签(iy)组成。假设DNA样品属于K个类别12,,,KωωωL,对于K个类别,定义类标签iy为从1到K的整数,以kn表示第(1,2,,)kkK=L类观察数。我们分别给出对疾病有鉴别意义的优化特征基因子集和疾病相关基因的概念:定义1给定一算法I,和具有p个基因{jg},j=1,2,…,p的表达谱微阵列数据集D,来自离散表型空间{12,,,KωωωL}的多元分布总体,若基于基因子集G′,微阵列样本的划分()CID=与观察表型分布有最好的拟合(在特定的统计学意义下),即具有最小错分率,称G′是对疾病有鉴别意义的最优基因子集G′。定义2给定一个特征基因jg,若这个基因被包含在所有由DNA表达谱微阵列数据训练集归纳的分类器中,如将它从任意一个分类器中剔除,将导致该分类器对疾病表型划分错分率增加,称jg是与疾病完全相关的;若特征基因jg不是与疾病完全相关的和至少存在一个这样的特征基因子集G,依据G建立的划分的错分率高于依据第1期李霞等:应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法3iGgU建立的划分的错分率,称jg是与疾病部分相关的;若jg既不是完全相关亦不是部分相关的,称jg是与疾病无关的。2.2特征基因挖掘的集成决策方法提出的集成特征基因挖掘方法是基于递归分类树的有监督学习方法.基本思路是首先采用某种抽样策略(见下文),由样本集构建不同分布结构的训练集),,2,1(}{mdLdΛ=和检验集),,2,1(}{mdTdΛ=,基于训练集(1,2,)dLdm=L由递归分类算法生长二叉树,在树的每一分叉结点以类纯度指标最大与分类错误率最小为目标引导识别最好的特征基因。这种二叉递归反复进行直至树增长停止。对每一增长的树,识别一特征基因子集dG={}dkddggg,,,21Λ,并由检验集dT进行检验。对每一对学习样本),,2,1(}{mdLdΛ=和试验样本),,2,1(}{mdTdΛ=重复这一特征基因识别过程,得到一系列集成特征基因子集mdGGG,,,,1ΛΛ。按基于{dG}建立分类器的效能(在检验集上分类错误率)进行排秩,识别分类错误率最小的、具有分类学意义,即满足定义1的最佳基因子集G′。由定义2,根据某一基因在分类效能达到特定显著水平的特征基因子集群中的分布,由与疾病相关的程度识别疾病相关基因集*G。2.2.1构建训练集和检验集构建训练集和检验集有许多方法,这里我们只介绍三种方法。最直接的方法是Bagging[10](Bootstrapaggregation的缩写),以原训练集为母版,在原样本集上采用有放回抽样,每次随机抽取与原训练集等同大小的集合,称这种集合为原训练集的副本,由该副本作为训练集,余下的样本作为检验集。由Bagging方法产生的训练集的特点是有的微阵列样本可能重复出现许多次,有的可能根本不出现;另一种构建训练集的方法是n-倍(fold)交叉证实的方法[10],我们可随机将样本集分为近似的n等份,选取每一份作为检验集,余下的n-1份作为训练集,循环n次,这种方法产生不相重叠的训练集和检验集;第三种方法采用无放回随机抽样,每次抽取样本集的1/n作为检验集,余下的样本集作为训练集。2.2.2.特征识别算法按照一种训练集的构建策略,将样本集划分为训练集()dL和检验集()dT。在每对训练集()dL和试验集()dT上,我们创建和检验一个递归决策树[19,20]。决策树是一个多级决策过程,在每一阶段需做一次二叉划分。决策树由结点和分支构成,结点又分为内部结点和叶子(leaf)结点。内部结点可分划(产生)为两个子结点,而叶子结点不产生任何子结点。对每一叶子结点赋给一个与其关联的类标签,落入该叶子结点的观察样本被指定为属于相应的类别。为寻求一个最能改善分类正确率的特征属性基因子集,从包括所有训练集()dL的根结点开始,在树的每个结点上对特征空间做一次穷尽搜索,寻找一个特征属性基因和相应的阈值(cutoff),实施分叉,使得由此准则划分样本类别的杂质度最小。即在确定了一个最佳分叉后,根据每个样本个体iX的属性jgcutoff或jg≤cutoff时,微阵列样本集相应地划分成左右两个不交叠的子集,称这些子集为源于父结点的两个子结点。然后,再在这两上子结点上,实施同样的特征空间穷尽搜索和子结点划分。这一过程反复进行,直至叶子结点或满足树增长停止规则。属性和相应阈值的识别准则是使得在一个结点的划分最大程度地降低类别杂质度(寻找一种划分最大地减少在结点t的杂质度),我们采用Gini差异性指标(代价函数)为结点t的杂质函数:1221()