全全国国第第七七届届研研究究生生数数学学建建模模竞竞赛赛题目确定肿瘤的重要基因信息摘要:随着生物分子学的发展,人们已经发现癌症与基因之间存在密切关系。本文通过对比基因表达谱中不同样本的表达水平的差别,区分出无关基因和信息基因,在信息基因的空间中搜索分类能力强的特征子集,然后将所有样本划分为训练集和测试集,使用支持向量机SVM和人工神经网络检查特征子集的分类能力。其次,再考虑噪声的定义,以及如何去除噪音,并分析噪声对特征子集分类能力的影响。最后,生成特征子集的时候需要考虑已有的医学发现,提出基于知识库的基因图谱分析模型KFS模型,有效利用了医学成果。第一问,利用巴氏距离模型和理想基因模型区分无关基因和相关基因,剔除基因表达谱中无关基因,达到降维的效果。第二问,使用FSSM算法在信息基因空间里寻找出候选特征子集,然后将样本划分为训练集和测试集,使用支持向量机SVM和人工神经网络,对FSSM搜索出来的特征子集的分类能力进行判定。本文得到由5个信息基因组成的特征子集,样本分类正确率达到95.79%。第三问,考虑了阈值滤波和主成分分析两种去噪模型,并阐述噪音模型在高斯过程分类器的构建中的作用,最后论述噪音能够在学习算法中防止过渡拟合从而可以孵化出泛化能力更强的分类器用于确定基因标签。第四问,提出基于知识库的基因图谱分析模型KFS模型,该模型在引入信息基因知识库的基础上,对基因图谱进行去噪处理、样本评价函数增益、剔除无关基因,并采用基于知识库的KFSSM算法获得特征子集,最后分别采用SVM及ANN方法获取信息基因集合。本文最后对已知临床经验的结肠癌数据进行处理得到一组信息基因组合,样本分类正确率达到94.52%。关键词:基因表达谱,信息基因,巴氏距离,FSSM,噪声,KFS模型参赛密码(由组委会填写)2一、问题重述癌症起源于正常组织在物理或化学致癌物的诱导下,基因组发生的突变,即基因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原来的正常分布(即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达水平)。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。DNA微阵列(DNAmicroarray),也叫基因芯片,是最近数年发展起来的一种能快速、高效检测DNA片段序列、基因表达水平的新技术。它将数目从几百个到上百万个不等的称之为探针的核苷酸序列固定在小的(约12cm)玻璃或硅片等固体基片或膜上,该固定有探针的基片就称之为DNA微阵列。根据核苷酸分子在形成双链时遵循碱基互补原则,就可以检测出样本中与探针阵列中互补的核苷酸片段,从而得到样本中关于基因表达的信息,这就是基因表达谱,因此基因表达谱可以用一个矩阵或一个向量来表示,矩阵或向量元素的数值大小即该基因的表达水平(见附件)。随着大规模基因表达谱(Geneexpressionprofile,或称为基因表达分布图)技术的发展,人类各种组织的正常的基因表达已经获得,各类病人的基因表达分布图都有了参考的基准,因此基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题。如果可以在分子水平上利用基因表达分布图准确地进行肿瘤亚型的识别,对诊断和治疗肿瘤具有重要意义。因为每一种肿瘤都有其基因的特征表达谱(见附图)。从DNA芯片所测量的成千上万个基因中,找出决定样本类别的一组基因“标签”,即“信息基因”(informativegenes)是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研制提供了捷径。通常由于基因数目很大,在判断肿瘤基因标签的过程中,需要剔除掉大量“无关基因”,从而大大缩小需要搜索的致癌基因范围。事实上,在基因表达谱中,一些基因的表达水平在所有样本中都非常接近。例如,不少基因在急性白血病亚型(ALL,AML)两个类别中的分布无论其均值还是方差均无明显差别,可以认为这些基因与样本类别无关,没有对样本类型的判别提供有用信息,反而增加信息基因搜索的计算复杂度。因此,必须对这些“无关基因”进行剔除。1999年《Science》发表了Golub等针对上述急性白血病亚型识别与信息基因选取问题的研究结果[1]。Golub等以“信噪比”(Signaltonoiseratio)指标作为衡量基因对样本分类贡献大小的量度,采用加权投票的方法进行亚型的识别,仅根据72个样本就从7129个基因中选出了50个可能与亚型分类相关的信息基因。Golub的工作大大缩小了决定急性白血病亚型差异的基因范围,给出了亚型识别的基因依据,富有创造性。Guyon等则利用支持向量机的方法再从中选出了8个可能的信息基因[2]。但信噪比肯定不是衡量基因对样本分类贡献大小的唯一标准,肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质通过多种方式作用的结果,在确定某种肿瘤的基因标签时,应该设法充分利用其他有价值的信息。有专家认为[3]在基因分类研究中忽略基因低水平表达、差异不大的表达的倾向应该被纠正,与临床问题相关的主要生理学信息(见问题4)应该融合到基因分类研究中。面对提取基因表达谱信息这样前沿性课题,命题人根据自己科学研究的经历和思考,猜测以下几点是解决前沿性课题的有价值的工作。这种猜测是科学研究3中的重要环节,当然猜测不会总是可行的,更不一定总是正确的。但不探索就不能前进,如果能够通过数学建模,得到的部分结果可以佐证你们的猜测或为新探索提供若干依据,就很有价值。我们的目的只是给研究生以启发,鼓励研究生培养这样的创造性发现的能力。所以研究生完全可以独立设计自己的技术路线,只要能够有效提取附件的基因表达谱信息就行。1、由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎会有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突变基因数目很少。对于给定的数据(见附件),如何从上述观点出发,选择最好的分类因素?2、相对于基因数目,样本往往很小,如果直接用于分类会造成小样本的学习问题,如何减少用于分类识别的基因特征是分类问题的核心,事实上只有当这种特征较少时,分类的效果才更好些。对于给定的结肠癌数据如何从分类的角度确定相应的基因“标签”?3、基因表达谱中不可避免地含有噪声(见1999年Golub在《Science》发表的文章),有的噪声强度甚至较大,对含有噪声的基因表达谱提取信息时会产生偏差。通过建立噪声模型,分析给定数据中的噪声能否对确定基因标签产生有利的影响?4、在肿瘤研究领域通常会已知若干个信息基因与某种癌症的关系密切,建立融入了这些有助于诊断肿瘤信息的确定基因“标签”的数学模型。比如临床有下面的生理学信息:大约90%结肠癌在早期有5号染色体长臂APC基因的失活,而只有40%~50%的ras相关基因突变。二、基本的模型假设1、基因表达谱中的样本类别没有错误。2、基因表达谱中的癌症病人样本都是结肠癌病人。3、基因表达谱中有重复的基因标签,我们假定重复的基因标签的样本分类能力类似,所以只处理其中一个基因标签4、所有的癌症病人都处于同一时期,不分早期和晚期。5、基因表达谱中有一些重复的基因标签,比如HSAC07、UMGAP和i都出现了4次,而Has.13491、Has.44472等基因出现了两次。我们假定每一个标签都具有代表性,所以我们只处理一个基因标签,而不考虑其他重复的基因标签。这样的话,基因表达谱信息表中总共有1911个不同类型的基因标签。本文剩下所有的数据处理都是针对这1911个基因标签。三、名词解释基因表达谱:关于基因表达的信息,可以看成是一个矩阵或者一个向量,矩阵或者向量元素的数值大小就是该基因的表达水平。基因表达水平:可以理解为样本中某种基因的数量或者密度。理想基因:一种可以完全分辨出样本类别的基因,它在不同类型的样本中的表达水平相差很大。信息基因:可以决定样本类别的一组基因。无关基因:有一些基因的表达水平在所有的样本中非常接近,对样本分类没有帮助的基因。4特征子集:每一种信息基因的组合。信噪比:作为衡量基因对样本分类贡献大小的量度。训练集:用来训练分类器学习能力的样本集,包含正常人的样本和结肠癌病人的样本。测试集:用来测试分类信息基因分类能力的样本集,包含正常人的样本和结肠癌病人的样本。分类器:通过学习训练集中样本之后,可以自动的对给定的测试集中样本进行分类的一类程序。四、符号化Bi:基因标签i的巴氏距离(1≤i≤1911)。SN:无关基因集合。SI:信息基因集合。e:理想基因,与肿瘤有很强的关联性。Num(SN):无关基因集合的大小。Num(SI):信息基因集合的大小。正常样本nSi:第i个正常人样本(1≤i≤22)。病人样本cSj:第j个结肠癌病人样本(1≤j≤40)。基因表达谱信息:A[m×n],用一个m×n的矩阵来表示基因,其中m=62,n=1911vij:样本i在基因j上的表达水平。基因矢量Vg:基因g在各个样本上的表达水平的一个矢量,Vg={vg1,vg2,…,vgn}。五、模型的建立与求解5.1问题一的分析、建模与求解5.1.1问题一的分析目前人们通过生物芯片的技术可以快速检测样本的基因表达水平,人类各类组织的正常基因表达谱已经获得,但是还没有有效的方法能够定位与癌症直接有关的基因。问题一的出发点在于,人类基因表达谱中包含有太多与癌症无关的基因,这大大地增加了人们从基因表达谱中搜索与癌症相关的信息基因的难度,而一般情况下,人们认为直接与特定类型癌症相关的突变基因数目很少,所以我们应该考虑首先从基因图谱中删除大量的无关基因,缩小搜索信息基因的范围。这个步骤可以称为基因表达谱去除无关信息的降维处理。本题我们从下面两个角度对基因表达谱初步降维:1、信息基因在不同类型样本表达水平的差异。2、基因与理想基因的相似度。我们首先从癌症的“基本致病机理”角度分析肿瘤与基因之间的可能存在关系。癌症会导致信息基因在不同类型样本的表达水平上产生一些差异。我们应当用一种合理的指标将这种差异量化。目前比较通用的方法是比较样本的平均值和方差,我们考虑一种模型,可以综合考虑这两方面的因素。其次,我们假设有一种理想基因,这种基因在不同类型上的样本上的表达水5平差异非常大。我们通过样本在理想基因上的表达水平就可以直接判断样本的类型。利用这种理想基因,我们通过比较基因表达谱中各个基因与理想基因的相似度。相似度高的基因可以认为是信息基因,相反,如果某个基因标签与理想基因的相似度很小,我们基本可以认为它是无关基因。本文在处理第一题时,综合利用了巴氏距离模型和理想基因模型,以巴氏距离模型为主,但是由于基因表达谱中的噪声会影响巴氏距离模型选出来的信息基因的效果,所以再以理想基因模型为辅,选取一些与理想基因相似度高的基因,防止将一些信息基因剔除。最后选取大小为250的信息基因集合,大约占题目所给基因总数的20%,作为第二问的特征子集的搜索空间。下面详细介绍我们建立的降维模型。5.1.2问题一的模型建立我们首先考虑下如何量化信息基因在不同类型样本中表达水平的差异以及如何利用这种差异将基因分类,区分出无关基因和信息基因。Golub等人以“信噪比”(Signaltonoiseratio)[1]指标作为衡量基因对样本分类贡献大小的度量,信噪比的定义如下:2121d(1)其中:d是基因的信噪比,μ1和μ2分别是该基因在两种样本中表达水平的均值,σ1和σ2是该基因在两种样本中表达水平的标准差。但是使用这种方法来区分信息基因和无关基因存在应的问题。如果d=0,该基因就会被当做无用基因删除,而实际上,如果该基因在两种样本中表达水平方差有很大差异,那么很有可能这个基因与癌症有很密切的关系。所以,我们需要选用一个模型,综合考虑平均值和方差的差异。5.1.2.1巴氏距离模型巴氏距离既考虑到基因在样本中均值,也考虑到基因在样本中的方差分布,是一个很好的信息度量指标。它综合考虑了均值和方差差异对样本分类的作用。它的定义如下:)2ln(21)()(412122212221221uuB(2)其中B为基因的巴氏距离。由式(2)知,巴氏距离由两部分构成:第一项体现了基