2010年全国研究生数学建模竞赛优秀论文A8

sculpter
2 ℃
2020-04-28

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

全全国国第第七七届届研研究究生生数数学学建建模模竞竞赛赛题目基因表达谱的复杂网络研究摘要：本文采用复杂网络理论，整合基因关联信息和文献中的结果，得到一些关于结肠癌标志基因的可能的结果。首先利用分类信息指数对数据进行初步筛选，选出了314个基因。对选出的基因分别做肿瘤样本和正常样本的相关系数矩阵，利用Kruskal算法分别对两个相关系数矩阵做最小生成树，然后通过两种方法比较选出阈值，建立起节点间的连边关系，得到致病前后的两个网络。根据复杂网络中的相关理论，分别对肿瘤样本和正常样本进行社区划分，最后通过观察两个样本的网络系统，分析致病前后基因的变化情况，建议了结肠癌的特征基因。关键字：相关系数矩阵最小生成树复杂网络社区结构参赛队k0000057队员姓名齐景超张东张珍中山大学承办参赛密码（由组委会填写）2一问题的重述癌症起源于正常组织在物理或化学致癌物的诱导下，基因组发生的突变，即基因在结构上发生碱基对的组成或排列顺序的改变，因而改变了基因原来的正常分布（即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达水平）。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。DNA微阵列（DNAmicroarray）,也叫基因芯片，是最近数年发展起来的一种能快速、高效检测DNA片段序列、基因表达水平的新技术。它将数目从几百个到上百万个不等的称之为探针的核苷酸序列固定在小的（约12cm）玻璃或硅片等固体基片或膜上，该固定有探针的基片就称之为DNA微阵列。根据核苷酸分子在形成双链时遵循碱基互补原则，就可以检测出样本中与探针阵列中互补的核苷酸片段，从而得到样本中关于基因表达的信息，这就是基因表达谱，因此基因表达谱可以用一个矩阵或一个向量来表示，矩阵或向量元素的数值大小即该基因的表达水平。随着大规模基因表达谱(Geneexpressionprofile，或称为基因表达分布图)技术的发展，样本类各种组织的正常的基因表达已经获得，各类病样本的基因表达分布图都有了参考的基准，因此基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题。如果可以在分子水平上利用基因表达分布图准确地进行肿瘤亚型的识别，对诊断和治疗肿瘤具有重要意义。因为每一种肿瘤都有其基因的特征表达谱。从DNA芯片所测量的成千上万个基因中，找出决定样本类别的一组基因“标签”,即“信息基因”（informativegenes）是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在，同时也为抗癌药物的研制提供了捷径。通常由于基因数目很大，在判断肿瘤基因标签的过程中，需要剔除掉大量“无关基因”，从而大大缩小需要搜索的致癌基因范围。事实上，在基因表达谱中,一些基因的表达水平在所有样本中都非常接近。例如，不少基因在急性白血病亚型（ALL,AML）两个类别中的分布无论其均值还是方差均无明显差别,可以认为这些基因与样本类别无关,没有对样本类型的判别提供有用信息,反而增加信息基因搜索的计算复杂度。因此,必须对这些“无关基因”进行剔除。经过10余年的努力，在基因表达谱分析方面取得了长足的进展，但是仍然有很多基本的问题没有解决，主要有下边几个方面，（1）由于基因表示之间存在着很强的相关性，所以对于某种特定的肿瘤，似乎会有大量的基因都与该肿瘤类型识别相关，但一般认为与一种肿瘤直接相关的突变基因数目很少。如何从上述观点出发，选择最好的分类因素？（2）相对于基因数目，样本往往很小，如果直接用于分类会造成小样本的学习问题，如何减少用于分类识别的基因特征是分类问题的核心，事实上只有当这种特征较少时，分类的效果才更好些。也就是如何从分类的角度确定相应的基因“标签”？（3）基因表达谱中不可避免地含有噪声，有的噪声强度甚至较大，对含有噪声的基因表达谱提取信息时会产生偏差。通过建立噪声模型，分析给定数据中的噪声能否对确定基因标签产生有利的影响？（4）在肿瘤研究领域通常会已知若干个信息基因与某种癌症的关系密切，建立融入了这些有助于诊断肿瘤信息的确定基因“标签”的数学模型。比如临3床有下面的生理学信息：大约90%结肠癌在早期有5号染色体长臂APC基因的失活，而只有40%~50%的ras相关基因突变。（5）从系统生物学的角度出发，整合基因组、蛋白质组、代谢组、以及临床等各种数据，找到癌症不同发展时期的标志性基因。本文采用复杂网络理论，从基因表达谱数据构建基因之间的复杂网络关系。通过分析正常样本和肿瘤样本网络之间的结构差异，以及文献中发现的结肠癌相关基因在网络上的分布特征，试图评价文献中建议的有关基因，寻找出结肠癌的标志性基因。4二问题分析癌症起源于正常组织在物理或化学致癌物的诱导下，基因组发生的突变，即基因在结构上发生碱基对的组成或排列顺序的改变，因而改变了基因原来的正常分布（即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达水平）。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。肿瘤的发生发展似乎不是相关基因发生遗传改变后，简单的作用叠加结果，而是一种细胞生长、分化异常的分子网络病。一种肿瘤有多个基因参与，一个基因参与多种肿瘤，任何一个基因都不是独立执行功能，而是作为细胞网络中的一个环节，与其他基因相互协调来完成一定的生物学过程[1]。从系统的角度去观察和分析肿瘤的生物学问题，是生物信息学对肿瘤研究的一个新的方向。现在肿瘤基因表达谱分析从研究单一肿瘤特征基因转向研究肿瘤基因表达调控网络，以期实现对基因功能的整体认识和把握。基因表达调控网络的研究对于寻找和识别样本类致病基因具有特别重要的意义。复杂网络理论是近年来发展起来的一个重要的交叉。对于一个复杂的系统，很多时候我们不能够单独通过分析系统内元组来反应系统性质。复杂系统是由微观层次上的海量个体所组成，个体之间存在着作用。把个体抽象为网络节点，而个体之间的相互作用抽象为节点之间的边，则复杂系统就可以用一个复杂网络来描述。本文主要通过多个序列构造复杂网络的方法研究基因之间的关系。我们的想法是结合已给的肿瘤样本(cancer)和正常样本(normal)的基因表达谱的数据，通过分析基因间的关系以及肿瘤样本(cancer)和正常样本(normal)的基因变化信息，从这两者出发来分别生成关于肿瘤样本(cancer)和正常样本(normal)基因谱表达相关的复杂网络，通过研究网络的相关性质来揭示基因与疾病发生的一些内在关系。三数据3.1基因表达谱本文的实验数据集包含22个正常组织样本和40个结肠癌组织样本,每个样本包含2000个基因的表达数据。首先对样本数据进行归一化,另外,数据的特征维数2000,远远高于样本个数62。因此,有必要对数据进行过滤和降维。测量的数千个基因的表达水平有的差异很大,只有少部分基因同样本的类别有很强的相关性,而大部分基因与样本的类别不相关,对分类没有什么贡献,这些基因也应该从数据中滤除。考虑到这些问题,我们采用了分类信息指数方法(informationindextoclassification,ⅡC)[2],作为衡量尺度来挑选每一类的“主基因”，即选取每一类中具有信息分类指数最高值的基因作为类的“主基因”，再将每一类的主基因作为特征基因来建立分类模型。分类信息指数公式为:iiiiiiiiiIIC21222121212ln2121⑴其中，i1，i2分别表示第i个基因在正常组织样本和结肠癌组织样本中的中表达水平的均值；i21，i22分别为该基因表达水平的标准差。5⑴式中的第一项是Golub等样本定义的“信噪比”指标；第二项体现了表达水平分布方差的不同对样本分类的贡献。依据该指标,即使基因在两类不同样本中表达水平的均值相同,只要分布方差出现大的差别,仍然可以获得较大的分类信息指数。根据上式计算结肠癌基因表达数据中的2000个基因的分类信息指数,大部分基因的分类信息指数在0到0.2之间,仅有少部分基因的大于0.2（如图1）。保留指数大于0.2的314个基因用于下一步的分析,这样就大大缩小了基因选择的特征空间,降低了数据维数。通过对数据的初步筛选，剔除掉大量“无关基因”，大大缩小需要搜索的致癌基因范围。图1结肠癌基因表达谱中2000个基因的分类信息指数分布。3.2文献中发现的结肠癌相关基因另外在撰写本文的准备过程中，我们查阅了大量的有关文献。与已有文献的结果进行比较,发现所选特征基因中包含了一些已被实验证实的与癌症相关的重要基因,这些基因在癌症基因调控网络中起关键作用，例如，Guyon等样本以62个样本为学习样本，利用线性支持向量机找出了7个基因：H64807、T62947、R88740、H81558、T94579、M59040和H08393[3]，刘全金等样本以SVM的灵敏度分析方法，仍以62个样本为学习样本，选取出的7个基因分别为H08393，H20709，M82919，T51849，T57619，K02268，R88740[4]，刘全金等样本以浮动顺序搜索算法得到M76378和U19969这2个基因在肿瘤组织样本中呈下调表达,而在正常组织样本中相对上调表达;J05032在肿瘤组织样本中为上调表达,在正常组织样本中又相对下调表达[5]，XiaoshengWangandOsamuGotoh用软件算方法找出了19个基因：M63391,M76378,J02854,M26383,T60155,M22382,X12671,T96873,X86693,J05032,U25138,T60778,M91463,R87126,T51571,T92451,U09564,R97912,L41559[6]，XueWuZhang等样本利用独立成分分析方法找出10个基因：H06524，J02854，H43887，L05144，M36634，M27190，R54097，J05032，X62048，M26383[7]，李建更等样本,引入一种最高得分对(TSP)方法,处理一组包含40个肿瘤和22个正常样本的结肠癌微阵列数据,得到标志基因对(M36634,J05032)并构建双基因分类器，两基因在正常和肿瘤样本中的起峰早晚恰好相反[8]，张娅等样本利用kmeansIIC法得出T49941所对应的基因可以用6于结肠癌的风险预测诊断[9]。综上除去各文献间重复基因，一共得到了40个基因（如表1）。我们要探寻的结肠癌的特征基因极有可能包含在这40个基因中，这对我们后续的研究具有重要的参考价值。在这40个基因中，其中6个基因在我们根据分类信息指数值对数据进行筛选的过程中被剔除了。所以我们选择剩下的34个基因作为我们研究的参考。如表1所示。表2为34个基因在已给数据库和我们的网络中的变化对应表。表1文献中发现的34个结肠癌相关基因。GeneID是基因表达谱中的基因编号。GeneIDGenBankAcc.NoMappedregion14H20709MYOSINLIGHTCHAINALKALI,SMOOTH-MUSCLEISOFORM(HUMAN);.245M76378Humancysteine-richprotein(CRP)gene,exons5and6.249M63391Humandesmingene,completecds.415T60155ACTIN,AORTICSMOOTHMUSCLE(HUMAN);.493R87126MYOSINHEAVYCHAIN,NONMUSCLE(Gallusgallus)513M22382MITOCHONDRIALMATRIXPROTEINP1PRECURSOR(HUMAN);.581T51571P24480CALGIZZARIN.625X12671Humangeneforheterogeneousnuclearribonucleoprotein(hnRNP)coreproteinA1.792R88740ATPSYNTHASECOUPLINGFACTOR6,MITOCHONDRIALPRECURSOR(HUMA