生物信息学在人类基因组计划中的应用

syxiachao
3 ℃
2020-06-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

生物信息学在人类基因组计划中的应用作者：佚名来源：生命经纬2005-4-816:03:00生物信息学是当前生物学领域的研究热点，预计在未来的若干年它将变得越来越重要、越来越引起人们的重视。近期任务由于未来几年蛋白质和核酸的测序数据将以指数方式增加，近期生物信息学将在以下几方面迅速发展：大规模基因组测序中的信息分析大规模测序是基因组研究的最基本任务，它的每一个环节都与信息分析紧密相关。目前，从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙，到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设讨和信息分析时刻联系在一起．拼接与组装中的难点是处理重复序列，这在含有约30％重复序列的人类基因组中显得尤其突出。新基因和新SNPs（单核苷酸多态性）的发现与鉴定人类基因组的工作草图即将完成，因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段，可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组（约1300万bp）所包含的6千多个基因，大约60％是通过信息分析得到的。当人类基因找到之后，自然要解决的问题是：不同人种间基因有什么差别；正常人和病人基因又有什么差别。”这就是通常所说的SNPs（单核苷酸多态性）。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps的研究。在我国开展中华民族SNPs研究也是至关重要的。完整基因组的比较研究现在，生物信息学家不仅有大量的序列和基因而且有越来越多的完整基因组。有了这些资料人们就能对若干重大生物学问题进行分析，比如：研究生命是从哪里起源的？生命是如何进化的？遗传密码是如何起源的？估计最小独立生活的生物至少需要多少基因，这些基因是如何使它们活起来的？比如，鼠和人的基因组大小相似，都含有约三十亿碱基对，基因的数目也类似。可是鼠和人差异确如此之大，这是为什么？同样，有的科学家估计不同人种间基因组的差别仅为0．1％；人猿间差别约为I％。但他们表型间的差异十分显著。因此其表型差异不仅应从基因、DNA序列找原因，也应考虑到整个研究组、考虑染色体组织上的差异。总之，这些例子说明由完整基因组研究所导致的比较基因组学必将为基因组研究开辟新的领域。大规模基因功能表达谱的分析随着人类基因组测序逐渐接。近完成、一些学者就提出如下的问题：即使我们已经获得了人的完整基因图谱，那我们对人的生命活动能说明到什么程度呢？于是他们提出了一系列由上述数据所不能说明的问题，例如：基因表达的产物是否出现与何时出现；基因表达产物的浓度是多少；是否存在翻译后的修饰过程，若存在是如何修饰的；基因敲出（knock-out）或基因过度表达的影响是什么；多基因的表现型如何，等。概括这些问题，其实质应该是：我们虽然知道了基因，知道了核酸序列，但我们不知道它们是如何发挥功能的，或者说它们是如何按照特定的时间、空间进行基因表达的，表达量有多少。为了得到基因表达的功能谱，国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的DNA芯片技术和在蛋白质层次上的二维凝胶电泳和测序质谱技术，也称蛋白质组技术。生物大分子的结构模拟与药物设计随着人类基因组计划的执行，估计几年之内就可找到人类的8万到10万个基因，也就是发现它们的一级序列。然而要了解他们的功能、要找到这些蛋白质功能的分子基础，必须进一步知道它们的三维结构。与此同时，要设计药物也需要了解相应的蛋白质受体的三维结构。这是摆在科学家面前的紧迫任务。远期任务生物信息学的远期任务是读懂人类基因组，发现人类遗传语言的根本规律。从而阐u若干生物学中的重大自然哲学问题，像生命的起源与进化等。这一研究的关键和核心是了解非编码区。非编码区信息结构分析近年来完整基因组的研究表明，在细菌这样的微生物中非编码区只占整个基因组序列的10％到20％。而高等生物和人的基因组中非编码区都占到基因组序列的绝大部分。从生物进化的观点看来，随着生物体功能的完善和复杂化非编码区序列明显增加的趋势表明：这部分序列必定具有重要的生物功能。普遍的认识是，它们与基因在四维时空的表达调控有关。因此寻找这些区域的编码特征以及信息调节与表达规律是未来相当长时间内的热点课题。对人类基因组来说，迄今为止，人们真正掌握规律的只有DNA上的编码蛋白质的区域（基因），很多资料说u这部分序列只占基因组的3％到5％，也就是说，人类基因组中多达95％到97％是非编码区。如何深人了解这些非编码区序列的功能是当前科学家们面临的一个真正的挑战。遗传密码起源和生物进化的研究自1859年Darwin的物种起源发表以来，进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。进化论研究的核心是描述生物进化的历史（系统进化树）和探索进化过程的机制。自本世纪中叶以来，随着分子生物学的不断发展，进化论的研究也进入了分子水平。当前分子进化的研究已是进化论研究的重要手段，并建立了一套依赖于核酸、蛋白质序列信息的理论方法。近年来，随着序列数据的大量增加，对序列差异和进化关系的争论也越来越激烈。不少的研究结果并不支持分子钟的假设。因为基于某一种分子序列所重构出的进化树，只能反映这种序列的系统发育关系，并不一定能代表物种之间真正的进化关系，即可能存在着基因树与物种树之间的差异。同时，对垂直进化和水平演化之间关系的讨论正逐渐引起人们的重视。当前的资料给了我们。一个更为复杂也更为丰满的进化模式，它启示我们要彻底了解进化的规律必须使用整个基因组的信息。相应地必须发展新的理论方法。总之，当前是生物信息学研究的一个有活力的新时代。不少科学家还说它是人类基因组研究的收获时代，它不仅将赋予人们各种基础研究的重要成果，也会带来巨大的经济效益和社会效益。在未来的几年中DNA序列数据将以意想不到的速度增长，这是一个难得的机会，我国应尽早利用这些数据就可能走在国际科学界的最前沿。[论文关键词]生物信息学生命科学[论文摘要]生物信息学是80年代以来新兴的一门边缘学科，信息在其中具有广阔的前景。伴随着人类基因组计划的胜利完成与生物信息学的发展有着密不可分的联系，生物信息学的发展为生命科学的发展为生命科学的研究带来了诸多的便利，对此作了简单的分析。一、生物信息学的产生21世纪是生命科学的世纪，伴随着人类基因组计划的胜利完成，与此同时，诸如大肠杆菌、结核杆菌、啤酒酵母、线虫、果蝇、小鼠、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。人类基因组以及其它模式生物基因组计划的全面实施，使分子生物数据以爆炸性速度增长。在计算机科学领域，按照摩尔定律飞速前进的计算机硬件，以及逐步受到各国政府重视的信息高速公路计划的实施，为生物信息资源的研究和应用带来了福音。及时、充分、有效地利用网络上不断增长的生物信息数据库资源，已经成为生命科学和生物技术研究开发的必要手段，从而诞生了生物信息学。二、生物信息学研究内容（一）序列比对比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法，以及在此基础上编写的比对软件包BALST和FASTA，可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似，但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法，缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。（二）结构比对比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。（三）蛋白质结构预测从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认（Threading）方法属于这一范畴。虽然经过30余年的努力，蛋白结构预测研究现状远远不能满足实际需要。（四）计算机辅助基因识别给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一，而且越来越重要。经过20余年的努力，提出了数十种算法，有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些，结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子，是个相当困难的问题，研究现状不能令人满意，仍有大量的工作要做。（五）非编码区分析和DNA语言研究在人类基因组中，编码部分进展总序列的3－5%，其它通常称为“垃圾”DNA，其实一点也不是垃圾，只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言，不仅体现在编码序列之中，而且隐含在非编码序列之中。三、生物信息学的新技术（一）Lipshutz(Affymetrix,Santaclara,CA,USA)描述了一种利用DNA探针阵列进行基因组研究的方法，其原理是通过更有效有作图、表达检测和多态性筛选方法，可以实现对人类基因组的测序。光介导的化学合成法被应用于制造小型化的高密度寡核苷酸探针的阵列，这种通过软件包件设计的寡核苷酸探针阵列可用于多态性筛查、基因分型和表达检测。然后这些阵列就可以直接用于并行DNA杂交分析，以获得序列、表达和基因分型信息。Milosavljevic(CuraGen,Branford,CT,USA)介绍了一种新的基于专用定量表达分析方法的基因表达检测系统，以及一种发现基因的系统GeneScape。为了有效地抽样表达，特意制作片段模式以了解特定基因的子序列的发生和冗余程度。他在酵母差异基因表达的大规模研究中对该技术的性能进行了验证，并论述了技术在基因的表达、生物学功能以及疾病的基础研究中的应用。（二）基因的功能分析Overton(UniversityofPennsylvaniaSchoolofMedicine,Philadelphia,PA,USA)论述了人类基因组计划的下一阶段的任务基因组水平的基因功能分析。这一阶段产生的数据的分析、管理和可视性将毫无疑问地比第一阶段更为复杂。他介绍了一种用于脊椎动物造血系统红系发生的功能分析的原型系统E-poDB，它包括了用于集成数据资源的Kleisli系统和建立internet或intranet上视觉化工具的bioWidget图形用户界面。EpoDB有可能指导实验人员发现不可能用传统实验方法得到的红系发育的新的药物靶，制药业所感兴趣的是全新的药物靶，EpoDB提供了这样一个机会，这可能是它最令人激动的地方。Babbitt(UniversityofCalifornia,SanFrancisco,CA,USA)讨论了通过数据库搜索来识别远缘蛋白质的方法。对蛋白质超家族的结构和功能的相互依赖性的理解，要求了解自然所塑造的一个特定结构模板的隐含限制。蛋白质结构之间的最有趣的关系经常在分歧的序列中得以表现，因而区分得分低（low-scoring）但生物学关系显著的序列与得分高而生物学关系较不显著的序列是重要的。Babbit证明了通过使用BLAST检索，可以在数据库搜索所得的低得分区识别远缘关系（distantrelationship）。Levitt(Stanforduniveersity,PaloAlto,CA,USA)讨论了蛋白质结构预测和一种仅从序列数据对功能自动模建的方法。基因功能取决于基因编码的蛋白质的三级结构，但数据库中蛋白质序列的数目每18个月翻一番。为了确定这些序列的功能，结构必须确定。同源模建和从头折叠（abinitiofolding）方法是两种现有的互为补充的蛋白质结构预测方法；同源模建是通过片段匹配（segmentmatching）来完成的，计算机程弃SegMod就是基于同源模建方法的。（三）新的数据工具Letovsky(JohnshopkinsUniversity,Baltimore,M