生物信息学的内容及发展

桃花扇♂
1 ℃
2019-12-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

生物信息学的内容及发展学生：XXX（X学院XXX班，学号：XXXXXXXXXXXXX）摘要：生物信息学(Bioinformatics)是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科，最初常被称为基因组信息学。广义地说，生物信息学是用数理和信息科学的理论、技术和方法去研究生命现象、组织和分析呈现指数增长的生物数据的一门学科。伴随着人类基因组计划的胜利完成，生物信息学的作用愈显重要。关键字：生物信息学；科学技术；内容；发展生物信息学以计算机为其主要工具，发展各种软件，对逐日增长的浩如烟海的DNA和蛋白质的序列和结构进行收集、整理、储存、发布、提取、加工、分析和研究，目的在于通过这样的分析逐步认识生命的起源、进化、遗传和发育的本质，破译隐藏在DNA序列中的遗传语言，揭示生物体生理和病理过程的分子基础，为探索生命的奥秘提供最合理和有效的方法或途径。生物信息学已经成为生物医学、农学、遗传学、细胞生物学等学科发展的强大推动力量，也是药物设计、环境监测的重要组成部分。一、生物信息学的定义与定位生物信息学（Bioinformatics）是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学（Genomics）和蛋白质组学（Proteomics）两方面，具体说就是从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。生物信息学是在大分子方面的概念型的生物学，并且使用了信息学的技术，这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法，并以此在大尺度上来理解和组织与生物大分子相关的信息。（Luscombe,2001)具体而言，生物信息学作为一门新的学科领域，它是把基因组DNA序列信息分析作为源头，在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学，蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看，生物信息学应包括这3个主要部分：⑴新算法和统计学方法研究；⑵各类数据的分析和解释；⑶研制有效利用和管理数据新工具。生物信息学是一门利用计算机技术研究生物系统之规律的学科。目前的生物信息学基本上只是分子生物学与信息技术（尤其是因特网技术）的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据，其研究工具是计算机，研究方法包括对生物学数据的搜索（收集和筛选）、处理（编辑、整理、管理和显示）及利用（计算、模拟）。二、生物信息学的研究内容和方向生物信息学的主要研究内容：基因组学-蛋白质组学-系统生物学-比较基因组学，1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议，生物信息学发展到了计算生物学、计算系统生物学的时代。以通俗的语言阐述其核心应用即是：随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展，由此产生的包括生物体生老病死的生物数据以前所未有的速度递增，目前已达到每14个月翻一番的速度。同时随着互联网的普及，数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取，是生物信息学产业发展的初级阶段，这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。生物信息学在短短十几年间，已经形成了多个研究方向，以下简要介绍一些主要的研究重点。（一）序列比对序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看，这一问题包含了以下几个意义：从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据中决定物理和基因图存贮，遍历和比较数据库中的DNA序列，比较两个或多个序列的相似性，在数据库中搜索相关序列和子序列，寻找核苷酸的连续产生模式，找出蛋白质和DNA序列中的信息成分。序列比对考虑了DNA序列的生物学特性，如序列局部发生的插入，删除（前两种简称为indel）和替代，序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和，对齐的方法包括全局对齐，局部对齐，代沟惩罚等。两个序列比对常采用动态规划算法，这种算法在序列长度较小时适用，然而对于海量基因序列（如人的DNA序列高达10^9bp），这一方法就不太适用，甚至采用算法复杂性为线性的也难以奏效。因此，启发式方法的引入势在必然，著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的。（二）蛋白质结构比对和预测基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的，一般认为，具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链，长度从50到1000~3000AA（AminoAcids），蛋白质具有多种功能，如酶，物质的存贮和运输，信号传递，抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为，蛋白质有四级不同的结构。研究蛋白质结构和预测的理由是：医药上可以理解生物的功能，寻找dockingdrugs的目标，农业上获得更好的农作物的基因工程，工业上有利用酶的合成。直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留，同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应（不一定全真），物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模（homologymodeling）和指认（Threading）方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构（超过30%氨基酸相同），后者则用于比较进化族中不同的蛋白质结构。然而，蛋白结构预测研究现状还远远不能满足实际需要。（三）基因识别非编码区分析研究基因识别的基本问题是给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置。（四）分子进化和比较基因组学分子进化是利用不同物种中同一基因序列的异同来研究生物的进化，构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做，甚至于可通过相关蛋白质的结构比对来研究分子进化，其前提假定是相似种族在基因上具有相似性。通过比较可以在基因组层面上发现哪些是不同种族中共同的，哪些是不同的。（五）序列重叠群（Contigs）装配根据现行的测序技术，每次反应只能测出500或更多一些碱基对的序列，如人类基因的测量就采用了短枪（shortgun）方法，这就要求把大量的较短的序列全体构成了重叠群（Contigs）。逐步把它们拼接起来形成序列更长的重叠群，直至得到完整序列的过程称为重叠群装配。从算法层次来看，序列的重叠群是一个NP-完全问题。（六）基于结构的药物设计人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构，功能，相互作用以及与各种人类疾病之间的关系，寻求各种治疗和预防方法，包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性，在已知其蛋白质3级结构的基础上，可以利用分子对齐算法，在计算机上设计抑制剂分子，作为候选药物。这一领域目的是发现新的基因药物，有着巨大的经济效益。（七）生物系统的建模和仿真随着大规模实验技术的发展和数据累积，从全局和系统水平研究和分析生物学系统，揭示其发展规律已经成为后基因组时代的另外一个研究热点-系统生物学。（八）生物信息学技术方法的研究生物信息学不仅仅是生物学知识的简单整理和数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难，需要像非参数统计（BMCBioinformatics，2007，339）、聚类分析（QualLifeRes，2007，1655-63）等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘（partialleastsquares，PLS）等特征空间的压缩技术。在计算机算法的开发中，需要充分考虑算法的时间和空间复杂度，使用并行计算、网格计算等技术来拓展算法的可实现性。（九）其他如基因表达谱分析，代谢网络分析；基因芯片设计和蛋白质组学数据分析等，逐渐成为生物信息学中新兴的重要研究领域；在学科方面，由生物信息学衍生的学科包括结构基因组学，功能基因组学，比较基因组学，蛋白质学，药物基因组学，中药基因组学，肿瘤基因组学，分子流行病学和环境基因组学，成为系统生物学的重要研究方法。从现在的发展不难看出，基因工程已经进入了后基因组时代。我们也有应对与生物信息学密切相关的如机器学习，和数学中可能存在的误导有一个清楚的认识。三、生物信息学的发展及挑战生物信息学是建立在分子生物学的基础上的，因此，要了解生物信息学，就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始，1866年孟德尔从实验上提出了假设：基因是以生物成分存在，1871年Miescher从死的白细胞核中分离出脱氧核糖核酸（DNA），在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前，人们仍然认为染色体蛋白质携带基因，而DNA是一个次要的角色。1944年Chargaff发现了著名的Chargaff规律，即DNA中鸟嘌呤的量与胞嘧定的量总是相等，腺嘌呤与胸腺嘧啶的量相等。与此同时，Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年JamesWatson和FrancisCrick在Nature杂志上推测出DNA的三维结构（双螺旋）。DNA以磷酸糖链形成发双股螺旋，脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对。这个模型表明DNA具有自身互补的结构，根据碱基对原则，DNA中贮存的遗传信息可以精确地进行复制。他们的理论奠定了分子生物学的基础。DNA双螺旋模型已经预示出了DNA复制的规则，Kornberg于1956年从大肠杆菌（E.coli）中分离出DNA聚合酶I（DNApolymeraseI），能使4种dNTP连接成DNA。DNA的复制需要一个DNA作为模板。Meselson与Stahl(1958）用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律，DNA是合成RNA的模板，RNA又是合成蛋白质的模板，称之为中心法则（Centraldogma），这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963）的努力研究，编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆（clone）奠定了基因工程的技术基础。正是由于分子生物学的研究对生命科学的发展有巨大的推动作用，生物信息学的出现也就成了一种必然。2001年2月，人类基因组工程测序的完成，使生物信息学走向了一个高潮。由于DNA自动测序技术的快速发展，DNA数据库中的核酸序列公共数据量以每天106bp速度增长，生物信息迅速地膨胀成数据的海洋。毫无疑问，我们正从一个积累数据向解释数据的时代转变，数据量的巨大积累往往蕴含着潜在突破性发现的可能，生物信息学正是从这一前提产生的交叉学科。粗略地说，该领域的核心内容是研究如何通过对DNA序列的统计计算分析，更加深入地理解DNA序列，结构，演化及其与生物功能之间的关系，其研究课题涉及到分子生物学，分子演化及结构生物学，统计学及计算机科学等许多领域。生物信息学是内涵非常丰富的学科，其核心是基因组信息学，包括基因组信息的获取，处理，存储，分配和解释。基因组信息学的关键是读懂基因组的核苷酸顺序，即全部基因在染色体上的确切位置以及各DNA片段的功能；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也