第三章-序列特征分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

生物信息学第三章序列特征分析天津医科大学王举第三军医大学邹凌云生物信息学第一节引言Section1Introduction一、基因结构基因的概念是随着遗传学、分子生物学、生物化学等领域的发展不断完善的。从分子生物学角度来看,基因是负载特定生物遗传信息的DNA分子片段,在一定的条件下能够表达这种遗传信息,产生特定的生理功能。原核生物基因结构一个完整的原核基因结构是从基因的5'端启动子区域开始,到3'端终止区域结束。基因的转录开始位置由转录起始位点确定,转录过程直至遇到转录终止位点结束,转录的内容包括5'端非翻译区、开放阅读框及3'端非翻译区。基因翻译的准确起止位置由起始密码子和终止密码子决定,翻译的对象即为介于这两者之间的开放阅读框ORF。原核基因的结构操纵子模型结构原核生物大多数基因表达调控是通过操纵子机制实现的。所谓操纵子通常由调节基因、启动子、操纵基因以及2个以上的编码序列(结构基因)在原核生物基因组中成簇串联组成。其中结构基因的表达受到操纵基因的调控。调节基因能产生作用于操纵基因的阻遏物(一种蛋白质),操纵基因靠近它所控制的结构基因,阻遏物与操纵基因的结合能阻止结构基因的转录。操纵子模型结构真核生物基因结构一个完整的真核生物基因,不但包括编码区域,还包括5'端和3'端两侧长度不等的特异性序列,虽然这些序列不编码氨基酸,却在基因表达的过程中起着重要的作用。所以,严格的“基因”这一术语的分子生物学定义是:产生一条多肽链或功能RNA所必需的全部核苷酸序列。真核基因的结构二、蛋白质结构蛋白质是一种生物大分子,蛋白质中相邻的氨基酸通过肽键形成一条伸展的肽链,这条链称为蛋白质的一级结构,不同蛋白质其肽链的长度不同,肽链中不同氨基酸的组成和排列顺序也各不相同。肽链上的氨基酸残基形成局部的二级结构,各种二级结构在空间卷曲折叠形成特定的三维空间结构。有的蛋白质由多条肽链组成,每条肽链称为亚基,亚基之间又有特定的空间关系,称为蛋白质的四级结构。蛋白质的一级结构蛋白质的一级结构决定二级结构蛋白质的二级结构决定三级结构蛋白质的二级结构H表示螺旋E表示折叠B表示β桥G表示3-螺旋I表示π螺旋T表示氢键转角S代表转向蛋白质空间结构蛋白质的生物学功能在很大程度上取决于蛋白质的空间结构,但蛋白质的空间结构又取决于蛋白质一级结构中的氨基酸组成和排列顺序,蛋白质结构构象多样性导致了不同的生物学功能。蛋白质分子只有处于它自己特定的空间结构情况下,才能获得它特定的生物活性,空间结构稍有破坏,就很可能会导致蛋白质生物活性的降低甚至丧失,因为它们的特定的结构允许它们结合特定的配体分子。知道了基因密码,科学家们可以推演出组成某种蛋白质的氨基酸序列,却无法绘制蛋白质空间结构。因而,揭示人类每一种蛋白质的空间结构,已成为后基因组时代的制高点,这也是结构基因组学的基本任务。蛋白质空间结构对DNA序列和蛋白质序列进行序列特征分析,能够使我们从分子层次上了解基因的结构特点,了解与基因表达调控相关的信息,了解DNA序列与蛋白质序列之间的编码,了解蛋白质序列与蛋白质空间结构之间的关系和规律,为进一步研究了解蛋白质功能与蛋白质结构之间的关系提供理论依据。第二节DNA序列特征分析Section2AnalysisofDNASequenceCharacteristics分析DNA序列,除了进行序列比对之外,更重要的工作是从序列中找到基因及其表达调控信息。寻找基因的工作有两个:一是识别与基因相关的特殊序列信号,如启动子、起始密码子,通过信号识别大致确定基因所在的区域;二是预测基因的编码区域,或预测外显子所在的区域。在此基础上,结合两个方面的结果确定基因的位置和结构。绝大部分基因表达调控信息隐藏在基因序列的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。一、DNA序列的基本信息DNA分子的物理及化学性质主要取决于其序列中四种碱基的组成。碱基组成有两种方法表示,即碱基比例(baseratio)和GC百分比含量(简称GC含量,GCcontent)。1.DNA序列组分分析GC含量是基因组的特征之一基因的不同部分GC含量不同2.序列转换DNA序列具有双链性、双链互补性及开放阅读框在两条链上存在等特性,因此进行序列分析时,经常需要针对DNA序列进行各种转换,例如:•反向序列•互补序列•互补反向序列序列转换可使用的软件有:DNASTARBioEditDNAMAN等。3.限制性内切酶酶切位点分析限制性内切酶切割位点的黏性末端限制性内切酶切割位点的平滑末端限制性内切酶切割位点的数据库和分析工具常用内切酶的资源是限制酶数据库(RestrictionEnzymedataBase,REBASE;),它收录了内切酶的识别序列和切割位点、甲基化酶、甲基化特异性、酶类产品的商业来源及相关参考文献等信息。限制性内切酶位点分析常用的工具是NEBCutter2,可接收DNA序列并产生酶切位点分析结果。二、DNA序列的特征信息1.ORF识别ORF分析方法及工具ORFvs.CDS2.密码子偏好性分析密码子使用偏性是指生物体中编码同一种氨基酸的同义密码子的非均匀使用现象。这一现象的产生与诸多因素有关,如基因的表达水平、翻译起始效应、基因的碱基组分、某些二核苷酸的出现频率、G+C含量、基因的长度、tRNA的丰度、蛋白质的结构及密码子-反密码子间结合能的大小等。所以对密码子使用偏好性的分析具有重要的生物学意义。利用CodonW分析密码子偏好性CodonW是美国DEC公司开发的对密码子的使用进行分析的免费的软件工具。此软件是建立在大量的统计学分析的基础上,为了简化在线分析的复杂性而开发的,它可以在Windows环境下运行,并且可以同时处理2000条以上的序列。通过对DNA或RNA序列的分析,CodonW会产生关于密码子使用的相关指标的统计学分析的数据,我们可以利用这些数据对我们所要了解的序列进行分析。其下载网址为:。CodonW1.4主菜单的操作页面11个密码子使用的指标序号全称缩写1234567891011CodonAdaptationIndexFrequencyofOptimalCodonsCodonBiasIndexTheeffectivenumberofcodonsG+CcontentofthegeneG+Ccontentat3rdpositionofsynonymouscodonsSilentbasecompositionNumberofsilentsitesandaminoacidsHydrophobicityofproteinAromaticityscoreCAIFopCBIENcG+CGC3sLSilLAAGRAVYAromowaxy基因的序列序号Genebank登陆号物种基因功能1234567AY094405AF486514X03935X62134X88789U23945X57233ArabidopsishalianaHordeumvulgareZeamaysO.sativaP.sativumSorghumbicolorWheatgranuleboundstarchsynthaseImRNAgranuleboundstarchsynthaseImRNAglucosyltransferasegranuleboundstarchsynthaseImRNAmRNAforstarchsynthasegranule-boundstarchsynthaseprecursor(Wx)mRNAwaxymRNAforgranule-boundstarchsynthase用CodonW分析waxy基因所得的RSCU值和个数三、基因组结构注释分析1.重复序列分析重复序列的数据库及分析工具2.基因识别方法基因识别的方法基因识别可以利用的序列信息原核生物基因识别原核生物基因的特征比较明确,基因识别比较容易,且精度较高常用的算法有:GeneMarkS://ccb.jhu.edu/software/glimmer/index.shtml利用GENSCAN识别真核生物基因GENSCAN是美国麻省理工学院的ChrisBurge于1997年开发成功的人类(或脊椎动物)基因预测软件,它是根据基因组DNA序列来预测开放阅读框及基因结构信息的开放式在线资源,尤其适用于脊椎动物、拟南芥和玉米等真核生物。GENSCAN的网址为:http://genes.Mit.edu/GENSCAN.htmlGENSCAN在线操作页面用GENSCAN预测AC002390序列的基因/外显子用GENSCAN预测AC002390序列的基因/外显子的位置图起始外显子终止外显子第三节蛋白质序列特征分析Section3ProteinSequenceCharacterAnalysis蛋白质是组成生物体的基本物质,是生命活动的主要承担者,一切生命活动都与蛋白质有关。虽然遗传信息的携带者是核酸,但遗传信息的传递和表达不仅要在酶的催化之下,并且也是在各种蛋白质的调节控制下进行的。因此,分析处理蛋白质序列数据的重要性并不亚于分析DNA序列数据。蛋白质的生物功能由蛋白质的结构所决定,因此在研究蛋白质的功能时需要了解蛋白质的空间结构。目前,一种基本认可的假设是:蛋白质的空间结构由蛋白质序列所决定,即我们可以根据蛋白质序列预测蛋白质结构,这是第二遗传密码的问题,也是一个更为复杂的问题,因为蛋白质序列和蛋白质空间结构之间的关系要比DNA序列和蛋白质序列之间的关系复杂得多。因此我们需要分析大量的数据,从中找出蛋白质序列和蛋白质结构间存在的关系和规律。一、蛋白质的理化性质蛋白质是由氨基酸组成的大分子化合物,对组成蛋白质的氨基酸进行理化性质的统计分析是对一个未知蛋白质进行分析的基础。蛋白质的理化性质包括蛋白质的分子量、氨基酸的组成、等电点、消光系数、亲水性和疏水性、跨膜区、信号肽、翻译后修饰位点等。利用ProtParam分析蛋白质的理化性质ExPASy(ExpertProteinAnalysisSystem)是由瑞士生物信息学中心维护,并与欧洲生物信息学中心(EBI)及蛋白质信息资源(proteininformationresource,PIR)组成UniversalProteinKnowledgebase联盟。ExPASy数据库提供了一系列蛋白质理化分析工具,以便于检索未知蛋白质的理化性质,并基于这些理化性质鉴别未知蛋白质的类别,为后续实验提供帮助。其中ProtParam(physico-chemicalparametersofaproteinsequence)就是计算氨基酸理化参数常用的在线工具。其网址为:在线页面用ProtParam分析G00016序列理化性质的结果二、蛋白质的亲水性或疏水性氨基酸通常被分为三类:1.疏水氨基酸(hydrophobicaminoacid),其侧链大部分或者全部由碳原子和氢原子组成,因此这类氨基酸不太可能与水分子形成氢键;蛋白质的基本组成单元是氨基酸。2.极性氨基酸(polaraminoacid),其侧链通常由氧原子或氮原子组成,它们比较容易与水分子形成氢键,因此也称为亲水氨基酸;3.带电氨基酸(chargedaminoacid),这类氨基酸在生物pH环境中带有正电或负电。蛋白质的亲水性或疏水性氨基酸的亲疏水性是构成蛋白质折叠的主要驱动力,一般通过亲水性分布图(hydropathyprofile)反映蛋白质的折叠情况。蛋白质折叠时会形成疏水内核和亲水表面,同时在潜在跨膜区出现高疏水值区域,据此可以测定跨膜螺旋等二级结构和蛋白质表面氨基酸分布。利用ProtScale分析蛋白

1 / 182
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功