第五章核酸序列分析生物科学与技术学院基因结构及功能的预测和分析PromoterEnhancerTerminatorRegulatoryelementGCboxCAATboxTATAboxPribnowbox-35regionExonExonIntronORF一、核苷酸频率分析(单链)核苷酸频率:对于一个给定的基因组,最简单的计算就是统计DNA序列中各类核苷酸出现的频率。对于随机分布的DNA序列来说,每种核苷酸的出现是均匀分布的,即出现频率各为0.25。而真实基因组的核苷酸分布则是非均匀的,如酵母基因组核苷酸出现频率如下左表。单双链的区别:同时计算DNA的正反两条链,根据碱基配对原则,A和T、G和C的出现频率应该是相同的。但实际上A和T、G和C的出现频率不同,但是却非常接近,如酵母单链核苷酸出现频率如下右表。核苷酸频率A0.325T0.325G0.175C0.175核苷酸频率A0.344T0.343G0.157C0.155(单链)核苷酸频率同时计算DNA的正反两条链核苷酸频率例:(单链)核苷酸频率核苷酸频率ATGC核苷酸关联性分析-双联核苷酸频率:▪不同基因组中两个连续核苷酸出现的频率也是不相同的▪4种核苷酸可以组合成16种两联核苷酸核苷酸对频率AA0.1193400681800AC0.0520605330203AG0.0558517890546AT0.0975313373925CA0.0583060967492CC0.0325646199051CG0.0283909584052CT0.0558517890546GA0.0557622179282GC0.0348050746970GG0.0325646199051GT0.0520605330203TA0.0915019798308TC0.0557622179282TG0.0583060967492TT0.1193400681800酵母基因组两联核苷酸频率表设:Pij代表两联核苷酸(i,j)的出现频率;Pi代表核苷酸i的出现频率则:Sij=Pij/(PiPj),Sij反应了核苷酸i和j的关联关系,若Sij=1,则在两个连续的位置上,核苷酸i和j的出现是相对独立的。若Sij1,则两个连续位置上,核苷酸i和j的出现是相关的。如:酵母基因组P(A)=0.3248,P(AA)=0.1193,则S(AA)=0.1193/(0.32482×0.32482)=1.1311,这表明在两个连续位置上“A”的出现不是独立的,而是相关的。6三联核苷酸频率–基因密码子▪常常需要对三联核苷酸进行统计分析,这实际上是分析密码子的使用偏性。▪密码子用法:在基因中,同义密码子用法(如出现频率等)并不是完全一致的,不同物种、不同个体的密码子用法存在差异。▪蛋白三级结构、功能与密码子用法有关。▪通过聚类分析(clusterAnAlysis),发现具有相似三级结构蛋白的编码基因大致聚在同一类中,对于同一类型的基因,由物种引起的同义密码子使用偏性的差异较小。AAACAAGAATAAAACCACGACTACAAGCAGGAGTAGAATCATGATTATACACCAGCATCAACCCCCGCCTCCACGCCGGCGTCGACTCCTGCTTCTAGACGAGGATGAAGCCGCGGCTGCAGGCGGGGGTGGAGTCGTGGTTGTATACTAGTATTAATCCTCGTCTTCATGCTGGTGTTGATTCTTGTTTTT密码子的简并(degenerAcy):氨基酸都对应2种以上密码子(M,W除外),最多有6种对应的密码子。氨基酸有20~21种,三联核苷酸有43=64种。氨基酸密码子IATT,ATC,ATALCTT,CTC,CTA,CTG,TTA,TTGVGTT,GTC,GTA,GTGFTTT,TTCMATGCTGT,TGCAGCT,GCC,GCA,GCGGGGT,GGC,GGA,GGGPCCT,CCC,CCA,CCGTACT,ACC,ACA,ACGSTCT,TCC,TCA,TCG,AGT,AGCYTAT,TACWTGGQCAA,CAGNAAT,AACHCAT,CACEGAA,GAGDGAT,GACKAAA,AAGRCGT,CGC,CGA,CGG,AGA,AGG*TAA,TAG,TGA20种氨基酸的密码子表二、密码子偏好性分析密码子使用偏好(CodonusAgebiAs):不同生物常常偏好使用编码同一个氨基酸的多个密码子中的一个;偏好的产生是一个分子进化的争论热点,一般认为密码子偏好反映了变异偏好和自然选择的平衡,在生长快的微生物中,如大肠杆菌和酵母,偏好反映了该物种tRNA的组成;偏好的密码子往往翻译更快更精确,研究tRNA进化较少。异常起始密码子GUGUUGAUAAcinetobactercalcoaceticus,乙酸钙不动杆菌Alcaligeneseutrophus,真养产碱杆菌Bacillusamyloliquefaciens,解淀粉芽孢杆菌Bacillusbrevis,短芽孢杆菌Agrobacteriumrhizogenes,发根土壤杆菌Bacilluscereus,蜡样芽孢杆菌Clostridiumacetobutylicum,丙酮丁醇梭菌Escherichiacoli,大肠埃希氏菌Strephylococcusaureus,金黄色葡萄球菌Escherichiacoli,大肠埃希氏菌Sequence=“ATGAGTCTTCTAACCGAGGTCGAAACGTACGTTCTCTCTATCATCCCGTCAGGCCCCCTCAAAGCCGAGATCGCGCAGAAACTTGAAGATGTCTTTGCAGGGAAGAACACCGATCTCGAGGC”Translation(StandardGeneticCode)=“MSLLTEVETYVLSIIPSGPLKAEIAQKLEDVFAGKNTDLE”Translation(PlantMitochondrialCode)=“MSLLTEVETYVLSIIPSGPLKTEIAQKLEDVFAGKNTDLE”Translation(VertebrateMitochondrialCode)=“MSLLTEVETTVLSIIPSGPLKAEIAQKLEDVFAGKNTDLE”例密码子使用偏好性分析工具(在线):CodonUsageDatabaseCodonUsageAnalyzerCodonW密码子分析数据库:CodonUsageDatabase查询物种名称CodonUsageDatabase查询结果CodonUsageAnalyzer含量(GCcontent):是基因组的基本参数,即DNA分子或基因组中GC碱基对所占的比例,通常用百分比表示,如15~75%。物种的GC含量存在两头少中间多的正态分布情况。GC含量可用分光计测量,DNA的解链温度(解链时260nm光的吸收率猛增),因GC间为3个氢键,因此,(超)嗜热菌GC含量高(GC-rich)。GC含量被用于分类学,也对PCR重要,一般基因内GC含量高于基因组,外显子高于内含子(原因不明)。三、GC含量分析ATGGTGAGCAAGGGCGAGGAGCTGTTCACCGGGGTGGTGCCCATCCTGGTCGAGCTGGACGGCGACGTAAACGGCCACAAGTTCAGCGTGTCCGGCGAGGGCGAGGGCGATGCCACCTACGGCAAGCTGACCCTGAAGTTCATCTGCACCACCGGCAAGCTGCCCGTGCCCTGGCCCACCCTCGTGACCACCCTGACCTACGGCGTGCAGTGCTTCAGCCGCTACCCCGACCACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGCGCACCATCTTCTTCAAGGACGACGGCAACTACAAGACCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAGCTGAAGGGCATCGACTTCAAGGAGGACGGCAACATCCTGGGGCACAAGCTGGAGTACAACTATotalbases=437A=98[A]=22.43%C=141[C]=32.27%T=66[T]=15.10%G=132[G]=30.21%A+T=164[A+T]=37.53%C+G=273[C+G]=62.47%ORF(Openreadframe):开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。例如,对于序列ATTCGATCGCAA,一种可能的密码子阅读顺序为ATT、CGA、TCG、CAA,另外两种可能的密码子阅读顺序分别为A、TTC、GAT、CGC、AA和AT、TCG、ATC、GCA、A。这三种顺序被称为开放阅读框。实现方法:①扫描给定的DNA序列,在3个不同的阅读框中寻找较长的ORF。②当遇到终止密码子后,回头寻找起始密码子,以确定完整的编码区域。四、开放阅读框分析基因开放阅读框/基因结构分析识别工具Getorf通用Plotorf通用ORFFinder通用BestORF真核GENSCAN脊椎、拟南芥、玉米GeneFinder人、小鼠、拟南芥、酵母FGENESH真核GeneMark原核GLIMMER://原核FgeneSB细菌FgeneSV病毒Generation原核FGENESH+原核GenomeScan脊椎、拟南芥、玉米GeneWise人、蠕虫GRAIL人、小鼠、拟南芥、果蝇例:胰岛素由A、B两个肽链组成。人胰岛素(InsulinHuman)A链有11种21个氨基酸,B链有15种30个氨基酸,共16种51个氨基酸组成。Accession:NM_000207“AGCCCTCCAGGACAGGCTGCATCAGAAGAGGCCATCAAGCAGATCACTGTCCTTCTG