基因组测序技术和基因识别(完整版)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基因组测序技术和基因识别单击此处编辑母版标题样式单击此处编辑母版标题样式主要内容•一、基因组测序技术•二、基因识别单击此处编辑母版标题样式单击此处编辑母版标题样式一、基因组测序技术•大规模DNA测序技术使全基因组的测序成为可能。•现有测序仪所能测得的序列长度有限,一般500-1000bp。而基因组序列长度远大于此,必须经过下列过程才能测得:打碎测序拼接鸟枪法杂交测序法单击此处编辑母版标题样式单击此处编辑母版标题样式1、鸟枪法•鸟枪法(shotgunmethod),也称霰弹法。将DNA分子打碎,得到长度在500-1000bp之间的小片段,对这些片段测序,然后根据他们之间的关系进行拼接,得到最终目标序列。单击此处编辑母版标题样式单击此处编辑母版标题样式序列片段覆盖待测序列序列片段之间也存在着相互覆盖或者重叠。目标序列序列碎片单击此处编辑母版标题样式单击此处编辑母版标题样式拼接过程•以每个片段为顶点,在每个顶点之间画有向边,有向边的权值代表交叠的字符d得到三发送个数,方向由交叠序列前片段指向后片段。AGGTCCTAAAAGGTCCTAAAAGGTCCTAAAAGGTCCTAAA1341113单击此处编辑母版标题样式单击此处编辑母版标题样式拼接过程•查找能顺箭头方向依次经过各顶点的所有通路中权值之和最大的,即为拼接后的序列。1adbc,权值82bcad,权值73badc,权值54cadb,权值105dbca,权值8拼接结果:AGGTCCTAAA最大权的哈密顿路径问题(Hamiltontourproblem)AGGTCCTAAAAGGTCCTAAA1341113abcd单击此处编辑母版标题样式单击此处编辑母版标题样式2、杂交测序法•杂交测序法(sequencingbyhybridization,SBH)•基本原理是:构建基因微阵列(microarray,也称基因芯片,genechip),让待测序列与其反应,然后由反应获得的信息确定待测序列的局部序列,最后根据这些局部序列重构目标序列。•基因微阵列(microarray,也称基因芯片,genechip),将高密度DNA片段阵列以一定的排列方式使其附着在基片上而形成。单击此处编辑母版标题样式单击此处编辑母版标题样式AAATAGACTATTTGTCGAGTGGGCCACTCGCCAAATAGACTATTTGTCGAGTGGGCCACTCGCCGCACCTGAACTGCACT目标序列:CGTGACT互补序列:GCACTGA单击此处编辑母版标题样式单击此处编辑母版标题样式•由测出的局部序列:GCAC、ACTG、CTGA、CACT,可以重构目标序列的互补序列GCACTGA,从而得到目标序列CGTGACT。•可用求最大权值的哈密顿路径的方法求解。•也可用欧拉路径的方法求解,该算法较省时。单击此处编辑母版标题样式单击此处编辑母版标题样式3、拼接软件•Phred、Phrap、Consed•Sequencher•ContigExpress单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式1aggtcc2taaa3agg4tcctaaa单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式二、基因识别•基因组(genome)是指一个生物体、细胞或病毒的整套基因。•基因组学(genomics)以基因组分析为手段,研究基因组的构成、时序表达模式和功能,并提供有关生物物种及其细胞功能的进化信息。•功能基因组学研究基因和非编码序列生物学功能。•比较基因组学通过生物物种基因组之间的比较,研究基因的功能。单击此处编辑母版标题样式单击此处编辑母版标题样式•基因识别是识别DNA序列上的具有生物学特征的片段,是基因组研究的基础。•基因识别是生物信息学领域里的一个重要研究内容•基因识别问题,在近几年受到广泛的重视•当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的DNA序列单击此处编辑母版标题样式单击此处编辑母版标题样式1、原核基因识别原核基因特点:基因密度高、简单(绝大多数不含内含子)。其重点在于识别编码区域单击此处编辑母版标题样式单击此处编辑母版标题样式•非翻译区域(untranslatedregions,UTR)•编码区域两端的DNA,有一部分被转录,但是不被翻译,这一部分称为非翻译区域•5’UTR---基因上游区域的非翻译区域•3’UTR---基因下游区域的非翻译区域单击此处编辑母版标题样式单击此处编辑母版标题样式•对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。•例如,序列ATTCGATCGCAA•这三种阅读顺序称为阅读框(readingframes)CAAAATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)单击此处编辑母版标题样式单击此处编辑母版标题样式•一个开放阅读框(ORF,openreadingframe)是一个没有终止编码的密码子序列。•原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。单击此处编辑母版标题样式单击此处编辑母版标题样式基于基因密码子特性的识别方法•辨别编码区域与非编码区域的一种方法•是检查终止密码子的出现频率终止密码子出现的期望次数为:每21个(64/3)密码子出现一次终止密码子单击此处编辑母版标题样式单击此处编辑母版标题样式基本思想:•如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这段序列可能就是编码区域。•基本算法:•扫描给定的DNA序列,在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后,回头寻找起始密码子。•这种算法过于简单,不适合于处理短的ORF或者交叠的ORF。单击此处编辑母版标题样式单击此处编辑母版标题样式•识别编码区域的另一种方法是分析各种密码子出现的频率将一个随机均匀分布的DNA序列翻译成氨基酸序列,则在氨基酸序列中上述3种氨基酸出现的比例应该为6:4:1例如,亮氨酸、丙氨酸、色氨酸分别有6个、4个和1个密码子但是在真实的氨基酸序列中,上述比例并不正确这说明DNA的编码区域并非随机单击此处编辑母版标题样式单击此处编辑母版标题样式•假设在一条DNA序列中已经找到所有的ORF,那么可以利用密码子频率进一步区分编码ORF和非编码ORF•利用这种方法,可以计算一个ORF成为编码区域的可能性。单击此处编辑母版标题样式单击此处编辑母版标题样式基于编码区域碱基组成特征的识别方法•编码序列与非编码序列在碱基组成上有区别•单个碱基的组成比例•多个碱基的组成•通过统计分析识别编码序列单击此处编辑母版标题样式单击此处编辑母版标题样式2、真核基因识别问题真核基因远比原核基因复杂:•一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。•另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式基因识别基本思路•找出基因两端的功能区域:转录启动区终止区•在启动区下游位置寻找翻译起始密码子•识别转录剪切位点剪切给体位点剪切接受体位点单击此处编辑母版标题样式单击此处编辑母版标题样式•各种不同的方法有不同的适应面,而不同的方法有时可以结合起来以提高基因识别的准确率。•关键问题是如何提高一个识别算法的敏感性(sensitivity,Sn)和特异性(specificity,Sp)。单击此处编辑母版标题样式单击此处编辑母版标题样式3、基因识别的主要方法两大类识别方法:•从头算方法(或基于统计的方法)•根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域•基于同源序列比较的方法•利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。•最理想的方法是综合两大类方法的优点,开发混合算法。单击此处编辑母版标题样式单击此处编辑母版标题样式•基因识别方法有:(1)基于规则的系统(2)语义学方法(3)线性辨别分析(LDA)(4)决策树(5)动态规划(6)隐马尔柯夫模型(7)剪切对比排列(splicedalignment)单击此处编辑母版标题样式单击此处编辑母版标题样式4、基因识别程序介绍表5.7基因识别程序及访问地址(HP—主页;ES—E-mail服务器;WS—web服务器;CL—客户/服务器协议;EX—有可执行代码;SC—有源代码)单击此处编辑母版标题样式单击此处编辑母版标题样式表5.8各程序的性能比较(敏感性(1)—被预测出的真实编码核酸的%;敏感性(2)—被正确识别出的编码外显子的%;特异性(1)—预测出的编码核酸为真实编码核酸的%;特异性(2)—预测出外显子为真实外显子的%)单击此处编辑母版标题样式单击此处编辑母版标题样式Genscan访问:以核酸序列SEQ5作综合分析为例单击此处编辑母版标题样式单击此处编辑母版标题样式SEQ5•》seq5•1gaattccaggttggaggggcggcaacctcctgccagccttcaggccactctcctgtgcct61gccagaagagacagagcttgaggagagcttgaggagagcaggaaaggtggaacattgctg121ctgctgctcactcagttccacaggtgggaggaacagcagggcttagagtgggggtcattg181tgcagatgggaaaacaaaggcccagagaggggaagaaatgcctaggagctaccgagggca241ggcgacctcaaccacagcccagtgctggagctgtgagtggatgtagagcagcggaatatc301cattcagccagctcaggggaaggacaggggccctgaagccaggggatggagctgcaggga361agggagctcagagagaaggggaggggagtctgagctcagtttcccgctgcctgaaaggag421ggtggtacctactcccttcacagggtaactgaatgagagactgcctggaggaaagctctt481caagtgtggcccaccccaccccagtgacaccagcccctgacacgggggagggagggcagc541atcaggaggggctttctgggcacacccagtacccgtctctgagctttccttgaactgttg601cattttaatcctcacagcagctcaacaaggtacataccgtcaccatccccattttacaga661tagggaaattgaggctcggagcggttaaacaactcacctgaggcctcacagccagtaagt721gggttccctggtctgaatgtgtgtgctggaggatcctgtgggtcactcgcctggtagagc781cccaaggtggaggcataaatgggactggtgaatgacagaaggggcaaaaatgcactcatc841cattcactctgcaagtatctacggcacgtacgccagctcccaagcaggtttgcgggttgc901acagcggagcgatgcaatctgatttaggcttttaaaggattgcaat

1 / 54
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功