1第四章DNA与蛋白质序列分析2什么是序列分析?拿到一个基因/蛋白质序列,我能做什么?3在数据库中进行序列相似性搜索基因结构分析/启动子序列分析Motif的寻找与序列的模式识别(含亚细胞定位,跨膜区的预测等序列分析的内容-----为了功能的分析4序列比对第1节5序列的相似性相似性(similarity)是指一种很直接的数量关系。比如说,A序列和B序列的相似性是80%,或者4/5。这是个量化的关系。6序列的相似性相似性(similarity)通常在某些位点上有一些氨基酸被另外一些化学物理特性相近的氨基酸所代替,这种突变可称为保守突变。将保守突变的因素考虑在内,就可以对两序列的相似程度打分,所得分值即代表其相似的程度。7一致性(identity):两个蛋白质有一定数量的氨基酸在排比的位点上是相同的,即如果38个氨基酸的蛋白质中15个位点相同,我们说它们一致性为39.4%.MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG-------------PRNGTIKIYENPARTFTRPYSAKNITIYKEND8所以,相似性的数值一定比一致性的要()大or相等or小9同源性(homology):指从一些数据中推断出的两个基因或蛋白质序列具有共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。生物序列的同源性10相似性和同源性关系一般来说,序列间的相似性越高的话,它们是同源序列的可能性就更高。注意不要等价混用这两个名词。A序列和B序列的同源性为80%,记住这种说法是错误的!!1140PORCINE40HUMANConsensuscCCcCCaAAaAAtTTgGGgGGcCCaAAgGGaAAcCCcCCaAAgGGaAAgGGaAAaAAtTTgGGgGGaAAcCCaAAtTTtTTtTTcCCtTTtTTcCCaAAaAAcCCACaAAtTTcCCaAA80PORCINE80HUMANConsensusgGGtTTgGGaAAtTTtTTtTTcCCaAAtTTgGGtTTcCCcCCcCCcCCgGGgGGgGGTCGCcCCcCCaAAcCCcCCgGGaAAcCCcCCtTTCGcCCtTTCTtTTcCCcCCaAAgGG120PORCINE120HUMANConsensuscCCCTcCCCTcCCtTTGTgGGgGGCTaAAcCCcCCaAAgGGCTgGGgGGCTgGGtTTgGGgGGaAAtTTtTTgGGcCCaAAaAAcCCcCCgGGcCCaAAaAAaAAcCCgGGCG160PORCINE160HUMANConsensusaAAaAAGAgGGgGGcCCaAAgGGcCCtTTcCCcCCaAAcCCGTgGGaAAcCCtTTaAAcCCcCCaAAaAAgGGaAAaAAaAAgGGcCCaAAtTTgGGgGGaAAcCCaAAcCCaAAgGG200PORCINE200HUMANConsensusaAAcCCaAAaAAaAAgGGaAAtTTgGGaAAcCCcCCcCCtTTcCCaAAtTTgGGgGGaAAaAAgGGgGGtTTtTTaAAgGGaAAGAtTTaAACTaAAcCCaAAgGGaAAGAcCCaAA240PORCINE240HUMANConsensuscCCcCCaAAaAAgGGgGGaAAaAAgGGgGGaAAtTTCAaAAaAAaAAaAAaAAtTTgGGcCCCAaAAgGGgGGgGGaAAaAAgGGcCCtTTcCCaAAcCCaAAgGGtTTcCCaAAgGG280PORCINE280HUMANConsensusaAAtTTtTTgGGaAAaAAaAAaAAgGGACgGGgGGcCCgGGtTTcCCgGGgGGgGGaAAtTTaAAaAAGAaAAtTTgGGaAAaAAcCCaAAgGGtTTtTTtTTCTaAAtTTCAgGG320PORCINE320HUMANConsensusaAACTgGGaAAaAACTtTTgGGgGGcCCtTTtTTcCCtTTtTTtTTgGGgGGtTTaAAcCCcCCaAAaAAcCCGAtTTgGGcCCaAAaAAcCCgGGcCCGAaAAtTTgGGtTTcCC355PORCINE355HUMANConsensuscCCaAAgGGgGGaAAaAAaAAtTTtTTaAAgGGaAAtTTaAAaAAaAAcCCtTTtTTaAAcCCtTTgGGtTTgGGcCCtTTaAAaAAgGGgGGaAAtTTgGGgGGPorcineandhumanBmal1gene1240PIG40HUMANConsensuspPPmMMaAAdDDqQQrRRmMMdDDiIIsSSsSStTTiIIsSSdDDfFFmMMsSSpPPgGGAPtTTdDDlLLlLLsSSsSSPSlLLgGGtTTsSSgGGvVVdDDcCCnNNrRRkKKrRR80PIG80HUMANConsensuskKKgGGsSSsSStTTdDDyYYqQQeEEsSSmMMdDDtTTdDDkKKdDDdDDpPPhHHgGGrRRlLLeEEyYYtTTeEEhHHqQQgGGrRRiIIkKKnNNaAArRReEEaAAhHHsSSqQQ120PIG120HUMANConsensusiIIeEEkKKrRRrRRrRRdDDkKKmMMnNNsSSfFFiIIdDDeEElLLaAAsSSlLLvVVpPPtTTcCCnNNaAAmMMsSSrRRkKKlLLdDDkKKlLLtTTvVVlLLrRRmMMaAAvVV154PIG154HUMANConsensusqQQhHHmMMKRtTTlLLrRRgGGaAAtTTnNNpPPyYYtTTeEEaAAnNNyYYkKKpPPtTTfFFlLLsSSNDdDDeEElLLkKKhHHlLLiIIlLLrRRPorcineandhumanBmal1gene13复习-第1节序列比对判断题:1.A序列和B序列的相似性是80%.2.A序列和B序列的一致性为39.4%.3.A序列和B序列的同源性是80%.4.相似性的数值一定比一致性的要大.5.两序列间的相似性越高,它们的同源性就越高.14第2节Blast的应用15Blast简介BLAST是基于序列相似性的数据库搜索程序。BLAST是“局部相似性基本查询工具”(BasicLocalAlignmentSearchTool)的缩写。16Blast程序评价序列相似性的两个数据Score:使用打分矩阵对匹配的片段进行打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。Evalue:氨基酸残基(或碱基)随机排列得到上述Score值的概率的大小。E值越小表示越匹配。E=0表示完全配对,不存在随机配对。17主要的blast程序程序名查询序列数据库搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸蛋白质核酸序列翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。Tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列翻译后的蛋白质序列逐一比对。TBlastx核酸核酸核酸序列翻译成蛋白质序列,再和核酸数据库中的核酸序列翻译成的蛋白质序列逐一进行比对。18检索中采用的数据库类别:蛋白数据库:nr:无冗余数据库,汇集了GenBank中所有的蛋白序列+PDB+Swissprot+PIR等汇集;20BLAST检索中采用的数据库类别:核酸数据库:nr/nt:无冗余数据库,汇集了GenBank+DDBJ+EMBL中所有的核甘酸序列(不包括EST)21BLAST的应用22具体步骤1.登陆blast主页根据数据类型,选择合适的程序3.填写表单信息4.提交任务5.查看和分析结果232425262728提高期望阈值(Expectthreshold);降低延伸种子序列的长度(wordsize)主要用途:搜索短的基序,如验证PCR引物的特异性29Blastn---130Blastn---131Blastn---1Blastn1的作用:①对于已知的基因,可以分析其相似基因;②对于未知的基因片段,可以分析其属于什么基因。32Blastn---133Blastn---134Blastn---2WhatisEST?35Blastn---236Blastn---2有什么作用?对于新基因,可以了解基因的结构特征,5-UTR和3-UTR的大小.37Blastp38Blastp39Blastp40Blastp41Blastp42Blastp43BlastpBlastp的作用:①对于已知的蛋白,可以分析其相似蛋白;②对于未知的蛋白片段,可以分析其属于什么蛋白。44具体步骤1.登陆blast主页根据数据类型,选择合适的程序3.填写表单信息4.提交任务5.查看和分析结果4546rice47484950Blastx51Blastx52Blastx53BlastxBlastx:分析你的基因编码什么产物?分析你的基因是否是新基因?54Blastx55tBlastn56tBlastn57tBlastntBLASTn的作用:1.已知一种蛋白序列,在另一物种中进行其同源蛋白基因的电子克隆(insilicocloning);2.寻找一个新的蛋白质序列(如双向电泳得到的)是否已有核酸序列,是否可以克隆?58Blastx当Blastx没有结果时,可以考虑使用。59第一节序列比对第二节Blast应用第三节序列功能分析60序列分析的目的是什么?--为了功能的分析--拿到一个基因/蛋白质序列,我能做什么?61序列组成/分子量/等电点---初级分析酶切位点分析(载体构建)基因结构分析/启动子序列分析序列功能分析的内容62Part1.初级序列分析序列的组成/分子量/等电点分析63酶切位点分析只要进行基因工程利用必须用到各种限制性内切酶如GGATCCBamHI66进行酶切位点分析的时候,对于构建载体,我们需要知道的信息是你的序列中有/没有某个酶的位点?为什么?如果答案是“有”,是什么情况?“没有”又是什么情况?PlasmidvectorSacIXbaIHindIIIHindIIIXbaICloningsiteSacI67Part3.基因结构分析/启动子序列分析681)基因结构分析:了解基因的内含子/外显子排列方式;例子1:水稻6PGDH基因进化分析的结果表明其可能来源于内共生(基因结构分析表明其没有内含子).例子2:NHX基因691)基因结构分析:GenomicDNAcDNA70用softberry预测基因结构=fgenesh&group=programs&subgroup=gfind71什么是HMM?HiddenMarkovModels(HMMs,隐马尔可夫模型)最早是在上个世纪60年代末70年代初提出来的一种概率论模型。进入80年代以后,逐渐被利用在各个领域。主要的应用领域:语音识别系统。生物学中的DNA/protein序列的分析。机器人的控制。文本文件的信息提取。72什么是HMM?对于给定的核苷酸序列,我们在位置p处出现的概率依赖于它后核苷酸序列。即任何一个核苷酸的出现并不是完全独立的。对于基因识别而言,HMM可以分为2种:按内容搜索:即根据核苷酸和