第二章第三节生物信息学与蛋白质结构预测本章内容提要1.生物信息学概述2.序列的采集、存储和查询3.BLAST检索和蛋白质序列比对、基本性质分析4.数据库5.蛋白质二级结构预测6.蛋白质三级结构预测生物信息学概述什么是生物信息学?(1)定义一:生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科(Bioinformaticsisanewsubjectofgeneticdatacollection,analysisanddisseminationtotheresearchcommunity)。(Dr.HwaA.Lim,1987)定义二:生物信息学特指数据库类的工作,包括持久稳固的在一个稳定的地方提供对数据的支持(Bioinformaticsreferstodatabase-likeactivities,involvingpersistentsetsofdatathataremaintainedinaconsistentstateoveressentiallyindefiniteperiodsoftime)。(Dr.HwaA.Lim,1994)定义三:生物信息学是在大分子方面的概念型的生物学,并且使用了信息学的技术,这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来理解和组织与生物大分子相关的信息。(Luscombe,2001)什么是生物信息学?(2)Biologyinthe21stcenturyisbeingtransformedfromapurelylab-basedsciencetoaninformationscienceaswell.fromNCBI’sscienceprimerBioinformaticsisthefieldofscienceinwhichbiology,computerscience,andinformationtechnologymergeintoasinglediscipline.Theultimategoalofthefieldistoenablethediscoveryofnewbiologicalinsightsaswellastocreateaglobalperspectivefromwhichunifyingprinciplesinbiologycanbediscerned.广义生物信息学观点Biologymaybeviewedasthestudyoftransmissionofinformation:frommothercelltodaughtercell,fromonecellortissuetypetoanother,fromonegenerationtothenext,andfromonespeciestoanother.Thisinformationalviewpointistermedbioinformatics生物学研究可以被看成是研究信息的传递:从DNA经转录翻译到蛋白质,从细胞质中到细胞核内,从母细胞到子细胞,从一个细胞或一个组织到另一个细胞或另一个组织,从一代到下一代,从一个物种到另一个物种的进化演变。这种信息论的观点即可称为生物信息学(Eisenbergetal.,2006)。生物信息学能解决哪些问题生物信息(核酸和蛋白质序列数据,蛋白质高级结构数据,小RNA数据)的收集、存储;基因组序列的提取和分析;基因功能分析:基因和蛋白序列相似程度的分析(决定是否有同源性),保守区分析;蛋白质基本理化性质、结构预测和分子设计;生物信息分析相关的技术方法的研究。生物信息学课程的主要内容序列数据的采集、存储和查询双序列比对多序列比对序列模式识别分子进化与系统发育分析基因组分析基因芯片分析结构生物信息学生物信息学的发展历程1952年,Sanger根据胰岛素蛋白质的测序结果,推断蛋白质是排列完美的分子。-最早的信息论观点。1955年,Sanger与合作者分别对牛、猪和羊的胰岛素蛋白质进行了测序并做了序列上的比较。-最早的序列比对。1962年,鲍林提出分子进化的理论,推测在人中可能存在50,000~100,000个不同的基因/蛋白质。-分子进化理论的奠定。1965年,MargaretDayhoff构建蛋白质序列图谱1970年,Needleman-Wunsch算法:全局优化比对。1981年,Smith-Waterman算法开发:局部优化比对。1990年,快速序列相似性搜索工具BLAST的开发过去20年的发展状况最早的序列分析:胰岛素蛋白质InsulinChainA:8-10位存在着不同(牛,ASV;猪,TSI;羊,AGV)(Brownetal.,1955)。MadebyGeneDoc分子进化理论:鲍林1962年,祖卡坎德尔(Zuckerkandl)和鲍林(Pauling)在对比了来源于不同生物系统的同一血红蛋白分子的氨基酸排列顺序之后,发现其中的氨基酸随时间的推移而以几乎一定的比例相互替换着,即氨基酸在单位时间以同样的速度进行置换。后来,许多学者对若干代表性蛋白质的分析,以及近年来又通过直接对比基因的碱基排列顺序,证实了分子进化速度的恒定性大致成立,并为中立说在理论上奠定了基础。Dayhoff打分矩阵1.1978年,MargaretDayhoff与合作者对34个蛋白质的超家族,进一步的归类为71个组,构建进化树。2.序列相似性:≥85%;总共1572个突变。3.PAM:AcceptedPointMutation,可接受的点突变。4.氨基酸演变:马尔可夫模型(MarkovModel),位点突变速率独立,均等。5.PAM1:序列分歧~1%时的氨基酸替代打分矩阵。不同物种的系统发育分析80年代:DNA序列数据库1.1974年,GeorgeI.Bell等人收集DNA序列,构建GenBank数据库。1982~1992开发第一个版本。2.1980年,EMBL数据库成立。3.1984年,日本DDBJ数据库成立。4.核酸序列数据的去冗余:Refseq数据库,对于相同的序列只列一条目录。核酸数据库数据的增长获取序列及检索公共数据库序列比对工具的开发1.1970年,GibbsAJ和McIntyreGA,点阵法进行氨基酸和核酸的序列比较:当相同的字母在两条序列中同时出现时,在交叉处置点。2.1970年,Needleman-Wunsch,全局优化的序列比对算法:允许匹配、错配和缺失。动态规划的算法:任务可分割,分成更小的子问题进行解决。3.1981年,Smith-Waterman,局部优化的序列比对算法。4.FASTA&BLAST的开发,启发式优化算法。5.多序列比对:CLustalW/X,POA,MUSCLE.AGCTAGGAGACTAGGC两条DNA序列的点阵法比较全局优化vs.局部优化ACTGTTCCGAA……AGCCTGA……ACTACTG…100kbp……100kbp…ACGCCTGACTGTTCCGAA……AGCCTGA……ACTACTG…100kbp……100kbp…AC---…---GCC---…---TG全局优化ACTGTTCCGAA……A-GCCTGA……ACTACTG…100kbp……100kbp…ACGCCTG局部优化序列-分子进化1.寻找Ortholog(直系同源物)或者Paralog(旁系同源物)。2.构建进化树,分析蛋白质的超家族及亚家族分类。3.分子进化树的构建方法:邻接法(Neighbor-Joining),最大简约法(MaximumPasimony),最大似然性法(MaximumLikelihood),以及贝叶斯类算法(MCMC)。4.构建进化树的前提:可靠的多序列比对。Orthologvs.Paralog直系同源物:两个基因通过物种形成的事件而产生,或,源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。旁系同源物:两个基因在同一物种中,通过至少一次基因复制或分歧的事件而产生。Xenolog:异同源物:由某一个水平基因转移事件而得到的同源序列。同源性研究:哪种同源物?Experimentallyveryhardtoanswer.基因进化:物种形成vs.基因复制speciationgeneduplicationorthologsparalogsancestralgene同一种符号:直系同源物同一种颜色:同一物种序列相似性:基因功能v-junvs.humanAP-1/c-jun,AP-1转录因子。观点:病毒可能起源于寄主。生物信息学的过去、现在和未来生物信息学:学科交叉生物信息学(专业)的研究内容1.开发新的算法及统计学的方法来揭示大规模数据之间的联系。2.分析和解释各种类型的生物学数据,包括核酸、氨基酸序列、蛋白质功能结构域以及蛋白质三级结构等。3.开发、设计一系列相关的工具,能够方便有效的获取、管理以及使用各种类型的数据和信息。生物信息学的相关知识储备1.生物学背景:e.g.,细胞生物学、分子生物学、发育生物学、分子神经生物学、生物化学,…2.计算能力/编程能力:Perl/Python,PHP+MySQL,JAVA…3.统计学知识:至少单变量统计知识。生物信息学的相关杂志序列的采集、存储和查询本节内容提要1.DNA测序2.核酸和蛋白质序列数据的存储3.序列数据的文件格式4.序列数据的查询1.DNA测序1.DNA一次测序的长度为500bp。2.基因组的测序方案:将大的染色体打断成100kbp的片断,插入到BAC(BacterialArtificialChromosome)中。再随机打断,克隆,然后再组装成长的序列(contig)。3.EST(Expressedsequencetag)测序:细胞中mRNA反转录成cDNA,方向不定,测序。4.UniGene:为每一个基因创造一个唯一的条目,收集这个基因所有的ESTs.5.GSS(基因组测序序列):类似于ESTs,来源基因组。6.HTG(高通量基因组序列):高通量、尚未完工的DNA序列。2.序列数据的存储1.核酸三大数据库:GenBank,EBI(EMBL),DDBJ.2.Ensembl数据库:基因组注释。3.ESTs数据库;4.UniGene数据库5.Refseq数据库;6.NCBI的Gene信息数据库;7.蛋白质序列:Swissprot/TrEMBL/UniProt数据库。GenBank中测序最多的20个物种161.0版,2007.08Ensembl数据库dbEST:表达序列标签数据库2007.08,总序列45,660,524条,最多的20个物种如下UniGene:AnOrganizedViewoftheTranscriptomeRefseq数据库1.提供高质量的,无冗余的,完整的序列信息;2.包括基因组的DNA,转录成的RNA以及蛋白质序列信息。3.序列文件的标识符:DNA/RNA序列,NM_XXXXXX;蛋白质序列:NP_XXXXXXNCBIGene1.=gene2.序列从Refseq数据库中得到;3.详尽的注释信息,包括基因在基因组的定位,基因名称、蛋白质名称,基因结构,等等。UniProt1.专家审核的蛋白质序列数据与知识库;2.UniProtKnowledgebase:Release12.1,2007.083.包括:Swiss-ProtRelease54.1of21-Aug-2007:27