生物信息学在蛋白质结构预测中的应用摘要:生物信息学是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等学科相互渗透而高度交叉形成的一门新兴前沿学科。随着人类基因组计划的完成,应用生物信息学技术预测蛋白质结构与功能将成为后基因组时代的一项重要任务。本文主要介绍了蛋白质结构与功能预测的基本方法以及国际著名的蛋白质结构预测技术评比CASP。关键词:生物信息学;蛋白质;结构预测生物信息学(bioinformatics)以获取、加工、储存、分配、分析和释读生物信息为手段,综合运用数学、计算机科学和生物学工具,以达到理解数据中的生物学含义的目的。对于蛋白质结构和功能,尽管可以通过实验的方法来实现,但由于目前的蛋白检测技术水平还远远跟不上涌现如潮的新基因的数量,因此利用生物信息学工具快速预测蛋白结构与功能特性,对研究蛋白质组尤其是对那些通过实验难以测定结构的蛋白质分析则具有更大的理论意义与实用价值。蛋白质的空间结构往往决定其功能,因此揭示蛋白质的结构是一项非常有意义的工作。蛋白质是由20余种氨基酸形成的长链,氨基酸之间相互作用有形成一定的空间结构。蛋白质的结构一般分为4类:一级结构,即组成蛋白质的氨基酸序列;二级结构,即骨架原子间的相互作用形成的局部结构,三级结构,即二级结构在更大范围内的堆积形成的空间结构;四级结构主要描述不同亚基之间的相互作用[1]。根据蛋白质结构分类的不同,现在对蛋白质结构的预测方法主要集中在二级结构和三级结构两个方面。所谓的蛋白质结构预测就是如何从蛋白质的氨基酸序列预测出其空间结构。由于蛋白质的生物学功能在很大程度上依赖于其空间结构,因而进行蛋白质的结构预测对了解未知蛋白生物学功能具有重要意义[2]。1、蛋白质二级结构预测蛋白质二级结构预测是蛋白质结构预测的关键步骤,在实际工作中有着广泛的用途:T可用于全新蛋白质的设计或蛋白质突变的设计;@有助于确定蛋白质空间结构与功能的关系;@有助于多维核磁共振中二级结构的指认以及晶体结构的解析。目前蛋白质二级结构预测的方法不断涌现,通常有3种类型:基于统计的预测方法、基于知识的预测方法和混合方法等。(1)基于统计的预测方法在基于统计的预测方法中,几种常用的统计方法分别是Chou-Fasman方法,GOR方法[3]、人工神经网络法[4]和最小近邻法[5]。Chou-Fasman方法对已知晶体结构做精细研究后,统计出20种氨基酸在不同二级结构中所处的3种构象(螺旋、折叠以及无规卷曲)的分布频率,同时考虑氨基酸在蛋白质中的相对出现频率以及残基出现在结构中的频率,最后计算出每种氨基酸出现在上述3种构象中的构象参数。由于Chou-Fasman方法有一些规则不够明确,现在使用较少。(2)基于知识的预测方法基于知识的预测方法主要有Lim方法和Cohen方法[6]。Lim方法是一种物理化学的方法,其基本思想主要有两点;一是考虑了氨基酸残基的物理和化学性质,如残基的亲水性、疏水性、带电性以及体积的大小等,二是考虑了邻近残基间的相互作用。该方法不仅考虑到短程相互作用即共价键和离子键等,而且在一定程度上也考虑了长程相互作用,包括范德华力、氢键和疏水作用。Lim方法的预测精度稍高,但这种方法的缺点是难于用通常的计算机语言来实现。Cohen方法主要用于α/β蛋白质的预测,它认为蛋白质是由一个或多个序列上连续的结构域组成,而且每个结构域由α螺旋和β折叠单元组成,结构域的核心是由螺旋亚单元或扩展单元在结构域中通过疏水性残基相互作用。该方法把氨基酸分为疏水性氨基酸、亲水性氨基酸,过渡型氨基酸和带电荷氨基酸,然后根据已知数据库提供的信息找到二级结构与上述分类或其组合的关系。由于分类组合很多,因此该方法比较复杂。(3)混合方法近年来,混合方法在二级结构预测方面的进展比较迅速。混合方法是选择性合并以上提到的各种方法,调整不同方法在预测时的权重以改善预测的准确率。这些单一预测方法的准确率很多都超过70%,如人工神经网络法和GOR方法,它们在混合方法中都使用得较为广泛。此外,在GOR方法基础上加入同源性信息后,预测方法的准确率也可以得到较大提高[7]。2、蛋白质三级结构预测三级结构预测是蛋白质结构预测的终极目标,目前还没有一种公认的令人满意的预测方法。蛋白质的三维结构预测的一个方向是根据二级结构预测的结果,把可信度较高的二级结构进一步组装搭建出最后的蛋白质空间结构。这种方法虽可构建出一些蛋白质结构,但它依赖于前面的预测结果,受到的限制较多。另一个方向是不依赖二级结构预测的结果,直接从序列预测三维结构,目前该方向是蛋白质结构预测的主要方向。蛋白质结构预测方法有两种主要的分法。比较经典的分类方法是将其分为同源建模方法(HomologyModeling),折叠识别方法(ProteinFoldRecognition)和从头预测(abinitio)方法[1]。(1)同源建模方法同源建模方法[8]认为序列相似的蛋白质其结构也相似,其通过寻找目标序列的同源蛋白质来推定其三维结构。其关键步骤是进行序列-序列相似性比较,根据序列之间的相似度来推断蛋白质之间的同源关系。同源建模方法在很大程度上依赖于同源蛋白质的结构。对于相似度比较高的情况,同源建模方法精度较高,而当序列相似度较低时,同源建模方法往往不可靠。(2)折叠识别方法折叠识别方法都叫穿线法(threading),用于寻找和目标序列没有显著性同源关系、但是具有同一结构折叠类型的蛋白质。其主要原理是把未知蛋白质的序列和已知的结构进行匹配,找出一种或者几种匹配最好的结构作为未知蛋白质的预测结构[9]。其关键步骤是序列-结构匹配,以获得最可能的匹配。(3)从头预测方法同源模建和折叠识别需要已知的蛋白质结构作为模板,如果没有任何的同源结构进行参考,那就只能从序列本身出发预测蛋白质的三级结构,这类方法就是从头预测方法。从头预测方法是蛋白质结构预测中最具挑战性的方法,它建立在蛋白质的天然构象是能量最低构象的基础之上,对该思想进行抽象的数学模型主要集中在两个方向。一个是从连续角度出发的分子动力学模拟方法。其主要思想是通过分子力学模型找到描述蛋白质能量的平均势能函数,然后利用全局优化算法找到能量最低结构。由于需要搜索的构象空间非常巨大,普遍采用的全局搜索方法有蒙特卡罗(MonteCarlo)、模拟退火算法、遗传算法等。分子动力学模拟方法存在的问题是无法保证在有效的计算时间内找到全局极小点。另一个重要的方向是从离散角度来进行研究。其主要想法是抓住蛋白质折叠过程中的主要因素,将问题抽象为一个组合优化问题,然后构造有效的近似算法来求解[9]。后基因组时代对于蛋白质结构预测的要求将更高:需建立对基因组数据进行大规模归类方法和高精确度的同源蛋白质结构预测方法;如何根据实验测定或预测的蛋白质三维结构进行蛋白质的功能预测;蛋白质结构从头预测方法需要有所重大突破;需构建一个覆盖面广泛而完整的数据库,其中需包含有大量蛋白的序列、结构、功能等完整信息。总之,生物信息学对蛋白结构和功能的预测一定会与实验科学的发展很好的结合起来,在推动后基因组学研究中做出更大的贡献。参考文献[1]谷俊峰.蛋白质结构预测中几个关键问题的研究[D].大连理工大学,2009.[2]殷志祥.蛋白质结构预测方法的研究进展.计算机工程与应用,2004,20:54-7.[3]CarnierJ,OsguthorpeDJ,RobsonB:Analysisoftheaccuracyandimplicationofsimplemethodsforpredictingtheseconderystructurcofglobularproleins.IMolBiol1978,12O:97-120.[4]ZhuWei,etal.ApplicationofArtificialNeuralNetworkinProteinSecondaryStructurePrediction[J].CHINESEJOURNALOFNATURE,2003,25(3).[5]BremnerD,DemaineE,EricksonJ,IaconoJ,LangermanS,MorinP,ToussaintG(2005).Output-sensitivealgorithmsforcomputingnearest-neighbordecisionboundaries.DiscreteandComputationalGeometry33(4):593–604.[6]J.I.Langford.TheaccuracyofcelldimensionsdeterminedbyCohen'smethodofleastsquaresandthesystematicindexingofpowderdata[J].JournalofAppliedCrystallography,6(3),1973.[7]Kloczkowski,A.,Ting,K-L.,Jernigan,R.L.andGarnier,J.:ProteinSecondaryStructurePredictionBasedontheGORAlgorithmwithMultipleSequenceAlignments,Polymer,43,441-449,2002.[8]Sanchez&SaliA.Coparativeproteinstructuremodelingingenomics[J].JournalofComputationalPhysics,1999,l51:388-401.[9]殷志祥.蛋白质结构预测方法的研究进展[J].计算机工程与应用,2004,40(20):54-56.