生物信息学培训班结构生物信息学蛋白质三级结构预测张法中国科学院计算技术研究所2013-3-31生物信息学培训班Outline背景简介蛋白质结构预测算法常用软件介绍生物信息学培训班蛋白质三级结构序列结构功能蛋白质结构的意义:蛋白质所具有的功能取决于蛋白质的空间结构。蛋白质分子的生物学功能是蛋白质的天然构象具有的属性或所表现的性质,因此研究蛋白质分子的空间结构和生物学功能的关系在分子生物学中占据突出的地位蛋白质结构的应用:背景简介1.预测蛋白质的功能3.蛋白质-蛋白质的相互作用5.结构域边界2.底物结合位点4.药物设计6.指导定点突变生物信息学培训班确定蛋白质结构的方法确定蛋白质结构的方法核磁共振X射线晶体衍射结构预测冷冻电镜小分子量蛋白蛋白质复合体小分子量蛋白膜蛋白和超大分子复合体背景简介生物信息学培训班X-射线晶体衍射技术背景简介测定衍射斑点位置和强度衍射相角分子的构象电子密度图生物信息学培训班X-射线晶体衍射技术优点:测定结果可靠;速度快;不受样品大小限制,无论多大的蛋白,或者复合体,(蛋白质、RNA、DNA、小分子等等),只要能够结晶就能够得到其原子结构。缺点:必须进行结晶;很多蛋白质很难(甚至无法)结晶;晶体中的蛋白质分子构象是静态的,无法测定不稳定的过渡态的构象。背景简介生物信息学培训班核磁共振技术测定蛋白质结构预测背景简介生物信息学培训班核磁共振技术测定蛋白质结构背景简介优点:能研究溶液中的蛋白质结构;能提供大量有关动态的信息;测定结果与X射线技术非常接近。缺点:只能测定较小的蛋白质结构;很难获得蛋白质分子完整的三维结构。生物信息学培训班蛋白质结构预测的意义问题:寻找从氨基酸序列到蛋白质所有原子三维坐标的一种映射理论方面:蛋白质折叠的机制应用方面:了解蛋白质分子的结构实验测定方法的局限性蛋白质结构测定和序列测定严重脱节蛋白质序列与PDB中已测定的结构数量相差2个数量级蛋白质结构的试验测定费时费力,成功率非常有限大量的蛋白质结构不能通过实验方法测得背景简介生物信息学培训班蛋白质结构预测的依据实验结果证明:蛋白质的结构由蛋白质序列所决定。背景简介11951,9623,90238,22105000100001500020000250003000035000400001997199920012003200520072009FoldsSuperfamiliesFamiliesPDBentries自然界实际存在的蛋白质是有限的,并且存在着大量的同源序列,可能的结构类型也不多,序列到结构的关系有一定的规律可循。结构保守性>>序列保守性PDB中结构数量在增加,但是蛋白质的结构类型(Fold)的数量几乎没有增加。(~1200)Anfinsen原理:蛋白质链会以自由能最低的方式形成三维结构。(1972年诺贝尔化学奖)生物信息学培训班蛋白质三维结构的表示法欧式空间原子坐标Coordinates(x,y,z)Cα坐标确定后backbone的自由度很小侧链排放有一定的自由度距离矩阵坐标距离矩阵,距离矩阵坐标镜像问题,丢失了手性相邻的Cα距离为3.8A左右(特例:cis-proline2.8A)k*L个Cα-Cα距离便可恢复出L个Cα的坐标背景简介1234103.86.08.123.803.85.936.03.803.848.15.93.8012346.08.15.93.83.83.83.8生物信息学培训班蛋白质三维结构的表示法角空间扭转角(Torsionangle)phi-angle(φ):N-Cαbondpsi-angle(ψ):Cα-Cbond键长背景简介1234103.86.08.123.803.85.936.03.803.848.15.93.8012346.08.15.93.83.83.83.8欧式空间的表示法可以与角空间的表示法互相转换生物信息学培训班蛋白质的折叠过程背景简介朝自由能E最低的构造折叠,形成稳定的氢键,静电以及范德华相互作用,产生二级结构螺旋平行/反平行生物信息学培训班蛋白质结构分类数据库SequenceDB:NRUniprotpFam分类序列相似性Sequencealignment背景简介生物信息学培训班蛋白质结构分类背景简介数据库SequenceDB:NRUniprotpFam分类序列相似性SequencealignmentStructureDBScopPDBProteinDataBankCATH人工人工+自动全自动分类几何信息进化信息层次聚类结构相似性structurealignment2/3的结构分类是重合的FSSP生物信息学培训班蛋白质结构分类背景简介数据库SequenceDB:NRUniprotpFam分类序列相似性SequencealignmentStructureDBScopPDBProteinDataBankCATH人工人工+自动全自动分类几何信息进化信息层次聚类结构相似性structurealignment2/3的结构分类是重合的FSSPSeq-StrualignmentStructureprediction生物信息学培训班蛋白质结构分类背景简介数据库:PDB/Class/Fold/Architecture/Domain/Motif/Superfamily/Family分类:•Class:二级结构分类(all,all,+,/,etc)•Fold(architecture):二级结构的形状走向(barrel,sandwich,etc)•domain:结构中有功能的部分比如binding,cleaving,spanningsites•motif:小的或者特定的二级结构比如一个--loop•Family:考虑拓扑结构+实验的或者生物特性•Superfamily:在family基础上,还考虑进化关系AllαAllβα+βα/βPDBID:2FOXCLASS:/FOLD:Flavodoxin-likesandwichSuperfamily:FlavoproteinsFAMILY:Flavodoxin-relatedSandwichTIMbarrel11951,9623,90238,22105000100001500020000250003000035000400001997199920012003200520072009FoldsSuperfamiliesFamiliesPDBentriesProteinDataBank生物信息学培训班Outline背景简介蛋白质结构预测算法常用软件介绍生物信息学培训班蛋白质结构预测的主要方法理论分析方法预测算法该类方法假设蛋白质分子天然构象处于热力学最稳定,能量最低状态。从原则上来说,我们可以根据物理、化学原理,通过计算来进行结构预测。考虑蛋白质分子中所有原子间的相互作用以及蛋白质分子与溶剂之间的相互作用,通过理论计算(如分子力学、分子动力学)蛋白质分子的能量最小状态。实际不可行:自然的蛋白质结构和未折叠的蛋白质结构,两者之间的能量差非常小蛋白质可能的构象空间庞大,针对蛋白质折叠的计算量非常大计算模型中力场参数的不准确性也是一个问题生物信息学培训班蛋白质结构预测的主要方法统计分析方法对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。经验性方法:根据一定序列形成一定结构的倾向进行结构预测结构规律提取方法从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规则,指导建立未知结构的蛋白质的模型。同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元(如锌指结构、螺旋-转角-螺旋结构、DNA结合区域等)。预测算法生物信息学培训班Template-free从头计算AbInitio,Denovo在Ramachandranplot指导下旋转,,搜索自由能最低如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。如果序列相似性75%,则可以得到较高精度的预测结构。缺点是只能处理和模板库中蛋白质序列相似性较高的情况。蛋白质结构预测的主要方法预测算法Template-based同源建模HomologyModeling序列足够相似,属同源蛋白,则整体结构会很相似折叠识别FoldRecognitionThreading识别与目标序列有关的结构片段组合片段,搜索自由能最低生物信息学培训班Template-freeTemplate-based同源建模HomologyModeling序列足够相似,属同源蛋白,则整体结构会很相似折叠识别FoldRecognitionThreading识别与目标序列有关的结构片段组合片段,搜索自由能最低从头计算AbInitio,Denovo在Ramachandranplot指导下旋转,,搜索自由能最低从蛋白质结构数据库中挑选蛋白质结构建立折叠子数据库,以折叠子数据库中的折叠结构作为模板;将未知序列与模板进行匹配,通过计算打分函数值判断匹配程度,其中打分最高的被认为是最可能采取的折叠结构。蛋白质结构预测的主要方法预测算法生物信息学培训班Template-free从头计算AbInitio,Denovo在Ramachandranplot指导下旋转,,搜索自由能最低依据是热力学理论,即求蛋白质三维结构稳定的状态,也就是能量最小的状态;由于巨大的计算量,这种方法并不实用。蛋白质结构预测的主要方法预测算法Template-based同源建模HomologyModeling序列足够相似,属同源蛋白,则整体结构会很相似折叠识别FoldRecognitionThreading识别与目标序列有关的结构片段组合片段,搜索自由能最低生物信息学培训班蛋白质结构预测流程预测算法生物信息学培训班蛋白质同源模建算法主要思想:预测算法对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型基本依据:任何一对蛋白质,如果序列等同部分超过30%,则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠区域的一些细节部分有所不同。若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。一般如果序列的等同部分大于30%,则可以期望得到比较好的预测结果。生物信息学培训班蛋白质同源模建算法同源建模(Homologymodeling):预测算法又称比较建模(comparativemodeling);基本假设是蛋白质分子结构具有某种规则性,其可能三维结构的基本形态种类有限,各个形态是由几种特定的氨基酸序列所构成;利用已知的蛋白质三维结构(可能由NMR或X-ray确定的结构)为模板,模拟出未知结构蛋白质序列的空间结构;一般来说,当未知结构蛋白质序列(targetprotein)和模板(template)间的相似性越高,所仿真出来的结构正确性、可信度也就越高。生物信息学培训班蛋白质同源模建算法的步骤同源建模方法6个步骤:预测算法1.搜索结构模板:选择参考的蛋白质分子(Template,T)2.序列比对:将目标分子(Target)和参考分子的氨基酸序列比对,寻找序列相同区域3.建立骨架:建立目标分子核心部份的分子骨架4.构建目标蛋白质的侧链:产生各结构守恒区域之间松散分子链的结构5.目标分子结构修正微调:构建目标蛋白质的环区6.结果验证:三维分子结构的检验和证实UT生物信息学培训班蛋白质同源模建算法的步骤预测算法生物信息学培训班同源模建(1):结构模板的选择第一步:结构模板的选择预测算法选择和目标蛋白质分子相关的参考蛋白质分子目标分子和参考分子间序列相似的程度参考蛋白质分子已知结构的准确性生物信息学培训班预测结果准确率:预测算法对于具有60%等同的序列,用上述方法所建立的三维模型非常准确。若序列的等同部分