蛋白质结构预测肖飞蛋白质三级结构预测的方法123方法比较同源建模(比较建模)基础-相似的序列结构相近-PDB结构数据库的快速增长-结构基因组学的启动-发散进化特点-相对精确可靠•假设待预测三维结构的目标蛋白质为U(Unknown),利用同源模型化方法建立结构模型的过程包括下述6个步骤:(1)搜索结构模型的模板(T)(2)序列比对(3)建立骨架(4)构建目标蛋白质的侧链(5)构建目标蛋白质的环区(6)优化模型UT预测结果准确率:•对于具有60%等同的序列,用上述方法所建立的三维模型非常准确。若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。•一般如果序列的等同部分大于30%,则可以期望得到比较好的预测结果。同源建模数据库搜索选择模板依据模板构建骨架模型环状、侧链的构建,优化结构合理性评估结构模型YESNO分子式:pGlu-His-Trp-Ser-Tyr-Gly-Leu-Arg-Pro-Gly-NH同源模建确定一对柔性分子相应功能团可能的空间取向模板加模板3.同源建模法的局限性传统的比较建模是通过PSI-BLAST找到已知结构的相关蛋白。最近如进行profile-profile比较和有效利用结构信息的更加复杂的方法已不仅显著增加了比对的质量而且远程同源(remotehomologue)检测的能力。因此,比较建模和折叠识别在基于模板的建模方法中的区别现已十分模糊。开发新的比较建模和折叠识别的算法导致网上各种预测方法的出现,这包括结构预测meta-服务器。蛋白质三维结构预测服务通过因特网对公众免费开放(同源建模):瑞士生物信息研究所SWISS-MODEL丹麦技术大学生物序列分析中心CPHmodels比利时拿摩大学ESyPred3D英国癌症研究中心3DJigsaw4.常用建模服务器和软件简介AccelrysDiscoveryStudio软件InsightIIFAMS同源蛋白质结构预测的方法1)片段组装法:SWISS-MODEL2)距离几何法:MODELLERSWISS-MODEL::提交查询序列14模板序列与查询序列的装载结构的精细比对分子骨架的形成侧链形成和优化加入氢原子、优化回环能量最小化、结构封装SWISS-MODEL的工作过程:15最后的预测结果蛋白质具有很少的折叠类型(1000)•基本步骤将目标蛋白质序列与已知的折叠进行比对将目标序列“安装”到选择的模板结构上对模型进行优化、调整检验模型的合理性•关键方法序列-结构比对穿针引线法穿针引线方法(折叠识别方法)•有很多蛋白质具有相似的空间结构,但它们的序列等同部分小于25%,即远程同源。•对于这类蛋白质,很难通过序列比对找出它们之间的关系,必须设计新的分析方法。•对于一个未知结构的蛋白质(U),如果找到一个已知结构的远程同源蛋白质(T),那么可以根据T的结构模板通过远程同源模型化方法建立U的三维结构模型。UT(远程同源)一个远程同源模型化方法要解决三个问题:(1)检测远程同源蛋白质(T);(2)U和T的序列必须被正确地对比排列;(3)修改一般的同源模型化过程,以应用于相似度非常低的情况,即处理更多的环区,建立合理的三维结构模型。如何解决第一个和第二个问题?•基本思想是建立一个从U到已知结构T的线索,并通过一些基于环境或基于知识的势,评价序列与结构的适应性。至于最后建立三维结构模型则是非常困难的序列→结构比对•线索化的主要思想:利用氨基酸的结构倾向(如形成二级结构的倾向、疏水性、极性等),评价一个序列所对应的结构是否能够适配到一个给定的结构环境中。•建立序列到结构的线索的过程称为线索化,线索技术又称折叠识别技术。•线索化或者折叠识别的目标是为目标蛋白质U寻找合适的蛋白质模板,这些模板蛋白质与U没有显著的序列相似性,但却是远程同源的。•线索化方法一般有5个基本组成部分:(1)已知三维折叠结构的数据库;(2)一种适合于进行序列-结构比对的三维折叠信息的表示方法;(3)一个序列-结构匹配函数,该函数对匹配程度进行打分;(4)建立最优线索的策略,或者是进行序列-结构比对的策略;(5)一种评价序列-结构比对显著性的方法。假设存在有限数目的核心折叠(corefolds)•核心折叠实际上是构成蛋白质空间形状的基本模式。•建立核心折叠数据库•预测----建立线索U序列与数据库核心折叠比对取最佳核心折叠U结构模型•一种基于序列与结构比对的最优线索化算法令:s1,s2,…,sn为蛋白质序列S的n个元素C1,C2,…,Cm为数据库中核心折叠C的m个核心区域Cij为第i个核心区域第j个氨基酸位置每一个核心区域由若干个氨基酸残基构成•设t是一个从序列到核心折叠的线索,那么t说明了序列S的哪些元素si,sj,sk,…代表核心区域C1,C2,C3,…的起始位置。这实际上是一种从序列S到核心折叠C的比对•令代表核心折叠C中的环到序列S中空位的映射,显然是通过线索化而确定的。令f(t)是进行比对的得分函数,其定义如下:f(t)=g1(v,t)+g2(u,v,t)+g3(,t)•g1(v,t)评价氨基酸残基v所处的位置•g2(u,v,t)评价残基u和v的相对位置,如果u和v键合,则得分高;•g3(,t)评价环区,根据环区的大小进行打分。线索化问题:对于给定的序列S和核心折叠C,选择一个线索t,使得f(t)的值最小,即寻找一个从S到C的最佳映射。•动态规划•人工神经网络•分支定界法•线性规划•MonteCarlo方法穿针引线法•理论基础蛋白质的天然构象是热力学最稳定构象、也是能量最低构象•能量函数通过原子间作用力计算出的热力学能量精确,但难以计算•伪能量函数根据已知的三维结构知识得到的势能函数常见的结构→低能量•不常见的结构→高能量•极罕见的结构→极高能量从头预测法原子间作用力蛋白质的势能能量函数蛋白质的势能•基本步骤选择蛋白质能量函数模型选择三维结构的表示方法选择三维结构的评价函数选择寻找最优结构的优化方法•关键问题大规模非线性规划大量的局部极小点在计算时间和准确度之间寻找平衡基于能量最小化的从头预测法非线性规划最速下降法牛顿法共轭梯度法•全局优化方法遗传算法分解-结合法离散化方法最优化方法分子动力学•方法对蛋白质中原子间的作用力进行建模用动力学方程跟踪蛋白质折叠时每个原子的位置求解这些方程的解析解是极其困难的用离散动力系统的方法来确定数值解•问题模拟蛋白质折叠过程是非常消耗时间的模拟10-9秒的蛋白质折叠过程大约需要一天时间蛋白质的实际折叠时间大约在10-4秒的数量级或者更多需要超级计算机新的趋势混合预测方法在比较建模法和折叠识别法中使用从头预测法来预测部分难以找到模板的片断在从头预测法中使用二级结构预测的结果和其他已知结构信息辅助建模•Meta-predictor使用多个预测方法对收集的结果进行综合比较和分析改进收集的结果本章小结•重点介绍一些常用的蛋白质结构分析技术获取蛋白质结构的实验方法预测蛋白质结构的理论方法蛋白质结构比对蛋白质二级结构预测蛋白质三级结构预测•随着蛋白质分析技术的不断深入,将促进我们从系统生物学的层次全面了解蛋白质的生物学功能Thanksforyourattention!Theend~用Swiss-model分析如下序列,进行三级结构建模,取3个结果,并分析所得模型•MSSGQCRSANAEDAQEFISDVERAIETLIIKNFHQSYSSVESNLAIGGKESTLTPSELRDLVTQQLLLKSSKPHLMPSNCGLEEKIASNLGSCKKNDSKLEEFRSFWAELLIGEAAKKSSVKLERPVRGH;