生物大分子的计算机模拟生物大分子的计算机模拟生物大分子的计算机模拟方法蛋白质三维结构的模建核酸结构的模拟生物大分子的计算机模拟方法量子力学分子力学分子动力学量子力学量子力学是微观世界物质运动的普遍规律一个分子体系的状态可以用Schrodinger方程来表示,通过求解Schrodinger方程可以得到分子体系的结构和性质量子力学方法的特点:计算结果精确度高,限于计算机的计算能力,能够计算的体系小从头计算方法:100个原子;半经验计算:1000-10,000个目前,生物大分子体系还不能用量子力学方法模拟分子力学分子力学是一种近似处理方法忽略电子的运动,将体系的势能看作是原子核位置的函数力场:分子体系的势能函数分子的势能=键伸缩能+键角扭曲能+扭转势能+非键相互作用项函数形式和参数力场是经验的特点:能够计算含有大量原子的体系简单有效,目前应用得最广泛分子力学描述的原子间相互作用分子动力学分子动力学是建立在牛顿力学基础上的一种分子模拟方法将分子体系的运动看作是在势能面中质点的运动,求解运动方程可得到体系中所有原子的轨迹,从轨迹中可计算得到各种性质特点:可以搜索很大的构象空间,模拟时间在纳秒级应用分子模型的动力学变化研究大分子体系低能构象的模建X射线晶体学和NMR中的结构优化第一节生物大分子的计算机模拟生物大分子的计算机模拟方法蛋白质三维结构的模建核酸结构的模拟蛋白质三维结构的模建模建(modeling)蛋白质结构的基本概念蛋白质结构预测的从头计算同源和比较模建方法蛋白质折叠类型识别法蛋白质二级结构预测蛋白质结构预测方法准确性的评估应用实例模建(modeling)蛋白质的三维结构模建是从氨基酸序列出发理论预测蛋白质的三维结构基本假设:Anfinsen原理模建研究的意义中心法则的延伸—第二遗传密码蛋白质结构测定的速度远远落后于序列测定的速度,使理论预测的方法成为一种迫切的需要到2001年12月,已知的蛋白质序列接近60万条,而测定了三维结构的蛋白质仅为16917个蛋白质三维结构的测定已经成为生命科学发展的“瓶颈”蛋白质结构的基本概念蛋白质的二级结构单元a螺旋b折叠股(b-strand)和b折叠片(b-sheet)环(loop)b-转角(b-turn)蛋白质的结构可以通过旋转键的扭角来确定主链扭角:f,y,w侧链扭角:c1,c2,…描述蛋白质结构的扭角NHONHfywc1c2蛋白质结构预测的从头计算从头计算法(abinitio)搜索分子的构象空间,找到最合适的构象基本假设:天然构象=能量最低构象(?)搜索构象空间的方法蛋白质的简化模型特点:不依赖于已知的结构模式,是一种普适的解决方法,目前尚处于探索阶段同源和比较模建方法根据蛋白质结构的相似性,以已知蛋白质的结构为模板构建未知蛋白质的三维结构在进化过程中蛋白质三维结构的保守性远大于序列的保守性,当两个蛋白质的序列同源性/相似性高于35%时,一般情况下它们的三维结构基本相同同源模建方法是目前最常被采用的也是最成功的结构预测方法主要步骤确定模板确定未知蛋白质与已知结构蛋白质的序列比对确定结构保守性的主链结构片断构建结构变化的区域侧链模建用能量计算的方法进行结构优化同源和比较模建方法影响同源模建质量的因素序列相似性大小(插入和删除片断)30%序列比对的准确性序列比对(sequencealignment)将两个或多个序列之间的相似区域和保守性位点对齐以分析它们的相似程度在同源模建中非常重要,影响结构预测的准确性程序:BLAST序列比对的实例Score=233bits(593),Expect=4e-61Identities=118/251(47%),Positives=162/251(64%),Gaps=9/251(3%)Query:29IGIYKWHYSGLNRWHGAGSTADFQKIIQERCDTYTQTIRPGSRSRNCQAIRQAFMSAFIS88+G+WS+G+TI+RCTYT++PR+++C+IFSAF+SSbjct:40VGVLTWRQSSM------GATDHVSAIVLGRCLTYTRNMHPELRNQDCKKILNTFTSAFVS93Query:89KDPCKATKEDYNSLINLAPPTVPCGQQVFWSKTKELAHEYAK-RRRLMTLEDTLLGYLAD147KDPCTKEDYLI+LTVPC++FWS++KELAH+Y++++TLEDTLLGY+ADSbjct:94KDPCNITKEDYQPLIDLVTQTVPCNKTLFWSRSKELAHQYSGIQKEMFTLEDTLLGYIAD153同源和比较模建方法互联网上的同源模建服务器SWISS-MODEL蛋白质折叠类型识别法蛋白质的折叠模式是有限的自然界中蛋白质家族的数目大约为23100个,现有的蛋白质结构分属600个家族,其中折叠模式只有约300种估计蛋白质的折叠模式的总数在几百到一千种蛋白质折叠类型识别法:又名穿针引线法(threading)针对那些没有明显的同源性但又采取类似结构的蛋白质将一个序列与蛋白质折叠库中的所有结构类型进行匹配,找出最接近的一种需要构建非重复的蛋白质折叠模式库常用的程序THREADER:~jones/蛋白质折叠类型识别网站:蛋白质三维结构的模建模建(modeling)蛋白质结构的基本概念蛋白质结构预测的从头计算同源和比较模建方法蛋白质折叠类型识别法蛋白质二级结构预测蛋白质结构预测方法准确性的评估应用实例蛋白质二级结构预测概况二级结构预测的方法统计方法:Chou-Fasman方法,GOR方法,神经网络方法,最近邻居方法物理化学方法:Lim方法,Cohen方法机器学习方法:基于多重序列比对的二级结构预测,PSIPRED方法二级结构预测的准确度单序列:~60%,应用多重序列比对的:65-85%二级结构的在线预测PHD算法:GOR算法:蛋白质结构预测方法准确性的评估评估的必要性CASP(CriticalAssessmentofTechniquesforProteinStructurePrediction)项目网址:1994年,CASP1,35个小组,100个预测2000年,CASP4,160个小组,11136个预测应用实例计算机模拟用于研究蛋白质的折叠机理能在不同分辨率水平上提供丰富的信息模拟的时间尺度在纳妙级目前只能用于小肽片断小蛋白的折叠时间在20us,最短1us1998年,Collman对HP-36的分子动力学模拟使用由256个CPU构成的超级并行计算级CrayT3E模拟时间1微秒计算时间长达两个半月得到了与NMR结构有一定类似性的结构,并观察到蛋白质折叠的中间体HP-36的分子动力学模拟第一节生物大分子的计算机模拟生物大分子的计算机模拟方法蛋白质三维结构的模建核酸结构的模拟核酸结构的模拟用分子动力学方法模拟核酸溶液结构应用实例1983年,首次研究,tRNAphe的模拟2001年,端粒酶抑制剂与DNA相互作用的模拟生物大分子的模拟研究对于现代药物设计的意义基于结构的药物设计要求知道药物靶标的结构目前大多数药物靶标的结构是未知的计算机模拟研究对于了解靶标结构、设计先导化合物提供了强有力的帮助