第七章蛋白质功能分析与结构预测农业与生物学院张利达zhangld@sjtu.edu.cn蛋白质功能分析蛋白质功能预测新基因的可能功能–已经了解到神经纤维素nf1基因的突变与遗传性的多发性神经纤维瘤Ⅰ型疾病有关(neurofibromatosis1);但关于该疾病的分子机制知之甚少。–序列相似性分析发现NF1与酵母的IRA蛋白同源,该蛋白是一个GTP酶活性调控蛋白(GTPaseactivatingprotein),也已经知道在酵母细胞中其调控GTP酶Ras的活性。–推断:NF1在人细胞中可能调控Ras蛋白;然后进一步可以用生物实验加以验证。IRANF1调控GTP酶Ras活性调控GTP酶活性蛋白质功能预测方法1.基于同源序列的蛋白质功能预测2.基于结构域(模体)的蛋白质功能预测3.基于空间结构的蛋白质功能预测4.基于相互作用的蛋白质功能预测基于同源序列的蛋白质功能预测蛋白质A具有转录功能,蛋白质B与A在氨基酸序列上同源(直系同源),因而蛋白质B也具有转录功能。AB转录活性转录活性蛋白质A蛋白质B序列相似性比较作为一个非常有效的工具用于同源基因的发现基于序列同源的蛋白质功能预测基于序列同源的蛋白质功能预测基于结构域(模体)的蛋白质功能预测一类基因具有转录功能,且它们所编码的蛋白质都具有Y结构域(模体),蛋白质B也具有Y结构域(模体),因而蛋白质B的功能也应该与基因转录相关。YYYYYY蛋白质B转录活性转录活性•蛋白质模体或结构域在氨基酸序列水平比其他区域保守,通过对序列比对可以发现这些在进化上较为保守的区域;•蛋白质模体或结构域通常与该蛋白质的功能直接相关;•根据模体或结构域信息可以对同源水平较低的蛋白质的进行功能预测。基于结构域(模体)的蛋白质功能预测基于模体的蛋白质功能预测举例:SWISS-PROTQ03112基于空间结构的蛋白质功能预测蛋白质A具有某一空间结构,而蛋白质B也具有与A类似的空间结构特征,因而蛋白质B具有与A相似的功能。鼠的Abl酪氨酸激酶人的p38丝氨酸激酶–序列-结构比较–结构-结构比较基于空间结构的蛋白质功能预测蛋白质结构决定蛋白质性质和功能,相似结构具有类似功能;结构比序列更保守,空间结构比较可以发现序列相似性很低但结构相似的远源同源蛋白,根据这些远源同源蛋白的结构和相关信息推测蛋白可能的功能。基于空间结构的蛋白质功能预测鼠abl酪氨酸激酶与人p38丝氨酸激酶序列比较鼠酪氨酸激酶人丝氨酸激酶基于空间结构的蛋白质功能预测蛋白质结构比序列更保守28%的序列一致性鼠abl酪氨酸激酶人p38丝氨酸激酶基于相互作用的蛋白质功能预测蛋白质之间相互作用以及通过相互作用而形成的蛋白复合物是细胞各种基本功能的主要完成者。蛋白质A具有转录功能,蛋白质B可以与蛋白质A相互作用,因而蛋白质B可能与基因转录相关。蛋白质A蛋白质B转录活性转录活性基于相互作用的蛋白质功能预测A具有转录功能,蛋白B、C、D和E的功能可能与基因转录有关ABCDEDIP蛋白质相互作用数据库(DatabaseofInteractingProteins)基于相互作用的蛋白质功能预测蛋白质结构预测结构决定功能•一级结构决定高级结构—相似的氨基酸序列具有相似的结构•相似结构具有类似功能蛋白质一级结构•蛋白质一级结构就是氨基酸的排列顺序MTYKLILNGKTKGETTTEAVDAATAEKVFQYANDNGVDGEWTYTE蛋白质二级结构•二级结构:主要由氢键维系的结构(α-螺旋、β-折叠)Protein3DStructureα-螺旋β-折叠环(loop)或转角无规则卷曲(coil)Back蛋白质三级结构二级结构进一步折叠形成的结构域蛋白质空间结构确定方法•实验方法X-射线晶体衍射–最为精确的方法(~1A)–体外,需要蛋白结晶核磁共振(NMR)–精确度次之(~1-2.5A)–体内,不需要结晶–适用于小分子蛋白•计算机方法–结构预测蛋白质的氨基酸序列决定其结构,根据氨基酸序列来预测蛋白质结构。蛋白质空间结构确定方法由于资金和技术等方面的限制,许多蛋白质的空间结构尚未测定。对于这些蛋白质,利用计算机方法进行结构预测是获得其空间结构的很好办法。PDB数据库55,000个空间结构蛋白质结构预测Swiss-prot405,506个记录TrEMBL6,964,485个记录蛋白质结构预测方法•同源建模法(Homology)–同源蛋白质具有相似的结构和功能–根据序列同源性推断目标蛋白的结构•折叠识别/穿线法(Threading)–根据现有的蛋白质折叠类型来推断目标蛋白的折叠方式•从头算预测法(abinitio)–从序列到结构–根据物理模型进行分子动力学模拟•主要思路:对于一未知结构的蛋白质,找到已知结构的同源蛋白质,以同源蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。•依据:蛋白质一级结构决定高级结构,相似序列具有相似结构。一般如果蛋白质序列一致性超过30%,则它们具有类似的空间结构,即两个蛋白质的基本骨架相同,只是在非主要结构的一些细节部分有所不同。蛋白质同源建模预测结果准确率:•一致性60%的氨基酸序列,同源建模非常准确。若超过60%,且无大片段的插入或缺失,则预测结果接近于实验测定的结果。•一般情况,如序列一致性大于30%,则可以期望得到比较理想的预测结果。蛋白质同源建模蛋白质同源建模应用Marti-Renometal.Annu.Rev.Biophys.Biomol.Struct.(2000):291-325.可用于分辨蛋白空间结构的变化,如确定结合位点的位置及估计配体大小根据结构进行蛋白定点突变模型准确率=低分辨率的x-ray或中等分辨率的NMR小分子配体或蛋白与蛋白对接可用于蛋白质功能的预测蛋白质同源建模基本过程1.搜索与目标序列同源的模板序列(已知结构的蛋白质序列)2.目标序列与模板序列对齐(关键步骤)3.骨架结构构建4.非保守区的环(loop)结构建模5.侧链安装6.优化和评估所建模型一、选择合适的结构模板•通过序列相似性-用FASTA,BLAST,PSI-BLAST-高度序列相似性的效果最好,但可尝试远源同源性,之后评估效果•进化关系越相近,效果越好-考虑系统进化树•通常采用多个模板来建立模型的效果比较好一、选择合适的结构模板在PDB数据库中搜索与目标序列同源的模板序列,找到所有在序列水平上与目标序列相似的已知结构的蛋白质。一、选择合适的结构模板根据一定序列相似性标准初步筛选模板,如SWISS-MODEL选择与目标序列一致性大于25%,且长度大于20个氨基酸残基的已知结构的蛋白序列为模板。二、目标序列和模板的比对•目标序列和模板正确的比对非常重要•比对过程尽量使用结构信息-大部分的插入/缺失发生在主要二级结构的连接处,而不是发生在二级结构中间。-用所有可能的模板进行基于结构的序列比对二、目标序列和模板的比对ClustalW的对齐结果考虑结构的序列对齐结果二、目标序列和模板的比对ClustalW的对齐结果考虑结构的序列对齐结果•如果只有一个模板,直接复制空间骨架结构;•如果有多个模板,对所有相关模板进行空间结构叠合,去除不一致的模板。三、建立模型I——骨架的构建三、建立模型I——骨架的构建•平均化α-碳原子的位置,确定目标氨基酸序列的空间骨架结构。loop结构建模的方法─基于物理性质的方法:分子动力学进行结构模拟─基于已知结构的方法:与已知结构的loop进行匹配,将相匹配的loop结构的坐标转换为目标结构的坐标•Loop是含有5个以上的氨基酸残基的β转角,连接蛋白质的二级结构•通常目标分子和模板在loop区域不同(片段的插入/缺失)四、建立模型II——loop结构建模Back侧链安装─对具有相似序列的位置,复制模板结构─对于不同序列的位置,通过匹配旋转异构体数据库中的结构来确定侧链结构五、建立模型III——侧链安装六、优化所建模型•由步骤I-III建立的蛋白质结构模型可能具有较差的立体化学性质;•通过分子动力学能量最小化可以改进严重的局部错误,如SWISS-MODEL通过对所构结构模型进行能量最小化优化。有很多地方容易出错…•不合适的模板——根本没有与目标序列相同的结构;•错误的对齐结果——产生错误的结构•错误的loop结构构建•错误的侧链位置折叠识别方法•很多蛋白质在氨基酸序列水平上有很大的不同(30%),对于这类蛋白质,很难直接通过序列比对找出它们之间的关系。•蛋白质结构具有很大的可变性,但由于分子作用力往往倾向于形成某些折叠结构(基本骨架)。•有限的蛋白质折叠类型(可能只有几千种)。有限的蛋白质折叠类型独特的折叠结构数量较少(可能只有几千种)独特折叠结构数量1980198519901995200020052008有限的蛋白质折叠类型向PDB提交的新结构中,90%与数据库中的已知折叠结构相似有限的蛋白质折叠类型258种类型165种类型141种类型334种类型50种类型目标序列MTYKLILNGKTKGETTTEAVDAATAEKVFQYANDNGVDGEWTYTE折叠结构折叠识别方法目标序列与已知折叠结构进行比较,找到目标序列最佳的折叠结构,以此预测目标蛋白结构(因为只有千余种折叠结构,总能找到目标序列正确的折叠形式)。折叠结构模板数据库蛋白质折叠识别是一种不依赖于序列相似性的蛋白质结构预测方法,该方法通过序列与结构的比对,从有限的蛋白折叠结构中找到目标序列最有可能的折叠方式。折叠识别方法折叠识别的关键:判别目标序列与模板的关系,也就是序列与结构能准确比对。MTYKLILNGKTKGETTTEAVDAATAEKVFQYANDNGVDGEWTYTE残基的环境偏好:Es残基间相互作用倾向:Ep插入/缺失区域:Egtotalenergy:Em+Es+Ep+Eg+Ess残基突变成模板对应位置残基的倾向:Em残基与所在二级结构的兼容性:Ess序列-结构最佳对齐方式,能量最小化折叠识别通过在比对过程中计算结构能量,实现序列与结构性质的关联,这也是与同源建模最大的不同之处。折叠识别方法MTYKLILNGKTKGETTTEAVDAATAEKVFQYANDNGVDGEWTYTEScore=600Score=1600Score=920Score=1120哪一个为目标序列的正确折叠结构?折叠识别方法•折叠识别方法只能预测蛋白质的骨架结构蓝色:实际结构绿色:预测结构预测结构实际结构折叠识别方法•折叠识别方法预测较成功的例子actualpredictedactualactualactualpredictedpredictedpredicted折叠识别方法•折叠识别方法预测不太成功的例子折叠识别方法从头预测方法——既无已知结构的同源蛋白质、也没有已知结构的远源同源蛋白质的情况下,仅仅根据氨基酸序列本身,通过理论计算(如分子动力学计算)进行结构预测。该类方法假设折叠后的蛋白质取能量最低的构象。从头预测方法从头预测方法从头预测方法的不足之处:•一是自然的蛋白质结构和未折叠的蛋白质结构,两者之间的能量差非常小。•二是蛋白质可能的构象空间庞大,针对蛋白质折叠的计算量非常惊人。当前预测方法概况MAGSKWETEETNQFAIENQKLEEEWRKKRRLEKKRKRKILEEEEKAEERNIDACRLYLMGNTPELKSCNSIDDYEILEKIEEGSYGIVYRGLDKSTNTLVALKKIKFDPNGIGFPITSLREIESLSSIRHDNIVELEKVVVGKDLKDVYLVMEFMEHDLKTLLDNMPEDFLQSEVKTLMLQLLAATAFMHHHWYLHRDLKPSNLLMNNTGEIKLADFGLARPVSEPKSSLTRLVVTLWYRAPELLLGAPSYGKEIDMWSIGCIFAEMITRTPLFSGKSELDQLYKIFNLLGYPTREEWPQYFLLPYANKIKHPTVPTHSKIRTSIPNLTGNAYDLLNRLLSLNPAKRISAKEALEHPYFYESPRPKDPKFFP