MODELLER

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基本示例:阴道毛滴虫乳酸脱氢酶的单模板建模一个新型的关于乳酸脱氢酶的基因从阴道滴虫(TVLDH)中被确定下来。与其它的乳酸脱氢酶蛋白相比,这个类似蛋白与这个物种(阴道滴虫)的苹果酸脱氢酶(TvMDH)有着更高的相似性。我们假定通过相对近的时期的趋同进化,TVMDH从TvLDH中衍生了出来。为了研究这个序列的结构背景,并对一个通过定点突变来阐明在酶特异性的趋同进化的表观假设中的特异性改变的实验提出建议,我们对TvLDH与TvMDH建立了比较模型。天然的与突变后的酶表达后,对它们的活性进行了比较。1.TvLDH相关结构的搜索首先,需要将目标TvLDH序列转化为MODELLER能读取的PIR格式(文件TvLDH.ali).第一行包含序列码,形式为P1;code.用冒号分隔拥有十个域的第二行通常包含结构文件的信息,如果可用的话。只有这些区域中的两个被用于序列,sequence(表明这个文件包含一个结构未知的序列)和TvLDH(模式文件名)。该文件的其余部分包含TvLDH的序列,使用*标记它的结尾。使用标准的单字母氨基酸码。(注意必须使用大写形式;一些小写字母用于非标准残基。见Modeller中的modlib/restyp.lib文件以获取更多的信息)搜索已知结构的潜在相关序列通过MODELLER的profile.build()命令来执行。以下脚本,逐行执行以下操作(见文件build_profile.py):1.为这一建模运行初始化'environment',通过创建一个新'environ'对象。几乎所有的MODELLER脚本都需要这一步,因为新的对象(在这里我们称之为'env',但你可以将它命名为任何你喜欢的)对构建大多数其他有用的对象是必须的。2.创建一个新的'sequence_db'对象,命名为'sdb'。'sequence_db'被用于容纳蛋白质序列的大型数据库。3.读取一个包含序列相似性在95%的非冗余PDB序列的text格式文件到sdb数据库中。这一序列在pdb_95.pir文件中,和之前创建的序列一样,这个文件也是PIR格式。4.写一个二进制机器特异性文件,包含上一步骤中所读的所有序列。5.读取二进制格式文件。注意,如果你打算使用一个数据库多次,你应该只使用前两个步骤一次,以生成二进制数据库。在随后的运行中,你可以忽略这两个步骤并且直接使用二进制文件,因为读取二进制文件比读取PIR文件快很多。6.产生一个新的'alignment'对象,命名为'aln',从文件TvLDH.ali中读取我们的二进制序列TvLDH,并且将其转化到一个配置文件'prf'中。配置文件包含着与序列比对相似的信息,但是更加的简洁并且有利于数据库搜索。7.为我们的二进制配置文件'prf'搜索序列数据库'sdb'。序列数据库中所匹配的被添加到配置文件中。8.写一个二进制序列和它的同源物的配置文件(见文件build_profile.prf).等效信息也被以标准序列格式写出。注意,因为这个脚本是通过Python编程语言所写的,它使用Modeller-特异性命令,所以在你的命令行中应该通过使用一个和下面相似的命令来运行该脚本mod9v1build_profile.py注意,mod9v1脚本运行Modeller版本9v1,使用不同版本的Modeller就将mod9v1改为相应的版本。profile.build()命令拥有许多选择项。在这个例子中rr_file被设置使用BLOSUM62相似矩阵(Modeller发布中所提供的文件blosum62.sim.mat)。因此,参数matrix_offset和gap_penalties_1d被设置成对BLOSUM62矩阵是适当的。例如,通过设置参数n_prof_iterations等于1我们将仅运行一个搜索重复。这样,不需要检查配置文件的偏差(check_profilesettoFalse)。最后,参数max_aln_evalue被设置成0.01,说明e值小于或等于0.01的序列将被包含在最终的配置文件中。2.筛选一个模板build_profile.py脚本的输出被写入到build_profile.log文件。MODELLER总是产生一个log文件。log文件中的错误和警告能够通过分别搜索_Eand_W附加条件而发现。MODELLER也将配置文件写入到text格式的build_profile.prf文件。输出文件的一个摘录(忽略对齐序列)接下来能被看到。前6个注释行表明MODELLER中用来构建配置文件的输入参数。后面的注释行相当于通过profile.build()所检测的相似性。profile.build()输出中最重要的列是第二,第十,第十一以及第十二列。第二列报告了和目标序列相比较的PDB序列的代码。每一行的PDB代码是一组PDB序列的代表,这些序列彼此拥有95%或更高的序列相似性并且拥有少于30个残基或30%序列长度差异。第十一列报告了TvLDH和一个通过序列长度标准化了的PDB序列(第十列所显示)之间的序列一致性百分比。通常,一个序列的一致性值在大约在25%以上表示一个潜在模板,除非序列太短(例如,少于100个残基)。第十二行中通过序列的e值来更好地检测显著性序列。在这个例子中,六个PDB序列对e值为0二进制序列显示出极显著相似性。正如所预期的,所有的采样点和苹果酸脱氢酶相一致(1bdm:A,5mdh:A,1b8p:A,1civ:A,7mdh:A,and1smk:A)。在六个相似结构中为了筛选出最适合我们二进制序列的模板,我们将使用alignment.compare_structures()命令来评估这些可能模板间的结构和序列相似性。(文件compare.py).在这种情况下,我们创建了一个(最初是空的)对齐对象'aln'然后使用一个Python'for'循环来引导MODELLER来读取每一个PDB文件。(注意,为了使其能够实现,和这个脚本相同的目录下你必须有所有的PDB文件,从PDB网站上或者从该页顶部链接归档下载)。我们用model_segment参数要求仅对一个单链从每个PDB文件中读取(默认情况下,所有链都会从文件中读取)。当每一个结构都被读入,我们使用append_model法将结构添加到序列比对中。在循环的结尾,所有的结构都在序列对比中,但是它们不是理想的彼此对齐(append_model生成了简单的1:1连续序列)。所以,我们通过使用malign来计算一个多序列比对的方法来改进这个比对。malign3d命令于是执行六个三维结构的迭代最小二乘叠加,使用多序列比对作为它的起点。该compare_structures命令根据malign3d构建的对比来比较这些结构。它并没有执行一个比对,而是计算原子位置和距离之间的RMS和DRMS偏差,主链与侧链二面角之间的不同,序列一致性的百分比,以及多个其它检测。最后,id_table命令写一个拥有成对序列线距的文件,它能够直接作为dendrogram命令的输入文件(或PHYLIP软件包中的聚类程序)。dendrogram命令计算一个来自从成对距离的输入矩阵的聚类树,它帮助可视化这些候选模板间的差异。log文件中的节选在下面显示(文件compare.log)。以上的对比显示1civ:A和7mdh:A在序列和结构上最相似。然而,7mdh:A拥有更好的结晶分辨率(2.4Å:2.8Å),排除1civ:A。第二组结构(5mdh:A,1bdm:A,and1b8p:A)拥有相同的相似性。在这个组中,5mdh:A有最低的分辨率,仅考虑1bdm:A,and1b8p:A。1smk:A是所有可能的模板中最不同的结构。然而,和所查询序列相比它是序列相似性最低的一个。我们最终挑选了超过1b8p:Aand7mdh:A的1bdm:A,因为它有更好的晶体结构R-factor(16.9%)和与所查序列之间更高的全序列一致性(45%)。3.调整TvLDF和模板一致MODELLER中的align2d()命令是调整TvLDF的序列与1bdm:A的结构一致的好方法。尽管align2d()基于动态规划算法,它和标准的序列-序列比对方法是不同的,因为当构造一个比对时它考虑了来自模板的结构信息。这一任务是通过一个可变间隙罚函数来实现的,这一函数趋向于在溶剂暴露和弯曲区域,二级结构片段之外,在空间上相互靠近的两个位置中放置间隙。结果,序列对比错误和使用标准序列对比技术所产生的错误相比减少了将近三分之一。当序列间的相似度下降及缺口数增多时这一提升变得尤为重要。在这个例子中,模板—目标之间的相似度太高以至于几乎所有的使用合理参数的对比方法将产生相同的对比结果。以下的MODELLER脚本使得文件TvLDH.ali中的TvLDH序列与文件1bdm.pdb中的1bdm:A结构相一致。(文件align2d.py).在这个脚本中,我们又创建了一个'environ'对象来作为后面命令的输入。我们创建一个空白比对'aln',然后一个新的蛋白质模型'mdl',到我们读取的1bdmPDB结构文件中的A链片段中。append_model()命令将这一模型的PDB序列传输到对比中,将其命名为1bdmA(align_codes)。然后使用append()命令将TvLDH.seq文件中的TvLDH序列添加到对比中。align2d()命令接着被用于执行对比这两个序列。最后,对比结果被写出为两种格式,PIR(TvLDH-1bdmA.ali)andPAP(TvLDH-1bdmA.pap)。PIR格式再随后的建模阶段中能够被MODELLER使用,而PAP对比格式更易于可见分析。由于目标-模板间的高相似性,对比结果中仅存在很少的缺口。在PAP格式中,所有的相同位置都用“*”标记(文件TvLDH-1bdmA.pap)。4.建模一旦一个目标序列与模板间的对比分析被构建,MODELLER使用automodel类来完全自动地计算目标序列的3D模型。以下的脚本将会生成基于1bdm:A模板结构和文件TvLDH-1bdmA.ali中的序列对比的五个相似TvLDH模型。(文件model-single.py).第一行装载了automodelclass并将它准备使用。然后我们创建了一个automodel对象,称之为‘a’并且设置参数来引导模型建立步骤。alnfile命名包含PIR格式的目标-模板序列对比文件。knowns定义了alnfile中的已知模板结构(TvLDH-1bdmA.ali)。sequence定义了alnfile中的目标序列的名称。assess_methods要求一个或者更多的评估分数(在接下来的章节中详细讨论)。starting_model和ending_model定义了被计算的模板数(它们的索引将从1运行到5)。文件中的最后一行叫做make法,它实际上计算了该模型。最重要的输出文件是model-single.log,它报告了警告,错误,以及其他有用的信息,包括在最终模型中保留违犯的用于建模的输入限制。这一log文件中的最后几行显示如下。如你所见,log文件总结了所有建立的模型。对于每一个模型,它列出了文件名,这些文件名包含了PDB中的模型坐标。这些模型能够被任何读取PDB格式的程序所查看,比如Chimera。log还显示了每一个模型的分数,我们将在下面进一步讨论(注意,实际数量在你的机器上也许稍有不同-这点毋庸担忧)5.模型评估如果多个模型被用于计算相同的目标,最优模型能够通过多种方法被筛选出来。比如,你可以挑选拥有最低MODELLER目标函数或DOPE或SOAP评估分数,或者拥有最高GA341评估分数的模型,这些报告在上面的log文件的末尾。(目标函数,molpdf也被计算了,并且同样报告在每个生成的PDB文件中。DOPE,SOAP,以及GA341数,或者其它任何评估分数,只有当你将他们列在assess_methods中时才被计算。为了计算SOAP分数,你首先需要在SOAP网站上下载SOAP-Protein潜在文件,然后通过删除‘#

1 / 26
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功