蛋白质二级结构预测软件蛋白质二级结构的预测通常被认为是蛋白结构预测的第一步,二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。不同的氨基酸残基对于形成不同的二级结构元件具有不同的倾向性。按蛋白质中二级结构的成分可以把球形蛋白分为全α蛋白、全β蛋白、α+β蛋白和α/β蛋白等四个折叠类型。预测蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为依据,用过人工神经网络、遗传算法等技术构建预测方法。目前较为常用的几种方法有:PHD、PSIPRED、Jpred、PREDATOR、PSA,其中最常用的是PHD。PHD结合了许多神经网络的成果,每个结果都是根据局部序列上下文关系和整体蛋白质性质(蛋白质长度、氨基酸频率等)来预测残基的二级结构。那么,最终的预测是这些神经网络每个输出的算术平均值。这种结合方案被称为陪审团决定法(jurydecision)或者称为所有胜利者(winner-take-all)法。PHD被认为是二级结构预测的标准。总的来说,二级结构预测仍是未能完全解决的问题,一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。PHD的使用请见人工神经网络方法中的“基于人工神经网络模型的预测软件PHDsec使用简介”.nnPredict:~nomi/nnpredict.htmlnnpredict算法使用了一个双层、前馈神经网络去给每个氨基酸分配预测的类型。在预测时,服务器使用FASTA格式的文件,其中有单字符或三字符的序列以及蛋白质的折叠类(α、β或α/β)。残基被分为几类,如α螺旋(H)、β链(E)或其它(-)。若对给定残基未给出预测,则会标上问号(?),这说明无法作出可信的分配。若没有关于折叠类的信息,预测也能在不定折叠类的情况下进行,而且这是缺省的工作方式。据报道,对于最佳实例的预测,nnpredict的准确率超过了65%。PredictProtein:国内镜像:PredictProtein在预测中应用了略为不同的方法。首先,蛋白质序列被作为查询序列在SWISS-PROT库中搜索相似的序列。当相似的序列被找到后,一个名为MaxHom的算法被用来进行一次基于特征简图的多序列比对。MaxHom用迭代的方法来构造比对:当第一次搜索SWISS-PROT后,所有找到的序列与查询序列进行比对,并构造出一个比对后的特征简图。然后,这个简图又被用来在SWISS-PROT中搜索新的相似序列。由MaxHom产生的多序列比对随后被置入一个神经网络,用PHD的方法进行预测。SOPMA:位于法国里昂的CNRS(CentreNationaldelaRechercheScientifique)使用独特的方法进行蛋白质二级结构预测。它不是用一种,而是5种相互独立的方法进行预测,并将结果汇集整理成一个“一致预测结果”。这5种方法包括:Garnier-Gibrat-Robson(GOR)方法、Levin同源预测方法、双重预测方法、PHD方法和CNRS自己的SOPMA方法。简单的说,SOPMA这种自优化的预测方法建立了已知二级结构序列的次级数据库,库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对查询序列进行二级结构预测。其它特殊局部结构的预测软件其它特殊局部结构包括膜蛋白的跨膜螺旋、信号肽、卷曲螺旋(CoiledCoils)等,具有明显的序列特征和结构特征,也可以用计算方法加以预测。卷曲螺旋COILS:卷曲螺旋预测方法,将序列与已知的平行双链卷曲螺旋数据库进行比较,得到相似性得分,并据此算出序列形成卷曲螺旋的概率。COILS算法将查询序列在一个由已知包含卷曲螺旋蛋白结构的数据库中进行搜索。程序也将查询序列与包含球状蛋白序列的PDB次级库进行比较,并根据两个库搜索得分的不同决定输入序列形成卷曲螺旋的概率。COILS可以下载到VAX/VMS系统上使用,也可通过简单的Web界面使用。程序要求序列数据为GCG或FASTA格式,一次可以提交一条或多条序列。除了序列,用户还能在两种打分矩阵中选择一种:MTK是根据肌球蛋白、原肌球蛋白和角蛋白序列得到的打分矩阵;或MTIDK,是根据肌球蛋白、原肌球蛋白、中间纤维类蛋白Ⅰ-Ⅴ、桥粒蛋白和角蛋白得到的打分矩阵。程序作者引述了两种矩阵的适用特点:MTK更适合检测双链结构,而MTIDK适合其它情形。用户还能启动一个选项给予每个卷曲a和d位置上残基(通常为亲水性)相同的权重。如果COILS在无权重和有权重情况下得到的结果相差很大,则可能表明存在正错误。程序的作者警告说COILS是用来检测与溶液接触的左手性卷曲螺旋的,对于包埋的或右手性卷曲螺旋则可能检测不到。若一个序列被提交到服务器,程序会整理出一张预测结果图,显示沿着序列各个部分形成卷曲螺旋的倾向性。MacStripe:一个基于Macintoshi系统的应用程序,使用了Lupas的COILS的预测方法,能输出较简单的预测结果。MacStripe要求输入文件为FASTA、PIR或其它普遍文件格式,并象COILS一样产生一个图形文件,包含形成卷曲螺旋的概率,以及用柱状图显示七连体重复模式的连续性。信号肽SignalP:丹麦技术大学的生物序列分析中心开发了SignalP这个强大的信号肽及其剪切位点检测工具。该算法基于神经网络方法,用已知信号序列的革兰氏阴性原核生物、革兰氏阳性原核生物及真核生物的序列分别作为训练集。SignalP预测的是分泌型信号肽,而不是那些参与细胞内信号传递的蛋白。跨膜区域TMpred:预测蛋白质的跨膜区段和在膜上的取向,它根据来自SWISS-PROT的跨膜蛋白数据库Tmbase,利用跨膜结构区段的数量、位置以及侧翼信息,通过加权打分进行预测。Tmpred的Web界面十分简明。用户将单字符序列输入查询序列文本框,并可以指定预测时采用的跨膜螺旋疏水区的最小长度和最大长度。输出结果包含四个部分:可能的跨膜螺旋区、相关性列表、建议的跨膜拓扑模型以及代表相同结果的图。蛋白质预测分析网址物理性质预测:ComputePI/MW://expaxy.hcuge.ch/sprot/peptide-mass.htmlTGREASE://ulrec3.unil.ch/software/SAPS_form.html基于组成的蛋白质识别预测AACompIdent://expaxy.hcuge.ch/ch2d/aacsim.htmlPROPSEARCH基于组成的蛋白质识别预测AACompIdent://expaxy.hcuge.ch/ch2d/aacsim.htmlPROPSEARCH二级结构和折叠类预测nnpredict~nomi/nnpredictPredictprotein://://特殊结构或结构预测COILS://与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。由NCBI检索蛋白质序列可联网到:“=protein”进行检索。利用SRS系统从EMBL检索蛋白质序列联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。蛋白质基本性质分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。疏水性分析位于ExPASy的ProtScale程序()可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。跨膜区分析有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase数据库,可通过匿名FTP获得(),参见表一资源名称网址说明TMPRED基于对tmpred数据库的统计分析PHDhtm://ftp.biochem.ucl.ac.uk微机版本蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。“或“”前导肽与蛋白质定位在生物内,蛋白质的合成场所与功能场所常被一