利用蛋白质进行预测的方法

huangshunbao
2 ℃
2020-04-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

2020/4/3第六章利用蛋白质进行预测的方法2020/4/3第一节概述20世纪60年代后期，Anfinsen首先发现去折叠蛋白或者说变性(denatured)蛋白质在允许重新折叠的实验条件下可以重新折叠到原来的结构，这种天然结构(nativestructure)对于蛋白质行使生物功能具有重要作用，大多数蛋白质只有在折叠成其天然结构的时候才能具有完全的生物活性。自从Anfinsen提出蛋白质折叠的信息隐含在蛋白质的一级结构中，科学家们对蛋白质结构的预测进行了大量的研究，运用适当的算法，从氨基酸序列出发，预测蛋白质的结构。2020/4/31.意义一种生物体的基因组规定了所有构成该生物体的蛋白质，基因规定了组成蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成，但是，它们只有折叠成特定的空间构象才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能，也有利于认识蛋白质是如何执行其功能的。确定蛋白质的结构是非常重要。2020/4/3意义分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。研究蛋白质结构，有助于了解蛋白质的作用，了解蛋白质如何行使其生物功能，认识蛋白质与蛋白质（或其它分子）之间的相互作用，对于生物学还是对于医药学都是非常重要。新发现的蛋白质分子，通过结构分析，可以进行功能注释，指导进行功能确认的实验。通过蛋白质的结构分析，确认功能单位，为设计新的蛋白质或改造已有蛋白质提供可靠的依据，同时为新的药物分子设计提供合理的靶分子结构。2020/4/32.蛋白质折叠结构蛋白质序列由相应的核酸序列所决定，通过对基因的转录和翻译，将原来四字符的DNA序列，根据三联密码规则翻译成20字符的蛋白质氨基酸序列。蛋白质具有不同的长度、不同的氨基酸排列和不同的空间结构。蛋白质中相邻的氨基酸通过肽键形成一条伸展的链，肽链上的氨基酸残基形成局部的二级结构，各种二级结构组合形成完整的折叠结构。在蛋白质的空间结构中，序列上相距比较远的氨基酸可能彼此接近。在水溶液中,由于氨基酸残基的疏水性，肽链折叠成为特定的三维结构。氨基酸疏水片段位于于分子的内。2020/4/3例:酪氨酸磷酸酶的蛋白质序列2020/4/3例:酪氨酸磷酸酶的蛋白质序列的二级结构H代表螺旋，E代表折叠，B表示β桥，G表示310螺旋，I表示π螺旋，T表示氢键转角，S代表转向2020/4/3例:酪氨酸磷酸酶的蛋白质序列的三级折叠结构2020/4/33.蛋白质结构预测问题寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的映射。自然界实际存在的蛋白质是有限的，并且存在着大量的同源序列，可能的结构类型也不多，序列到结构的关系有一定的规律可循。因此，蛋白质结构预测是可能的。2020/4/3蛋白质结构预测的核心问题序列——结构——功能….-Gly-Ala-Glu-Phe-….功能2020/4/34.蛋白质结构预测的两大类方法：（1）理论分析方法通过理论计算（如分子力学、分子动力学计算）进行结构预测。（2）统计的方法对已知结构的蛋白质进行统计分析，建立序列到以级结构结构的映射模型，根据映射模型直接从氨基酸序列预测结构。包括：经验性方法结构规律提取方法同源模型化方法2020/4/35.蛋白质功能结构的分析流程2020/4/36.蛋白质预测免费工具NCBI:BLAST提供的工具(已介绍)ExPASy:ExpertProteinAnalysisSystem瑞士生物信息院提供的蛋白质在线分析工具,包括:蛋白数据库(SWISS-PROT)蛋白分析工具:蛋白质辨识、蛋白序列、结构分析、同源性分析、DNA-蛋白质转换、一级结构分析、二级结构分析、三级结构分析、跨膜序列预测、信号肤等。此外还提供了多数知名分析工具。2020/4/3第二节蛋白质辨识1、AAComIdent功能：利用氨基酸组成识别未知蛋白质。前提：如只有蛋白的氨基酸组成、pI值和分子量,就可用AACompIdent寻找相似蛋白。过程：将查询蛋白与库中已知蛋白进行比较,给出相似蛋白及其打分。该程序需输入蛋白质的氨基酸组成、等电点pI和蛋白质分子量、正确的物种分类等关键词。有6种氨基酸框架可选择，不同的框架对分析方式有一定的影响。2020/4/3AACompIdent对数据库中的每一个序列根据序列组成差异打分，询结果由电子邮件返回,共有3级列表：①所列蛋白只考虑物种分类不考虑pI和分子量。②不考虑物种分类、pI和分子量的全体蛋白。③即考虑物种分类,也考虑pI和分子量。蛋白质RRF-ECOLI(P16174)EMAIL结果实例注意：零分表明查询序列与提出的序列完全相符，打分越低相似性越高。2020/4/32.AACompSim与AACompIdent以实验室所得的氨基酸组成为依据进行搜索不同,AACompSim使用SWISS-PROT蛋白质的序列为依据,将用户要查询的蛋白与SWISS-PROT数据库中的蛋白质的序列进行比较、辨识,检测蛋白质之间的微弱关系。与AACompIdent算法类似,该算法也提供了4种氨基酸的组合方式(Constellation)供用户选择,查询时用户需要在4种氨基酸组合中挑选其一,输入所要查询蛋白的SWISS-PROTID、物种。查询结果输出与AACompIdent类似,见P1212020/4/33.PROPSEARCH如果序列的相似性小于特异性阈值25%,通常的蛋白质辨识工具就难以辨识其功能和结构的相似性。如查询蛋白是一个新蛋白,也不能用序列对比的方法查询。PROPSEARCH方法可解决上述问题。PROPSEARCH忽略了蛋白质的氨基酸残基顺序,利用蛋白的氨基酸组成来检测蛋白质之间的联系。它使用了144种不同的物化属性，如：分子量、巨大残基含量、小残基含量、平均疏水性、平均电荷、所选择的二肽集团的含量等进行分析。这些物理属性集合被称为查询向量,PROPSEARCH将查询向量与目标数据库(SWISS-PROT)中向量数据库逐个进行比较,然后给出计算结果。利用PROPSEARCH查询十分简单,可在线分析。访问PROPSEARCH的Web页面和Expasy的连接进行计算，用EMAIL返回结果。2020/4/3PROPSEARCH查询结果E-mail输出结果包括3个部分：①解释性材料②距离分值(DIST)与整个目标数据库的直方图。DIST列是距离分值,表示查询序列与PROPSEARCH找到的属于同一家族的序列之间的相似性程度,该分值通常表明具有相似的功能,分值越低,相似度越大,零分表示完全相似。分值在0.0~1.3,相似度为99.9%,分值在10.0~11.2相似度为80%。“Numberofhit”列给出的是数据库中具有该分值的蛋白数目。③查询结果综合表DIST结果按距离分值顺序排列;ID为该蛋白在SWISS-PROT中的标识；LEN2表示该蛋白与查询蛋白重叠的序列的长度;POS1、POS2是重叠序列的起始、终止位点;pI是计算出该蛋白的pI值;DE是SWISSPROT中对该蛋白的描述。2020/4/34.PepMAPPERPepMAPPER(ProteinMapper)是利用质谱(MS)技术获得信息,通过测量被特定蛋白酶消化得到的肽段进行数据库比较,进行蛋白质辨识分析的工具。该方法不需全部或部分测序,显著的减少了实验时间。用户登陆PepMAPPER网页，在线输入蛋白的物种分类、所用的消化酶、质谱中得到的粒子类型、每个肽段的电荷数、肽段的pI值等。2020/4/3第三节序列的物理性质1、ComputepI/MW(ExPASy)ComputepI/MW是计算输入序列等电点和分子量的工具。分子量的计算是把序列中每个氨基酸的平均分子量加在一起,在加上一个水分子的分子量。该工具使用时非常简单,可上网输入查询序列。可用2种输入方法:①把序列整理为FASTA格式,该工具会自动计算全序列的pI值和分子量;②提供SWISSPROT标识,即ID(如G3PZHUMAN)或SWISS-PROT/TrEMBL注册号:AC(如zP04406)。在计算结果中,该工具会提醒用户是计算全序列还是中间某一片段,如果是片段,请输入N端和C端位置,结果中该工具不仅给出pI值和分子量,还提供该条目的描述和物种记录。2020/4/33-磷酸甘油醛脱氢酶(G3P2-HUMAN,p04406),查询其100~200氨基酸残基的分子量和pI值的结果2020/4/32.PeptideMassPeptideMass工具针对肽段图谱进行分析,主要用来预测蛋白质在与特定的蛋白酶或化学试剂作用下的内切产物。这些蛋白酶和试剂包括:胰蛋白酶(Trysin）糜廉蛋白酶(Chymotrypsin）LysC、ArgC、AspN、GluC溴化氰。另外，半光氨酸和甲硫氨酸可在计算产物肽段之前加以修饰。2020/4/3PeptideMass分析可用一段原序列,也可提供SWISS－PROT标识,|如果是后者,PeptideMass工具还能利用SWISS-PROT库中的信息进行改进计算:除去信号序列、在剪切之前引入已知的翻译后的修饰等。然后用户在“Selectanenzyme,,一项中选择想要的酶。PeptideMass工具将输出的结果列成表格,其中包括输入蛋白的pI理论值和分子量,SWISSPROT库中相关变种的分子量、位点、修饰后的分子量和信息,肽片段的序列。示例结果2020/4/33.SAPSSAPS(StatisticalAnalysisofProteinSequence)是瑞士实验癌症研究院提供的蛋白质序列统计分析方法,用于查询序列的统计信息。将查询蛋白序列提交给SAPSWeb服务器,对查询序列分析,输出该蛋白的物理化学性质信息,如:各种氨基酸的含量、整个序列电荷分布、正负电荷聚集区分析、高疏水性区域和跨膜区段、重复序列、周期性等分析结果。2020/4/3第四节二级结构和折叠类型蛋白质的二级结构是指蛋白质分子中某一段肽链的局部空间结构。主要为:α-螺旋(α-helix)、β折叠(β–pleatedsheet)、β转角(β-turn)、无规则弯曲(RandomCoil)。在许多蛋白质分子中,可发现2个或3个具有二级结构的肽段,在空间上相互接近,形成一个具有特殊功能的空间结构,称为基序(Motif)。一个基序总有其特征性的氨基酸序列,并发挥特殊的功能。一级结构是二级结构的基础,有时蛋白质分子中起关键作用的氨基酸残基缺失或被替代,都会严重影响空间构象乃至生理功能,如,由蛋白质分子发生变异产生的分子病。研究蛋白质的二级结构对确定蛋白质空间结构有重要意义。2020/4/3二级结构和折叠类型己知蛋白质的性质和结构信息可以到SWISS-PROT或PHD数据库中检索。对新发现的蛋白质或功能未知的基因产物进行分析,首先用BLAST或其他工具在公共数据库中进行相似性搜索,寻找相匹配的蛋白质。当无法找到匹配蛋白质,或有时虽然找到一个有统计学意义的匹配蛋白质,但序列中记录也没有其二级结构的信息。因此，利用二级结构和折叠类型的预测工具可以预测出序列折叠成α-螺旋和β-折叠的能力、可能存在的基序以及功能结构域。2020/4/3二级结构和折叠类型蛋白质二级结构的预测方法与核酸序列预测类似,大多采用了“神经网络”算法,在计算过程中，通过已知数据库中数据作为训练样本进行学习，然后进行预测。有关的二级结构的工具有很多,其中有商用软件,也有在线提供的免费软件,有些仅限用于UNIX机上。我们主要介绍NNPREDICT、PredictProtein和SOPMA3种计算工具。2020/4/31.NNPREDICTNNPREDICT工具使用了一个双层前馈神经网络，预测每个氨基酸分配的类型。使用＝简单,可以直接登陆NNPREDICT网页或通过ExPASy页面上的Pr