生物信息学概论第七章蛋白质和RNA结构预测1101

necku
0 ℃
2020-03-24

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

CompanyLOGO第七章蛋白质和RNA结构预测生命科学与技术学院阎爱侠COMPANYLOGO蛋白质是重要物质基础人体的所有组织器官都会有蛋白质，蛋白质是生命的物质基础。蛋白质是人体的主要“建筑材料”。没有蛋白质的供给，人就不可能从3～4千克的新生儿长成50～60千克重的成年人。一般说，蛋白质约占人体全部质量的18％，最重要的还是其与生命现象有关。蛋白质和核酸是生命存在的主要形式。COMPANYLOGO面对堆积如山的生物学数据……COMPANYLOGOCOMPANYLOGO蛋白质的功能蛋白质是调控和实现所有生物功能的分子机器。例如：结构蛋白-胶原酶-维持和增强结缔组织机械酶-肌浆球蛋白-实现宏观和微观上的运动各种酶-参与生理功能某些蛋白质与DNA或RNA相互作用产生新的蛋白质COMPANYLOGO蛋白质折叠蛋白质是线性的氨基酸合成的结果，但在生物体内会迅速折叠成一个紧密的球状结构。1.大多数蛋白质只有在折叠成天然球状结构的时候才能具有完全的生物活性。2.去折叠（变性）蛋白质在允许重新折叠的实验条件下可以折叠到原来的结构。COMPANYLOGO重大挑战性问题蛋白质的结构预测！！（目前，还没有一个算法能够很好地预测出一个蛋白的三维结构形状）COMPANYLOGO蛋白质结构预测通过计算（如分子力学、分子动力学等）来进行结构预测（1）对于天然蛋白结构和未折叠结构，两者之间的能量差非常小（1kcal/mol数量级）（2）研究蛋白质结构的计算量非常大COMPANYLOGO7.1氨基酸蛋白质由20种不同大小、形状和化学特性的氨基酸组成。氨基酸结构：COMPANYLOGO蛋白质是由二十种不同的氨基酸构成的20种标准氨基酸都是L-氨基酸特征：L-氨基酸分子中的α碳（分子中第2个碳）结合着一个碱性的氨基和一个酸性的羧基，此外Cα还结合着一个H原子和一个侧链基团（用R表示）。每一种氨基酸的R都是不同的，侧链上的碳依次是第3、4、5和6位碳。COMPANYLOGOA.疏水氨基酸（hydrophobicaminoacid）B.极性氨基酸（polaraminoacid）C.带电氨基酸（chargedaminoacid）氨基酸通常按性质被分为3类COMPANYLOGOCompanyLogo疏水性氨基酸这类氨基酸的侧链大多或者全部由碳原子和氢原子组成，因此这些氨基酸就不太可能与水分子形成氢键。如：酪氨酸、色氨酸、苯丙氨酸等。酪氨酸苯丙氨酸色氨酸COMPANYLOGOCompanyLogo极性氨基酸这类氨基酸的侧链通常由氧原子和/或氮原子组成，它们比较容易与水分子形成氢键。如甘氨酸、半胱氨酸、酪氨酸等。甘氨酸半胱氨酸酪氨酸COMPANYLOGOpH值表示溶液中H+浓度的负对数。55,000,000个水分子中有一个水分子离解成H+和OH-，与之相对应的浓度是1×10-7M，因此中性溶液的pH=7。生理条件（pH7附近）下氨基酸呈现兼性离子形式pHCOMPANYLOGO和水分子相似，许多氨基酸的侧链也含有可离解的质子。氨基酸的pKa值是一个表示氨基酸释放其可离解质子的相对难易程度的量。当pH值比氨基酸的pKa值小一个pH单位时，大约会有90%的氨基酸被质子化；当pH值比氨基酸的pKa值小两个pH单位时，大约会有99%的氨基酸被质子化。pKaCOMPANYLOGOH2NCRCOO-H+H3NCRCOO-H+H3NCRCOOHHKa1Ka2+H++H+兼性离子（Ao）阳离子（A+）阴离子（A-）+OH-+OH-pKaCOMPANYLOGOA0H+〓A+Ka1A0A-Ka2〓H+pKaCOMPANYLOGO利用Handerson-Hasselalch公式，可算出在任一pH条件下一种氨基酸的各种离子的比例：[质子受体]pH=pKa+log------------[质子供体]COMPANYLOGO蛋白质的等电点是指当这种蛋白质在溶液中的静电荷为零时溶液的pH值。蛋白质的等电点可以反映组成这种蛋白质的氨基酸的总体信息。例如如果蛋白质的pI＞7，我们就可以知道蛋白质中的碱性氨基酸比酸性氨基酸多。对R侧链基不解离的氨基酸：pI=(pKa1+pKa2)/2pICOMPANYLOGO●●●[A+]=[A0]pKa1=2.34[A0]=[A-]pKa2=9.60pI=5.970OH-mol数H+mol数pH02468101214甘氨酸的滴定曲线（解离曲线）甘氨酸滴定曲线COMPANYLOGO几种氨基酸的解离常数和等电点氨基酸-COOHpKa-N+H3pKaR基pKapI甘氨酸2.349.605.97丙氨酸2.349.696.02天冬氨酸2.099.823.86(βCOOH)2.97天冬酰胺2.028.85.41精氨酸2.179.0412.48(胍基)10.76组氨酸1.829.16.00（咪唑）7.59COMPANYLOGO7.2多肽的组成（一级结构）几个氨基酸组成的氨基酸链称作肽，一条较长的氨基酸链通常称为多肽或者蛋白质。当两个氨基酸实现共价结合的时候，一个氨基酸的氨基丢失一个氢，同时另一个氨基酸丢失一个氧和一个氢，脱水生成肽键。COMPANYLOGO7.2多肽的组成（一级结构）与DNA分子和RNA分子一样，多肽也具有特定的方向性。多肽的氨基端（N端）具有一个氨基，同时在羧基端（C端）具有一个羧基。蛋白质序列通常被认为是从N端起始，然后逐渐向C端发展的。组成蛋白质的氨基酸序列完全决定了蛋白质的三维形状和理化特性，也最终决定了它的生物功能。COMPANYLOGO7.3二级结构作用–估计蛋白的结构类型–提高同源模建的准确性–三级结构预测的起点方法–Chou-Fasman（经验参数法）–Garnier（GOR法）COMPANYLOGO二级结构COMPANYLOGO7.3二级结构的类型（1）α螺旋：肽链主链绕假想的中心轴盘绕成螺旋状，一般都是右手螺旋结构，螺旋是靠链内氢键维持的。每个氨基酸残基（第n个）的羰基与多肽链C端方向的第4个残基（第4+n个）的酰胺氮形成氢键。COMPANYLOGO7.3二级结构的类型（2）β折叠：肽键平面折叠成锯齿状,相邻肽链主链的N-H和C=O之间形成有规则的氢键,在β-折叠中,所有的肽键都参与链间氢键的形成,氢键与β-折叠的长轴呈垂直关系.COMPANYLOGO7.3二级结构的类型（3）β转角：蛋白质二级结构类型之一，由4个氨基酸残基组成，其中第一个残基的CO基团和第四个残基的NH基团之间形成氢键，使多肽链的方向发生“U”形改变。COMPANYLOGO有些蛋白质中含有大量的α螺旋•如血红蛋白和肌红蛋白而一些蛋白质中则不含或者仅含很少的α螺旋•如铁氧蛋白有些蛋白质的二级结构以β折叠为主•如免疫球蛋白例：肽链Ala(A)-Glu(E)-Leu(L)-Met(M)倾向于形成α螺旋肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成α螺旋COMPANYLOGO7.3.1骨架柔性多肽链中氨基酸的非侧链原子构成了蛋白骨架。骨架中共价键的键长和平面键角或多或少都是固定的。只有两个键可以旋转：(1)氨基氮原子和α碳原子之间形成的键的旋转角(Φ);(2)α碳原子和羧基碳原子之间形成的键的旋转角(Ψ);COMPANYLOGO旋转角phi(N-Cα)psi(Cα–C（羟基）)COMPANYLOGOCompanyLogo一个蛋白质的构象可以通过每个氨基酸的Φ和Ψ角来表示，但是物理上并不能确实观察到所有的Φ和Ψ角，因为一些Φ和Ψ角的组合可能导致骨架上相邻残基侧链原子的空间碰撞。Ramachandran图显示了除甘氨酸残基外的其他氨基酸残基中允许出现的Φ和Ψ值。Ramachandran图甘氨酸没有侧链，因此甘氨酸残基允许出现的Φ和Ψ值的范围比其他氨基酸残基都要大。COMPANYLOGOCompanyLogo预测二级结构的算法中使用了多种计算方法如神经网络、离散态模型、隐马尔科夫模型、最近邻分类和进化计算等。目前大多数二级结构预测的算法都是对一系列由BLAST、FASTA和CLUSTALW算法产生的经过比对的序列进行二级结构预测。现在的二级结构预测算法，如PHD和Predator，将蛋白序列和每个氨基酸的相对保守程度作为输入，预测准确率能达到70%-75%。7.3.2预测的准确度COMPANYLOGO每种氨基酸出现在各种二级结构中倾向或者频率是不同的例如：Glu主要出现在α螺旋中Asp和Gly主要分布在转角中Pro也常出现在转角中，但是绝不会出现在α螺旋中所以可以根据每种氨基酸残基形成二级结构的倾向性（Chou-Fasman）或者统计规律（GOR）进行二级结构预测蛋白质二级结构预测方法COMPANYLOGO该方法由Chou和Fasman在70年代提出来，是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析，获得的每个残基出现于特定二级结构构象的倾向性因子，进而利用这些倾向性因子预测蛋白质的二级结构.每个氨基酸都有几个构成参数，P(a),P(b)和P(turn),分别表示相应的氨基酸形成α螺旋、β折叠和β转角的偏向性。另外，每个氨基酸同时也有4个转角参数f(i),f(i+1),f(i+2),f(i+3),分别对应于这种氨基酸出现在发夹转角第一、第二、第三和第四位的频率。Chou-Fasman法COMPANYLOGOCOMPANYLOGO(1)寻找所有相邻的6个残基中至少4个残基的P(a)100的区域。(2)对于(1)中发现的每一个区域，从区域两端向外延伸，直至出现4个连续残基的P(a)100为止。(3)对于(2)中每个延伸区域计算所有氨基酸的P(a)的总和ΣP(a),并且计算所有氨基酸P(b)的总和ΣP(b)。假如所得的区域长度5，并且区域的ΣP(a)ΣP(b)，那么这样的一个区域就被预测为α螺旋。α螺旋的预测规则COMPANYLOGOβ折叠的预测规则(1)寻找所有相邻的6个残基中至少4个残基的P(b)100的区域。(2)对于(1)中发现的每一个区域，从区域两端向外延伸，一旦所有的区域延伸结束后，当一个区域中所有残基的P(b)的均值大于100并且ΣP(b)ΣP(a)时，这个区域就预测为β折叠。假如预测出的螺旋区域与预测出的折叠区域有重叠的话，那么如果重叠区域的ΣP(b)ΣP(a)，就预测为β折叠；反之，则预测为α螺旋。COMPANYLOGO（1）对于每个位于i位置上的残基计算它的转角偏向性P(t)。计算方法如下：P(t)=第i位上的残基的f(i)值×第i+1位上的残基的f(i+1)值×第i+2位上的残基的f(i+2)值×第i+3位上的残基的f(i+3)值（2）若一段区域内的氨基酸满足如下条件，就预测这段区域是一个从第i位氨基酸开始的发夹转角。a.P(t)0.000075；b.从第i位到第i+3位的4个残基的P(turn)参数的平均值100；c.从第i位到第i+3位的4个残基的ΣP(turn)ΣP(a)，且ΣP(turn)ΣP(b);β转角的预测规则COMPANYLOGO是一种基于信息论和贝叶斯统计学的方法。GOR将蛋白质序列当作一连串的信息值来处理。GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响，而且考虑相邻残基种类对该位置构象的影响。GOR方法COMPANYLOGOGOR方法将序列中的每一个残基与和它N端紧邻的8个残基以及和它C端紧邻的8个残基一起考虑，通过对已知的二级结构的蛋白样本的分析，计算出中心残基的二级结构分别为螺旋、折叠和转角时每种氨基酸出现在窗口中各个位置的频率，产生一个17×20的得分矩阵。然后预测序列中每个残基形成这些二级结构的概率。GOR方法的预测准确率约为65%。GOR方法COMPANYLOGO序列窗口中心残基GOR方法考虑窗口中各个残基对中心残基二级结构的支持程度COMPANYLOGO（1）三级结构一个折叠的多肽链的整体三维形状称为蛋白质的三级结构。7.4三级结构和四级结构COMPANYLOGO（2）四级结构几个多肽相互作用形成一个功能蛋白质，多