药物分子设计第九讲

kamkam1342
2 ℃
2020-02-11

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1蛋白质结构预测(一)ProteinStructurePrediction(I)2ProteinStructurePredictionFromSequencetoNativeStructure3ProteinStructurePredictionPSI-BLAST4ProteinStructurePrediction5MultipleSequenceAlignmentTools–ClustalWMultiplesequencealignmentsreveal:–conservationofindividualresidues–conservationofregions–differenceswithinproteinfamilies6Tools–HMMerProfile–Foreachpositionalongthesequence,tabulatehowofteneachtypeofaminoacidoccur(include‘.’forgap)–TheprofileisalwaysofsizeNx21,nomatterhowmanysequencesareconsidered7ProteinStructurePrediction8SecondaryStructurePredictionGivenaproteinsequencea1a2…aN,secondarystructurepredictionaimsatdefiningthestateofeachaminoacidaiasbeingeitherH(helix),E(extendedstrand),orO(other)(Somemethodshave4states:H,E,Tforturns,andOforother).ThequalityofsecondarystructurepredictionismeasuredwithaQindex(Qhelix,Qstrand,Qcoil)orQ3.Q3isthepercentofresiduesthatmatch“reality”(X-raystructure).9SecondaryStructurePredictionAminoacidsequenceActualSecondaryStructureQ3=22/29=76%Q3=22/29=76%ALHEASGPSVILFGSDVTVPPASNAEQAKhhhhhooooeeeeoooeeeooooohhhhhohhhooooeeeeoooooeeeooohhhhhhhhhhhoooohhhhooohhhooooohhhhh(usefulprediction)(terribleprediction)–Q3forrandompredictionis33%–Secondarystructureassignmentinrealproteinsisuncertaintoabout10%.Therefore,a“perfect”predictionwouldhaveQ3=90%.LimitationsofQ3(Q3=Npredicted100%/Nobserved)10SecondaryStructurePredictionChou-FasmanMethod–Startbycomputingaminoacidspropensitiestobelongtoagiventypeofsecondarystructure:–Propensities1meanthattheresiduetypeiislikelytobefoundinthecorrespondingsecondarystructuretype.)()/()()/()()/(iPTurniPiPBetaiPiPHelixiP11Chou-FasmanMethod参数值P、P和Pt是分别在原有相应值的基础上乘以100得到SecondaryStructurePrediction12SecondaryStructurePredictionChou-FasmanMethod–Helixprediction•沿着蛋白质序列寻找螺旋核，相邻的6个残基中如果有至少4个残基倾向于形成螺旋，即有4个残基对应的P100，则认为是螺旋核。•然后从螺旋核向两端延伸，直至四肽片段P的平均值小于100为止。按上述方式找到的片段长度大于5，并且P的平均值大于P的平均值，那么这个片段的二级结构就被预测为螺旋。此外，不容许Pro在螺旋内部出现，但可出现在C末端以及N端的前三位，这也用于终止螺旋的延伸。13SecondaryStructurePredictionChou-FasmanMethod–StrandPrediction•如果相邻6个残基中若有4个倾向于形成β折叠，即有4个残基对应的P100，则认为是折叠核。•折叠核向两端延伸直至4个残基P的平均值小于100为止。若延伸后片段的P的平均值大于105，并且P的平均值大于P的平均值，则该片段被预测为β折叠。14SecondaryStructurePredictionChou-FasmanMethod–TurnPrediction•转角的模型为四肽组合模型，要考虑每个位置上残基的组合概率，即特定残基在四肽模型中各个位置的概率。•在计算过程中，对于从第i个残基开始的连续4个残基的片段，将上述概率相乘，根据计算结果判断是否是转角。如果f(i)×f(i+1)×f(i+2)×f(i+3)大于7.5×10-5，四肽片段Pt的平均值大于100，并且Pt的均值同时大于P的均值以及P的均值，则可以预测这样连续的4个残基形成转角。15SecondaryStructurePredictionChou-FasmanMethod–Conflict假如预测出的螺旋区域和折叠区域存在重叠，则按照重叠区域P均值和P均值的相对大小进行预测，若P的均值大于P的均值，则预测为螺旋；反之，预测为折叠。16SecondaryStructurePredictionGORMethod–是一种基于信息论和贝叶斯统计学的方法–GOR将蛋白质序列当作一连串的信息值来处理–GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响，而且考虑相邻残基种类对该位置构象的影响17SecondaryStructurePredictionGORMethod–通过对已知二级结构的蛋白样本集进行分析，计算出中心残基的二级结构分别为螺旋、折叠和转角时每种氨基酸出现在窗口中各个位置的频率，从而产生一个17×20的得分矩阵。然后利用矩阵中的值来计算待预测的序列中每个残基形成螺旋、折叠或者转角的概率。18SecondaryStructurePredictionGORMethod–首先考虑两个事件S和R的条件概率P(S|R)，即在R发生的条件下，S发生的概率–P(S,R)是同时观察到S和R的联合概率,而P(R)是R的出现概率。–在二级结构预测过程中，S表示特殊的二级结构类型，R代表氨基酸残基，P(S|R)就是残基R处于二级结构类型S的概率。P(S)是在统计过程中观察到二级结构类型S的概率。–Statistics:•helices29.7%,strands19.7%,turns12.2%,coils38.3%19SecondaryStructurePredictionLimMethod–氨基酸的理化性质对二级结构影响较大–在进行结构预测时考虑氨基酸残基的物理化学性质。如疏水性、极性、侧链基团的大小等，根据残基各方面的性质及残基之间的组合预测可能形成的二级结构。–“疏水性”是氨基酸的一种重要性质，疏水性的氨基酸倾向于远离周围水分子，将自己包埋进蛋白质的内部。20SecondaryStructurePredictionLimMethod–Helixprediction•在一段序列中发现第i、i+3、i+4位（如1、4、5）是疏水残基时，这一片段就被预测为螺旋；•当发现第i、i+1、i+4位（如7，8，11）为疏水残基时，这一片段也被预测为螺旋。21SecondaryStructurePredictionLimMethod–Strandprediction•对于折叠，也存在着一些特征的亲疏水残基间隔模式，埋藏的β折叠通常由连续的疏水残基组成，一侧暴露的折叠则通常具有亲水-疏水的两残基重复模式。–原则上，通过在序列中搜寻特殊的亲疏水残基间隔模式，就可以预测螺旋和折叠。22SecondaryStructurePredictionNeuralNetwork–用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络，包括输入层、隐含层以及输出层。23NeuralNetwork–预测结果是窗口所取的输入样本中心的残基所在位置的二级结构。例如：PatternLSADQISTVQASFDKTargetH–沿蛋白质的氨基酸序列依次取一定大小的窗口，将窗口内的序列片段进行编码，窗口包括中心氨基酸残基及左右m个（共2m+1个）残基，每一个残基用21个神经元编码，因此，输入层共有21×(2m+1)个神经元。例如：Alanine100000000000000000000–输出层有3个神经元，分别对应于窗口中心残基的H、E、C三态。结果由三个输出中值最大的那个决定。例如：输出值为（0.2，0.1，0.1），则认为是螺旋结构。编码为：100SecondaryStructurePrediction24NeuralNetwork–PHDsec(Profile-fedneuralnetworksystemfromHeidelberg)SecondaryStructurePrediction25NeuralNetwork–PHDsec(Profile-fedneuralnetworksystemfromHeidelberg)–Input26NeuralNetwork–PHDsec(Profile-fedneuralnetworksystemfromHeidelberg)–FirstLayer27NeuralNetwork–PHDsec(Profile-fedneuralnetworksystemfromHeidelberg)–SecondLayer28SecondaryStructurePredictionDSSP(DatabaseofSecondaryStructureinProteins)•H=alphahelix•B=residueinisolatedbata-bridge•E=extendedstrand,participatesinbetaladder•G=3/10helix•I=pihelix•T=hydrogenbondedturn•S=bend29SecondaryStructurePredictionAlphahelix,3/10helixandpihelix–Alphahelix•Hydrogenbonds(i,i+4)•3.6residues/turn;5.4Å/turn•Mosthelices–3/10helix•Hydrogenbonds(i,i+3)•3.0residues/turn;•~4%ofallhelices–Pihelix•Hydrogenbonds(i,i+5)•4.2residues/turn;•Instable30第三讲思考题分别列出以下分子的化学键、键角和二面角丁烷、正丁烯、苯乙烯、乙醇、乙酸乙酯、丙氨酸、雌二醇Paracetamol,L-dopa