蛋白质结构与功能预测2007年12月DNAsequenceProteinsequenceProteinstructureProteinfunction蛋白质序列分析蛋白质一级序列蛋白质基本理化性质分析蛋白质亲疏水性分析跨膜区结构预测卷曲螺旋预测翻译后修饰位点预测蛋白质二级结构蛋白质二级结构预测蛋白质序列信号位点分析蛋白质超二级结构蛋白质结构域分析蛋白质三级结构蛋白质三维结构模拟蛋白质分类蛋白质家族分析蛋白质序列分析主要内容ExPASy(ExpertProteinAnalysisSystem)Tools()蛋白质理化性质是蛋白质研究的基础蛋白质的基本性质:相对分子质量氨基酸组成等电点(PI)消光系数半衰期不稳定系数总平均亲水性……实验方法:•相对分子质量的测定、等电点实验、沉降实验•缺点:费时、耗资基于实验经验值的计算机分析方法1.蛋白质基本理化性质分析基于一级序列的组分分析氨基酸亲疏水性等分析为高级结构预测提供参考•Expasy开发的针对蛋白质基本理化性质的分析:–Protparam工具相对分子质量氨基酸组成等电点(PI)消光系数半衰期不稳定系数总平均亲水性……工具网站备注AACompldent利用未知蛋白质的氨基酸组成确认具有相同组成的已知蛋白ComputepI/Mw计算蛋白质序列的等电点和分子量ProtParam对氨基酸序列多个物理和化学参数(分子量、等电点、吸光系数等)进行计算PeptideMass计算相应肽段的pI和分子量SAPS利用蛋白质序列统计分析方法给出待测蛋白的物理化学信息蛋白质理化性质分析工具AACompIdentPeptideMass蛋白质理化性质分析•Protparam工具计算以下物理化学性质:•相对分子质量理论pI值•氨基酸组成原子组成•消光系数半衰期•不稳定系数脂肪系数•总平均亲水性主要选项/参数序列在线提交形式:•如果分析SWISS-PORT和TrEMBL数据库中序列–直接填写Swiss-Prot/TrEMBLAC号(accessionnumber)•如果分析新序列:–直接在搜索框中粘贴氨基酸序列输入Swiss-Prot/TrEMBLAC号打开protein.txt,将蛋白质序列粘贴在搜索框中•输入Swiss-Prot/TrEMBLAC号—分不同的功能域肽段输出结果功能域用户自定义区段点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果氨基酸数目相对分子质量理论pI值氨基酸组成正/负电荷残基数14消光系数半衰期原子组成分子式总原子数不稳定系数脂肪系数总平均亲水性40stable40unstable(a)-TypeImembraneprotein(b)-TypeIImembraneprotein(c)-Multipasstransmembraneproteins(d)-Lipidchain-anchoredmembraneproteins(e)-GPI-anchoredmembraneproteins蛋白质亲疏水性/跨膜区分析蛋白质亲疏水性分析•疏水作用是蛋白质折叠的主要驱动力•分析蛋白质氨基酸亲疏水性是了解蛋白质折叠的第一步•氨基酸疏水分析为蛋白质二级结构预测提供佐证•可用于分析蛋白质相互作用位点-抗原位点预测(预测准确率达56%)•是分析蛋白质跨膜区重要一步•α螺旋跨膜区主要是由20-30个疏水性氨基酸(Leu、Ile、Val、Met、Gly、Ala等)组成•亲水残基往往出现在疏水残基之间,对功能有重要的作用•基于亲/疏水量和蛋白质膜区每个氨基酸的统计学分布偏好性量•TMpred-•SOSUI-蛋白质跨膜区分析常用蛋白质跨膜区域分析工具工具网站备注DAS~miklos/DAS/用DenseAlignmentSurface(DAS)算法来预测无同源家族的蛋白跨膜区HMMTOP由Enzymology研究所开发的蛋白质跨膜区和拓扑结构预测程序SOSUI由Nagoya大学开发一个具有图形显示跨膜区的程序TMAP基于多序列比对来预测跨膜区的程序TMHMM基于HMM方法的蛋白质跨膜区预测工具TMpred基于对TMbase数据库的统计分析来预测蛋白质跨膜区和跨膜方向TopPred是一个位于法国的蛋白质拓扑结构预测程序TMHMM•ProtScale工具•氨基酸标度–表示氨基酸在某种实验状态下相对其他氨基酸在某些性质的差异,如疏水性、亲水性等•收集56多个文献中提供的氨基酸标度•默认值以Hphob.Kyte&Doolittle做疏水性分析•特异性氨基酸标度,如Hopp&Woods(1981)针对抗原片段定位;Accessibleresidues(1979)针对氨基酸溶剂可及性定位;Chou&Fasman(1978)针对氨基酸二级结构疏水性分析蛋白质亲疏水性分析主要选项/参数序列在线提交形式:•如果分析SWISS-PORT和TrEMBL数据库中序列–直接填写Swiss-Prot/TrEMBLAC号(accessionnumber)•如果分析新序列:–直接在搜索框中粘贴氨基酸序列输入Swiss-Prot/TrEMBLAC号打开protein.txt,将一条蛋白质序列粘贴在搜索框中计算窗口(7-11)相对权重值权重值变化趋势氨基酸标度是否归一化输出结果•输入Swiss-Prot/TrEMBLAC号—分不同的功能域肽段功能域用户自定义区段所用氨基酸标度信息分析所用参数信息输出结果图形结果文本结果序列参数每个位置的得分跨膜区分析•TMpred工具:•预测跨膜区和跨膜方向•依靠跨膜蛋白数据库Tmbase主要参数/选项•序列在线提交形式:–直接贴入蛋白序列–填写SwissProt/TrEMBL/EMBL/EST的ID或AC输出格式最短和最长的跨膜螺旋疏水区长度输入序列名(可选)选择序列的格式贴入protein.txt蛋白质序列输出结果•包含四个部分–可能的跨膜螺旋区–相关性列表可能的跨膜螺旋区相关性列表位置分值片段中点位置跨膜拓扑模型及图示建议的跨膜拓扑模型每一位置计算分值最优拓扑结构•SOSUI工具:-•以图形方式返回结果,需要JavaApplet程序输入氨基酸单字母运行平均疏水值预测的跨模螺旋区域两种跨膜Helix预测区域的螺旋示意图平均疏水值预测的跨模螺旋区域两种跨膜Helix33亲疏水轮廓跨膜蛋白序列“边界”原则-LandoltMarticorenaetal.,1993•胞外末端-Asp、Ser和Pro•胞外-内分界区域-Trp•跨膜区-Leu、Ile、Val、Met、Phe、Trp、Cys、Ala、Pro和Gly•胞内-外分界区域-Tyr、Trp和Phe•胞内末端-Lys和Arg•两股或两股以上α螺旋相互缠绕而形成超螺旋结构•存在于多种天然蛋白质中,如转录因子、结构蛋白、膜蛋白中,在生物体内执行着代谢调控、分子运动、膜通道、分子识别等重要的生物功能,37蛋白质卷曲螺旋域分析•典型的有亮氨酸拉链,存在7残基重复结构(heptadrepeat),以a,b,c,d,e,f,g位置表示,其中a和d位置为疏水性氨基酸,而其他位置残基为亲水性•COILS-•PEPCOIL-蛋白质卷曲螺旋域分析工具网站备注Coils主流的预测螺旋卷曲工具Paircoil2由MIT大学开发的基于残基配对概率算法的预测工具PEPCOIL由EMBOSS维护的预测卷曲螺旋程序,同Coils类似SOCKETserver一个分析蛋白质结构中卷曲螺旋的工具,其输入数据格式为蛋白质结构数据TRESPASSER由Nottingham大学开发的亮氨酸拉链结构识别工具2ZIP预测蛋白质序列中潜在的亮氨酸拉链结构和卷曲螺旋蛋白质卷曲螺旋预测工具•COILS-•COILS蛋白质卷曲螺旋预测方法基于Lupas算法,是目前主流的卷曲区域预测算法•一般滑动窗口的大小采用7的倍数蛋白质卷曲螺旋分析选择滑动窗口大小选择打分矩阵和权重选择输入格式,选择“SwissProtIDorAC”查询内容,输入“GO45_HUMAN”图形结果蛋白质二级结构预测•基本的二级结构–α螺旋,β折叠,β转角,无规则卷曲(coils)以及模序(motif)等蛋白质局部结构组件•分析方法:–基于统计和机器学习方法进行预测Chou-Fasman算法GOR算法多序列列线预测基于神经网络的序列预测基于已有知识的预测方法(knowledgebasedmethod)混合方法(hybridsystemmethod)工具网站备注BCMSearchLauncher包括了常见的蛋白质结构分析程序入口,一般分析可以以此服务器作为起点HNN=npsa_nn.html基于神经网络的分析工具,含序列到结构过程和结构到结构处理Jpred~ww