实习4:蛋白质结构与功能分析浙江加州国际纳米技术研究院(ZCNI)阮陟陈晓龙胡杰峰刘秋香2实习一基因组数据注释和功能分析实习二核苷酸序列分析实习三芯片的基本数据处理和分析实习四蛋白质结构与功能分析实习五蛋白质组学数据分析实习六系统生物学软件实习实习课程内容基因组学转录组学蛋白质组学系统生物学3DNASequenceProteinSequenceProteinStructureProteinFunction4蛋白质结构分析蛋白质一级结构蛋白质基本理化性质分析蛋白质亲疏水性分析蛋白质跨膜区结构预测蛋白质二级结构蛋白质二级结构预测(α螺旋,β折叠等)蛋白质超二级结构蛋白质结构域分析蛋白质三级结构蛋白质三维结构模拟蛋白质结构分析主要内容蛋白质结构预测过程5ORF翻译实验数据蛋白质序列蛋白质理化性质和一级结构数据库搜索结构域匹配已知结构的同源蛋白?三维结构模型可用的折叠模型?同源建模有二级结构预测无串线法有从头预测无6ExPASy(ExpertProteinAnalysisSystem)主页一、蛋白质理化性质分析–使用工具:ProtParam二、跨膜区分析–使用工具:TMpred三、二级结构分析–使用工具:PredictProtein四、结构域分析–使用工具:InterProScan五、蛋白质三级结构分析–使用工具:SWISS-MODEL/SWISS-PdbViewer数据:C:\ZCNI\shixi4\protein.txt课程安排8一、蛋白质基本理化性质分析蛋白质理化性质是蛋白质研究的基础蛋白质的基本性质:相对分子质量氨基酸组成等电点(pI)消光系数半衰期不稳定系数总平均亲水性……实验方法:•相对分子质量的测定、等电点实验、沉降实验•缺点:费时、耗资基于实验经验值的计算机分析方法工具网站备注AACompldent利用未知蛋白质的氨基酸组成确认具有相同组成的已知蛋白ComputepI/Mw计算蛋白质序列的等电点和分子量ProtParam对氨基酸序列多个物理和化学参数(分子量、等电点、吸光系数等)进行计算PeptideMass计算相应肽段的pI和分子量SAPS利用蛋白质序列统计分析方法给出待测蛋白的物理化学信息9蛋白质理化性质分析工具10ProtParam工具简介基于蛋白质序列的组分分析氨基酸亲疏水性等分析为高级结构预测提供参考•Expasy开发的针对蛋白质基本理化性质的分析:–ProtParam工具计算以下物理化学性质:•相对分子质量•氨基酸组成•等电点(pI)•消光系数•半衰期•不稳定系数•总平均亲水性……11主要选项/参数•如果分析Swiss-Prot和TrEMBL数据库中序列–直接填写Swiss-Prot/TrEMBLAC号(accessionnumber)•如果分析新序列:–直接在搜索框中粘贴氨基酸序列输入Swiss-Prot/TrEMBLAC号将protein.txt蛋白质序列粘贴在文本框中12返回结果氨基酸数目相对分子质量理论pI值氨基酸组成正/负电荷残基数13消光系数半衰期原子组成分子式总原子数E(Prot)=Num(Tyr)*Ext(Tyr)+Num(Trp)*Ext(Trp)+Num(Cystine)*Ext(Cystine)proteinsinwatermeasuredat280nm:Ext(Tyr)=1490,Ext(Trp)=5500,Ext(Cystine)=125Absorb(Prot)=E(Prot)/Molecular_weight14不稳定系数脂肪系数总平均亲水性40stable40unstable注意:ProtParam没有考虑蛋白质翻译后修饰、蛋白质多聚体等情况,故用户在预测和分析此类特定蛋白质的基本理化性质时需要仔细审视反馈结果。15练习一:ProtParam预测蛋白质基本理化性质数据:C:\ZCNI\shixi4\protein.txt(a)-TypeImembraneprotein(b)-TypeIImembraneprotein(c)-Multipasstransmembraneproteins(d)-Lipidchain-anchoredmembraneproteins(e)-GPI-anchoredmembraneproteins16二、蛋白质跨膜区分析•典型的跨膜螺旋区主要是由20~30个疏水性氨基酸(Leu、Ile、Val、Met、Gly、Ala等)组成;•亲水残基往往出现在疏水残基之间,对功能有重要的作用;•基于亲/疏水量和蛋白质跨膜区每个氨基酸的统计学分布偏好性。17蛋白质跨膜区特性跨膜蛋白序列“边界”原则•胞外末端:Asp(天冬氨酸)、Ser(丝氨酸)和Pro(脯氨酸)•胞外-内分界区:Trp(色氨酸)•跨膜区:Leu(亮氨酸)、Ile(异亮氨酸)、Val(缬氨酸)、Met(甲硫氨酸)、Phe(苯丙氨酸)、Trp(色氨酸)、Cys(半胱氨酸)、Ala(丙氨酸)、Pro(脯氨酸)和Gly(甘氨酸)•胞内-外分界区:Tyr(络氨酸)、Trp(色氨酸)和Phe(苯丙氨酸)•胞内末端:Lys(赖氨酸)和Arg(精氨酸)1819常用蛋白质跨膜区域分析工具工具网站备注DAS~miklos/DAS/用DenseAlignmentSurface(DAS)算法来预测无同源家族的蛋白跨膜区HMMTOP由Enzymology研究所开发的蛋白质跨膜区和拓扑结构预测程序SOSUI由Nagoya大学开发一个具有图形显示跨膜区的程序TMAP基于多序列比对来预测跨膜区的程序TMHMM基于HMM方法的蛋白质跨膜区预测工具TMpred基于对TMbase数据库的统计分析来预测蛋白质跨膜区和跨膜方向TopPred是一个位于法国的蛋白质拓扑结构预测程序20TMpred工具简介•TMpred工具:•依靠跨膜蛋白数据库TMbase•预测跨膜区和跨膜方向21主要参数/选项•序列在线提交形式:–直接贴入蛋白序列–填写SwissProt/TrEMBL/EMBL/EST的ID或AC输出格式最短和最长的跨膜螺旋疏水区长度输入序列名(可选)选择序列的格式贴入protein.txt蛋白质序列22输出结果•包含四个部分–可能的跨膜螺旋区–相关性列表可能的跨膜螺旋区位置分值片段中点位置相关性列表23跨膜拓扑模型及图示建议的跨膜拓扑模型最优拓扑结构每一位置计算分值24练习二:TMpred预测蛋白跨膜区数据:C:\ZCNI\shixi4\protein.txt28三、蛋白质二级结构预测•基本的二级结构–α螺旋,β折叠,β转角,无规则卷曲(coils)以及模序(motif)等蛋白质局部结构组件•分析方法:–基于统计和机器学习方法进行预测Chou-Fasman算法PHD算法多序列列线预测基于神经网络的序列预测基于已有知识的预测方法(knowledgebasedmethod)混合方法(hybridsystemmethod)29工具网站备注BCMSearchLauncher包括了常见的蛋白质结构分析程序入口,一般分析可以以此服务器作为起点HNN=npsa_nn.html基于神经网络的分析工具,含序列到结构过程和结构到结构处理Jpred~基于Jnet神经网络的分析程序,并采用PSI-BLAST来构建序列Profile进行预测,对于序列较短、结构单一的蛋白预测较好nnPredict~nomi/nnpredict.html预测蛋白质序列中潜在的亮氨酸拉链结构和卷曲螺旋NNSSP基于双层前反馈神经网络为算法,还考虑到蛋白质结构分类信息PREDATOR预测时考虑了氨基酸残基间的氢键蛋白质二级结构分析工具工具网站备注PredictProtein提供多项蛋白质性质分析,并有较好准确性Prof~phi基于多重序列比对预测工具PSIpred提供跨膜蛋白拓扑结构预测和蛋白profile折叠结构识别工具SOPMA=npsa_sopma.html可以比较各种分析方法得到的结果,也可输出“一致性结果”SSPRED~fmilpetz/SSPRED/sspred.html基于数据库搜索相似蛋白并构建多重序列比对30蛋白质二级结构分析工具(续)31PredictProtein工具简介•PredictProtein–•可以获得功能预测、二级结构、基序、二硫键结构、结构域等许多蛋白质序列的结构信息。•该方法的平均准确率超过72%,最佳残基预测准确率达90%以上。因此,被视为蛋白质二级结构预测的标准。•用户需要注册ID、验证E-mail后,才能使用PredictProtein工具。如何使用PredictProtein工具32PredictProtein提交界面将protein.txt蛋白质序列粘贴在文本框中35PredictProtein分析方法简介分析方法•重要的算法:–PROFsec(α螺旋,β折叠等基本二级结构预测)–PHDhtm(典型跨膜螺旋区预测)–ProSite(特征Motif识别方法)361D序列预测PROFsec(默认)基于轮廓(profile)的神经网络算法预测蛋白质二级结构PROFacc(默认)基于轮廓(profile)的神