蛋白质工程ProteinEngineering2教学内容•第一章绪论•第二章蛋白质的结构与功能•第三章蛋白质结构分析技术•第四章蛋白质结构预测•第五章蛋白质的修饰与克隆表达•第六章蛋白质纯化•第七章蛋白质分子设计•第八章蛋白质组学•第九章蛋白质工程的应用Chapter4BioinformaticsAnalysisofProteinStructure第四章蛋白质结构预测4Contentsofchapter44.2蛋白质结构预测4.1常用蛋白质数据库54.1常用蛋白质数据库蓝皮本P164、P165表6-1橙皮本P69一、蛋白质序列数据库二、蛋白质结构数据库三、蛋白质结构分类数据库6一、蛋白质序列数据库1、从三大核酸数据库查找蛋白序列GenBank、EMBL、DDBJ2、从蛋白质序列数据库查找蛋白序列SWISS-PROT、PIR、TreEMBL及三者合并而成的UniProt71、从三大核酸数据库找蛋白序列(1)NCBI•NationalCenterforBiotechnologyInformation,NCBI,美国国家生物技术信息中心••GenBank等公共数据库•工具:–PubMed查找文献–BLAST序列比对8NCBI主页9以鼠伤寒沙门氏菌(Salmonellatyphimurium)H-1-i基因为例人类的拉丁文名:Homosapiens101、从三大核酸数据库找蛋白序列(2)EMBL•EuropeanMolecularBiologyLaboratory,EMBL,欧洲分子生物学实验室••EMBL核酸序列数据库,1980年建立11EuropeanBioinformaticsInstitute,EBI,欧洲生物信息学研究所它是EMBL的一部分。1992年由欧盟资助建立在英国的一个非盈利性学术机构,也是生物信息学研究与服务的欧洲中心。(2)EMBL12•EBI开发多种生物学数据库,包括:(1)核酸序列数据库(EMBL核酸序列数据库、Ensembl、ENEST、MitBaseServer、EDGP、Parasites等);(2)蛋白质序列数据库(SWISS-PROT、TrEMBL、InterPro等);(3)基因组数据库;(4)序列结构分类数据库(DSSP、HSSP、DALI等);(5)大分子结构数据库(EBI-MSD等);(6)人类蛋白质数据库(HPI等);(7)序列图谱数据库(RHdbServer、GenomeMaps98等)131、从三大核酸数据库找蛋白序列(3)DDBJ•NationalInstituteofGenetics,NIG,日本国立遗传学研究所••是日本遗传学各方面研究的中心研究机构及生命科学所有领域的研究基地。•NIG建立的日本DNA数据库(DDBJ)、欧洲EBI维护的EMBL核酸序列数据库,以及美国NCBI的GenBank数据库,并列为国际上最著名的三大核酸数据库。14一、蛋白质序列数据库1、从三大核酸数据库查找蛋白序列GenBank、EMBL、DDBJ2、从蛋白质序列数据库查找蛋白序列SWISS-PROT、PIR、TreEMBL及三者合并而成的UniProt15•SWISS-PROT、PIR、TreEMBL见P170-173•目前UniProt数据库将以上3个数据库合并在一起。•包括UniProtKB、UniRef和UniParc三部分•UniProtKB:UniProtKnowledgebase16UniPort数据库链接:蛋白质基本性质分析18蛋白质基本性质分析P186•如前图所示,在UniPort结果里可看到:(1)ComputerpI/MW:蛋白质的等电点和分子量(2)ProtParam:蛋白质的理化参数(3)ProtScale:蛋白质的疏水性区域(4)PeptideMass:蛋白质被特异切割(如胰蛋白酶、糜蛋白酶、CNBr)的产物194.1常用蛋白质数据库蓝皮本P164、P165表6-1橙皮本P69一、蛋白质序列数据库二、蛋白质结构数据库三、蛋白质结构分类数据库20二、蛋白质结构数据库1、PDB(ProteinDatebBank)2、MMDB(MolecularModelingDatabase)211、PDB:在结构生物学中占有中心地位,收集蛋白质和其它大分子的结构数据。三维结构的呈现:JmolViewer、KiNGViewer、SWISS-PDBViewer22•Cartoon:彩带模型,这种显示法使二级结构折叠容易辨认。•Backbone:金属丝模型,表示出多肽主链的走向,在比较同一种分子的两种构象时有用。JmolViewer模式23•BallandStick:球棍模型,能显示原子水平上的结构细节。可以估计原子之间的相对距离,对于评价氨基酸之间的相互作用很重要。•CPK:实心球模型,球体大小对应每个原子的范德华半径。对评估配体与结合位点的适合程度非常有用。JmolViewer模式24蛋白质可视化免费软件PymolPymol是强大的分子图形显示和基本特征测定系统。Pymol可在寻找链接下载Pymol启动后显示双界面,对分子操作的常用命令界面,多种分析功能界面。251.图形界面左上侧列出主要的可操作对象并分成几个层次,包括所选对象、蛋白质、整体等;2.每个层次的对象有五种主要操作:动作(A:action)、显示(S:Show)、隐藏(H:hide)、标记(L:Label)、上色(C:Color)。3.Dispaly下拉菜单中可显示蛋白质中每条肽链的序列和非蛋白质成分,鼠标左键单击序列选中特殊待操作的残基可同时显示对象所在位置;还可设置背景(论文中这类图一般用白色背景,而报告中常用黑色背景以增加视觉效果);4.Wizard中有对分子常用性质测定模块,包括距离、电荷等以及尝试进行蛋白质分子改造的功能。蛋白质图形操作和性质测定262、MMDB:常用蛋白质数据库蓝皮本P164、P165表6-1橙皮本P69一、蛋白质序列数据库二、蛋白质结构数据库三、蛋白质结构分类数据库28三、结构分类数据库•参见P182•SCOP•CATH•PDBsum29SCOP:•SCOP(StructuralClassificationofProtein)数据库是一个蛋白质结构分类数据库。•依据不同蛋白质的氨基酸组成的相似性及三级结构,分为全螺旋、全折叠、/等11个结构类型,再按照折叠、超家族、家族进一步细分。30SCOP:常用蛋白质数据库P164、P165表6-1一、蛋白质序列数据库二、蛋白质结构数据库三、蛋白质结构分类数据库334.2蛋白质结构预测一、序列比对二、二级结构预测三、结构域预测四、三维结构预测34蛋白质分析专家系统ExpertProteinAnalysisSystem,ExPASy1994年由瑞士生物信息学院(SwissInstituteofBioinformatics,SIB)创建的世界上第一个分子生物学网站,专门从事蛋白质序列、结构、功能和蛋白质2D-PAGE图谱等的分析。通过该网站可以链接到国际上包括ENZYME、PROSITE、TrEMBL、SWISS-PROT、SWISS-2DPAGE、SWISS-3DIMAGE等数据库的相关站点,以及SWISS-MODEL等软件工具。35://•各种Database:序列数据库、结构数据库、结构分类数据库•各种Tools:序列比对、二级结构预测、三维结构预测、结构域预测等37一、序列比对在生物信息学研究中,最常用和最经典的一个研究手段,就是通过序列比对获得有用的信息和知识。从核酸及蛋白质的一级结构方面来分析序列的相同点和不同点,从而能够推测它们的结构、功能及进化上的联系。38一、序列比对•(1)NCBI的BLAST•一、序列比对•(2)DNAStar软件的MegAlign:把多序列存成.seq后缀文件•(3)ClustalW软件:把多序列存成.txt后缀文件40二、二级结构预测•统计学方法:Chou-Fasman法•物理化学方法:Lim法•神经网络和人工智能方法•混合方法•参见《蛋白质结构预测实验指南》电子版41Chou-Fasman法:根据20种氨基酸形成α-螺旋、β-折叠、β-转角的倾向性(P)来预测•20种氨基酸的Chou-Fasman参数42二、二级结构预测•Jpred在线二级结构预测:•SOPMA在线二级结构预测:=npsa_sopma.html43Jpred二级结构预测方法(1)进入Jpred首页(),(2)在“Sequence”下的空白处直接输入序列;也可以选择“Advanced”高级模式,选择Email提交方式或留空为网页结果显示,输入蛋白质序列或者从电脑文件夹中获取,最后点击“MakePrediction”;(3)在电子邮箱中找到结果地址,在弹出的结果显示界面选择进行简单结果浏览、图形化输出等操作;44(4)分析结果H:代表α-螺旋;E:代表β-折叠;-:代表无规则卷曲。Jpred二级结构预测45SOPMA预测结果46局部结构预测蓝皮本P187橙皮本P73•跨膜结构预测:TMPRET•信号肽预测:SignalP•卷曲螺旋(Coiledcoil)预测:Coils•均可在的Tools下找到相应程序47SOPMA二级结构预测方法(1)进入SOPMA主页(=/NPSA/npsa_sopma.html);(2)在“Pasteaproteinsequencebelow”下的空白处提交蛋白序列(原始序列),可以在参数中进行符合我们要求的设置,然后点击“SUBMIT”按钮进行分析;48SMART结构域预测三、结构域预测NCBIconserveddomains://://://://smart.embl-heidelberg.de/53三维结构预测的软件•SWISS-MODEL软件•在的Tools下找到SWISS-MODELworkplace54作业查找蛋白质数据库中:•栖热水生菌Taq酶的氨基酸序列、蛋白质基本性质、二级结构、结构域、三维结构•关键词:Thermusaquat