蛋白序列分析方法主讲教师:赵雨杰蛋白质分子是由许多氨基酸通过肽键相连形成的生物大分子,每种蛋白质都有其一定的氨基酸百分组成及氨基酸排列顺序,以及肽链空间的特定排布位置。因此由氨基酸排列顺序及空间排布等所构成的蛋白质分子结构,才能真正体现蛋白质的个性和功能。组成蛋白质的氨基酸序列为蛋白质的一级结构,蛋白质的一级结构决定了蛋白质的性质。组成蛋白质氨基酸的物理和化学性质早已被人熟知。构成蛋白质的20种氨基酸由于化学构造不同,在结构和功能上具有多样性,任一残基对蛋白质的物理和生化性质都会产生影响,即序列决定构象。构象决定功能。蛋白空间结构预测方法主要有两类:•一、采用分子力学、分子动力学的方法,根据物理化学的基本原理,从理论上预测蛋白质分子的空间结构。•二、通过对已知空间结构的蛋白质进行分析,找出一级结构与空间结构的关系,总结出规律,用于新的蛋白质空间结构的预测。蛋白质在线分析工具ExPASy主讲教师:赵雨杰ExPASy(ExpertProteinAnalysisSystem)ExPASy()瑞士生物信息院提供的蛋白质在线分析工具,包括蛋白数据库(SWISS-PROT),蛋白分析工具等,主要用来分析蛋白序列、结构。标有图标的软件是ExPASy服务器提供的服务,未标的是其他服务器的服务。ExPASy网站包括蛋白质组学、基因组学、系统发育、系统生物学、进化、群体遗传学、转录组学等不同领域的数据库和分析软件。蛋白质特征识别AACompIdent主讲教师:赵雨杰AACompIdentAACompIdent是利用未知蛋白的氨基酸组成确认未知蛋白质的计算工具。如果我们手中只有蛋白的氨基酸组成、PI值和分子量,就可以利用AACompIdent寻找相似蛋白。AACompIdent将查询蛋白与库中已知蛋白进行比较,给出相似蛋白及其所打分数,分数越低,可能性越大。该程序需要输入蛋白质的氨基酸组成、等电点pI和蛋白质分子量、正确的物种分类以及特别的关键词。对数据库中的每一个序列,程序算法会根据序列组成与所查询的组成差异打分。查询结果由电子邮件返回,共有三级列表:1、所列蛋白只考虑物种分类不考虑pI和分子量;2、不考虑物种分类、不考虑pI和分子量的全体蛋白;3、所列蛋白即考虑物种分类,也考虑pI和分子量;零分表明查询序列与提出的序列完全相符。现把蛋白质RRF-ECOLI(P16174,Ribosomerecyclingfactor)为未知蛋白,用AACompIdent进行蛋白质辩识。将其pI、分子量、物种、氨基酸组成输入,氨基酸的组合方式选constellation0,进行查询。电子邮件返回的查询结果。在三组列表中RRF-ECOLI的分值最低,表明所提供的未知蛋白是RRF-ECOLI的可能性最大。AA%pIMWala10.276.4420639ile5.95Pro4.32vel7.03Arg8.65leu8.11ser5.95thr4.86gly3.78met2.7his0phe1.62tyr1.08lys8.11asp9.19asn2.7gln2.7glu7.03cys0.54trp0以e-mail返回的RRF-ECOLI查询结果,图中只列出只考虑物种分类不考虑pI和分子量和不考虑物种分类、不考虑pI和分子量的全体蛋白的两部分结果,第三部分省略。蛋白质特征识别AACompSim主讲教师:赵雨杰AACompSim提供类似的分析,但它与AACompIdent以实验室所得的氨基酸组成为依据进行搜索不同,AACompSim使用SWISS-PROT蛋白质的序列为依据(Wilkinsetal.,1996),将用户要查询的蛋白与SWISS-PROT数据库中的蛋白质的序列进行比较、辩识。检测蛋白质之间的关系。与AACompIdent算法类似,该算法也提供了4种氨基酸的组合方式(constellation)供用户选择,查询时用户需要在4种氨基酸组合中挑选其一,输入所要查询蛋白的SWISS-PROTID,所需比较条目的物种,按SUBMIT键即完成查询。•TheclosestSWISS-PROTentries(intermsofAAcomposition)•forthespeciesECOLI:•RankScoreProtein(pIMw)Description•=========================================================•10RRF_ECOLI6.4420639Ribosome-recyclingfactor.•233HFLC_ECOLI6.3037650ModulatorofFtsHproteaseHflC.•333DNAB_ECOLI4.9352390ReplicativeDNAhelicase.•437INTA_ECOLI9.6146652ProphageCP4-57integrase.••TheclosestSWISS-PROTentries(intermsofAAcomposition)•foranyspecies:•RankScoreProtein(pIMw)Description•=========================================================•10RRF_ECO246.4420639Ribosome-recyclingfactor.•20RRF_ECO276.4420639Ribosome-recyclingfactor.•30RRF_ECO456.4420639Ribosome-recyclingfactor.•40RRF_ECO556.4420639Ribosome-recyclingfactor.•50RRF_ECO576.4420639Ribosome-recyclingfactor.•TheclosestSWISS-PROTentries(intermsofAAcomposition)•andhavingpIandMwvaluesinthespecifiedrange•forthespeciesECOLI:•RankScoreProtein(pIMw)Description•=========================================================•10RRF_ECOLI6.4420639Ribosome-recyclingfactor.•275IDNK_ECOLI6.5221004Thermosensitivegluconokinase.•378HYCB_ECOLI6.5721873Formatehydrogenlyasesubunit2.•482YHJB_ECOLI6.3222604PutativeHTH-typetranscriptional蛋白质质谱分析MS-Fit主讲教师:赵雨杰MS-Fit(=msfitstandard)是利用质谱(MS)技术获得信息,通过测出被特定蛋白酶消化得到的肽段进行数据库比较来进行蛋白质辩识的计算工具,由于该方法不需全部或部分测序,显著的减少了实验时间。3861.7383127.8482669.3372391.2132204.2112052.0261660.6531377.4651307.6791266.5941239.6261208.6311120.4871113.591095.4891077.6281064.545978.4495956.5523875.4581864.4066853.3509823.358782.292752.3573729.4617709.4104653.3478611.326538.2732518.1962蛋白序列物理性质计算ComputepI/Mw主讲教师:赵雨杰ComputepI/Mw是计算输入序列等电点和分子量的工具。分子量的计算是把序列中每个氨基酸的平均分子量加在一起,在加上一个水分子的分子量。该计算工具使用时非常简单,用户可上网输入查询序列。可用二种方法输入•1、把序列整理为FASTA格式,该工具会自动计算全序列的pI值和分子量;•2、提供SWISS-PROT标识,即IDAC(如:P04406)。结果中该工具不仅给出pI值和分子量,还提供该条目的描述和物种记录。现以3-磷酸甘油醛脱氢酶(G3P2-HUMAN,P04406)为例,查询其分子量和pI值,结果如下:•gi|120649|sp|P04406.3|G3P_HUMANRecName:Full=Glyceraldehyde-3-phosphatedehydrogenase;Short=GAPDH;AltName:Full=Peptidyl-cysteineS-nitrosylaseGAPDHMGKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGTVKAENGKLVINGNPITIFQERDPSKIKWGDAGAEYVVESTGVFTTMEKAGAHLQGGAKRVIISAPSADAPMFVMGVNHEKYDNSLKIISNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHAITATQKTVDGPSGKLWRDGRGALQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTANVSVVDLTCRLEKPAKYDDIKKVVKQASEGPLKGILGYTEHQVVSSDFNSDTHSSTFDAGAGIALNDHFVKLISWYDNEFGYSNRVVDLMAHMASKE蛋白序列酶切分析PeptideMass主讲教师:赵雨杰PeptideMass工具针对肽段图谱进行分析,主要用来预测分析蛋白质在与特定的蛋白酶或化学试剂作用下的内切产物(Wilkinsetal.,1997)。这些蛋白酶和试剂包括:胰蛋白酶(trysin)、糜蛋白酶(chymotrypsin)、LysC、ArgC、AspN、GluC(双碳酸酯或磷酸酯)和溴化氰。半胱氨酸和甲硫氨酸可在计算产物肽段之前加以修饰。蛋白质序列统计分析ProtParam主讲教师:赵雨杰ProtParam是一个计算各种物理和化学的参数工具,可以分析存储在Swiss-ProtTrEMBL数据库中的蛋白质或用户输入的蛋白质序列。计算参数包括分子量、理论pI值、氨基酸组成、原子组成、消光系数、半衰期,不稳定指数、脂肪指数和总体平均亲水性。gi|15718761|ref|NP_004976.2|c-K-ras2proteinisoformbprecursor[Homosapiens]MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAGQEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHHYREQIKRVKDSEDVPMVLVGNKCDLPSRTVDTKQAQDLARSYGIPFIETSAKTRQGVDDAFYTLVREIRKHKEKMSKDGKKKKKKSKTKCVIM蛋白质二级结构分析主讲教师:赵雨杰蛋白二级结构和折叠类型蛋白质的二级结构是指蛋白质分子中某一段肽链的局部空间结构。主要为α-螺旋(α-helix)、β-折叠(β-pleatedsheet)、β转角(β-turn)、无规则弯曲(randomcoil)。在许多蛋白质分子中,可发现二个或三个具有二级结构的肽段,在空间上相互接近,形成一个具有特殊功能的空间结构,称为模序(motif)。一个模序总有其特征性的氨基酸序列,并发挥特殊的功能。一级结构是二级结构的基础,有时蛋白质分子中起关键作用的氨基酸残基缺失或被替代,都会严重影响空间构象乃至生理功能,如由蛋白质分子发生变异产生的“分子病”。研究蛋白质的二级结构对蛋白质空间结构的确定、设计合理的生物化学实验有重要意