第二讲蛋白质序列分析与预测生物信息学原理与方法目录一、基本方法二、在线工具--ExPASy系统简介一、基本方法二、ExPASy系统简介1.Proteinidentificationandcharacterization蛋白质识别与特证描述2.DNA-Protein将DNA序列翻译成蛋白质序列3.Similaritysearches序列类似性检索(已讲)4.Patternandprofilesearches模式的搜索5.Post-translationalmodificationprediction翻译后修饰预测6.Topologyprediction空间结构预测7.Primarystructureanalysis一级结构分析8.Secondarystructureprediction二级结构预测9.Tertiarystructure三级结构预测10.Sequencealignment序列比对(已讲)11.Biologicaltextanalysis生物学文本分析(不讲)1.Proteinidentificationandcharacterization蛋白质识别与特证描述1-1AACompIdent-以氨基酸组织识别蛋白质1-2AACompSim-比较Swiss-Port条目与其他条目的差异1-3MultiIdent-以等电点、分子量、氨基酸组成、序列特征及肽指纹数据识别蛋白质。1-4PeptIdent–以肽指纹数据识别蛋白质、等电点、实验测定的分子量、以Swiss-Prot中所有蛋白质的理论肽来比较使用者指定的肽质谱,提供数据库的注释。1-5TagIdent以等电点、分子量和序列特征识别蛋白质,并检出与所给等电点和分子量最接近的蛋白质序列列表。1-6FindMod–预测可能的蛋白质翻译后修饰及肽中单个氨基酸可能被取代。将实验测定的肽质谱与指定的Swiss-Prot序列中的理论肽或用户输入的序列作比较,质谱的差异以作出更佳的蛋白质特征描述。1-7GlycoMod-以实验测定的质谱预测蛋白质可能出现的寡多醣结构。1-8GlycanMass-以寡多醣结构预测其质谱。1-9FindPept-由实验质谱识别蛋白质中的肽,并考虑到人工化学修饰、翻译后修饰以及蛋白酶自体溶解等因素。1-10PeptideMass-以Swiss-Prot、TrEMBL条目或用户提供的序列來预测其肽质谱及翻译后修饰。1-11PeptideCutter–由所提供的蛋白质序列来预测可能的蛋白酶剪切位点或化学剪切位点。1-12IsotopIdent–预测肽、蛋白质、多核苷酸或化学组成的理论同位分布1-13PepMAPPER-由英中的UMIST提供的肽质谱分析工具。1-14Mascot–由MatrixScienceLtd.,提供的序列搜索、MS/MS离子及肽质谱识别。1-15PepSea-由Protana,Denmark提供的从肽质谱和肽序列识别蛋白质。1-16PeptideSearch-由EMBLHeidelberg提供的肽质谱识别工具。1-17ProteinProspector-由UCSF提供的多种质谱分析工具。1-18PROWL-由Rockefeller和NYUniversities提供蛋白质化学性质及质谱仪资源。1-19PFMUTS-由MALDI提供,显示肽片段中可能出现的单氨基酸或两氨基酸突变。1-20CombSearch-一种试验性的的蛋白质识别工具集成系统。2.DNA-Protein将DNA序列翻译成蛋白质序列2-1Translate-将DNA序列翻译成蛋白质序列。2-2Transeq–使用EMBOSS软件包将DNA序列翻译成蛋白质序列。2-3GraphicalCodonUsageAnalyser–以图形方式显示密码子偏向性2-4BCMsearchlauncher–以六种框架翻译DNA序列2-5Backtranslation–将蛋白质序列翻译成DNA序列2-6Genewise–比较蛋白质序列与基因组的DNA序列,允许内含子和读框错误2-7FSED–读框错误检测2-8LabOnWeb-使用CompugenLEADSclusters延伸EST、表达模式及ESTs序列分析。2-9Listofgeneidentificationsoftwaresites列出基因识别的软件。3.Similaritysearches相似搜索3-1BLAST3-2Bicultra-Smith/Waterman序列搜索3-3MPsrch-EBI的Smith/Waterman序列比对。3-4DeCypher–Smith/Waterman序列搜索3-5Fasta3–EBI的FASTAversion33-6FDF-Smith/Waterman序列搜索3-7PropSearch–使用氨基酸组成来进行结构同源搜索。4.Patternandprofilesearches模式的搜索4-1InterProScan-在PROSITE,Pfam,PRINTS及其他家族和功能域数据库中集成检索。4-2ScanProsite-对PROSITE或Swiss-Prot和TrEMBL的模式序列进行搜索。4-3MotifScan-对蛋白质模式数据库中的序列(包括PROSITE)进行搜索。4-4Frame-ProfileScan-对蛋白质模式数据库中的序列(包括PROSITE)进行短的DNA序列搜索。4-5PfamHMMsearch-在WashingtonUniversity及SangerCentre对Pfam数据库进行搜索。4-6FingerPRINTScan-对PRINTS数据库进行蛋白质指纹搜索。4-7FPAT-蛋白质数据库中的表达搜索。4-8PRATT-EBI及ExPASy的识别蛋白质保守模式4-9PPSEARCH-EBI的对PROSITE进行序列搜索。4-10PROSITEscan–PBIL的对PROSITE进行序列搜索。4-11PATTINPROT-在PBIL搜索一段蛋白质序列或蛋白质数据库中的模式。4-12SMART–EMBL的简单分子结构研究工具。4-13TEIRESIAS-IBM的从不匹配的(unaligned)蛋白质或DNA序列生成蛋白质模式。4-14Hits–蛋白质序列与motifs的关系。5.Post-translationalmodificationprediction翻译后修饰预测5-1ChloroP-叶绿体转换肽的预测。5-2LipoP-Gram阴性细菌脂蛋白质和信号肽的预测5-3MITOPROT–预测线粒体的目标序列。5-4PATS–预测apicoplast的目标序列5-5PlasMit-预测Plasmodiumfalciparum的线粒体转换肽5-6Predotar–预测线粒体和质体的目标序列5-7PTS1–预测peroxisomaltargetingsignal1containingproteins5-8SignalP–预测信号肽剪工切位点。5-9NetOGlyc–预测哺乳动物粘蛋白的糖化位点。5-10NetNGlyc–预测人类N型蛋白质糖化位点。5-11DictyOGlyc–预测粘菌O型蛋白质糖化位点。5-12YinOYang-真核生物蛋白质序列的O-beta-GlcNAc的粘附位点。5-13big-PIPredictor-预测GPI的修饰位点5-14DGPI-预测GPI的锚合点和剪刀切位点(鏡像站)。5-15NetPhos-预测真核生物蛋白质上Ser,Thr及Tyrphosphorylation位点。5-16NetPicoRNA-预测picornaviralproteins上蛋白质剪切位点。5-17NMT–预测N-terminalN-myristoylation5-18Sulfinator–预测酪胺酸硫化位置。5-19SUMOplot–预测SUMO蛋白质附着位置。6.Topologyprediction空间结构预测6-1PSORT–预测蛋白质次细胞的位置。6-2TargetP-预测蛋白质次细胞的位置。6-3DAS-利用DenseAlignmentSurface法预测原核生物的跨膜区。6-4HMMTOP-预测蛋白质的跨膜螺旋及空间结构。6-5PredictProtein-预测蛋白质的跨膜螺旋及空间结构。6-6SOSUI-预测跨膜区。6-7TMAP–基于多序列比对的跨膜区预测。6-8TMHMM-预测蛋白质的跨膜螺旋。6-9TMpred-预测蛋白质的跨膜区及蛋白质方向。6-10TopPred2-膜蛋白的空间结构预测。7.Primarystructureanalysis一级结构分析7-1ProtParam-蛋白质序列的物化性质分析(氨基酸、原子组成、等电点….等)7-2ComputepI/Mw-以Swiss-Prot或TrEMBL条目或用户的序列计算理论的等电点和分子量。7-3MW,pI,Titrationcurve–计算等电点及组成并可见其滴定曲线图。7-4REP–搜索蛋白质重复片段。7-5REPRO–检测蛋白质序列的重复片段。7-6Radar-检测蛋白质序列的重复片段。7-7SAPS–蛋白质序列的统计学分析。7-8Coils–蛋白质的卷曲预测。7-9Paircoil–蛋白质两级卷曲螺旋预测。7-10Multicoil–蛋白质两级或三级卷曲螺旋预测。7-112ZIP-亮氨酸拉链的预测。7-12PESTfind–PEST区域的预测。7-13HLA_Bind–预测MHCtypeI(HLA)peptidebinding。7-14SYFPEITHI-预测MHCtypeIandIIpeptidebinding。7-15ProtScale–氨基酸比例图(疏水性及其相关参数等)7-16Drawhca–蛋白质序列疏水性聚类分析HCA(HydrophobicClusterAnalysis)点阵图7-17ProteinColourer–给氨基酸序列着色工具7-18ThreeToOne–将三码的氨基酸序列转换成一码氨基酸序列工具。7-19Colorseq–将所选择的蛋白质序列以红色突出。7-20HelixWheel/HelixDraw–用蛋白质片段表示环状螺旋结构7-21RandSeq–随机蛋白质序列生成器8.Secondarystructureprediction二级结构预测8-1AGADIR–预测肽链螺旋结构算法。8-2APSSP–高级蛋白质二级结构预测服务器。8-3GOR–Garnier1996年开发的蛋白质二级结构预测。8-4HNN–神经网络方法预测蛋白质二级结构。8-5Jpred–趋同法预测蛋白质二级结构。8-6JUFO–神经网络法从序列预测蛋白质二级结构。8-7nnPredict-蛋白质二级结构预测。8-8PredictProtein-蛋白质二级结构预测。8-9Prof–利用CascadedMultipleClassifiers进行蛋白质二级结构预测。8-10PSA-蛋白质二级结构预测。8-11SOPMA-蛋白质二级结构预测。8-12SSpro–利用双向重复神经网络预测蛋白质二级结构。9.Tertiarystructure三级结构预测9-1三级结构分析(Tertiarystructureanalysis)9-1-1iMolTalk–一个交互式的蛋白质结构分析服务器9-1-2MolTalk–一个结构生物信息学计算环境9-2比较建模(Comparativemodeling)9-2-1SWISS-MODEL–一个自动基于知识的蛋白质建模服务器。9-2-23Djigsaw–基于已知结构同源蛋白的三级结构建模。9-2-3CPHmodels–基于同源蛋白自动神经网络建模服务器。9-2-4ESyPred3D–采用神经网络的自动同源建模程序。9-2-5Geno3d–蛋白质三维结构自动建模。9-2-6SDSC1–蛋白质同源结构建模服务器。9-3穿过建模(Threading)9-3-13D-PSSM–采用经过二级结构信息(Foldfit)处理的一维和三维序列模式进行蛋白质折叠识别。9-3-2F