Bioinformatics,2008-2009,Semester1,USTC生物信息学第九章结构生物信息学Bioinformatics,2008-2009,Semester1,USTC本章内容提要1.蛋白质的结构与功能2.蛋白质结构的数据库、结构分类以及可视化3.蛋白质二级结构预测4.蛋白质三级结构预测Bioinformatics,2008-2009,Semester1,USTC1.蛋白质的结构与功能蛋白质的结构–主要由一级序列所决定蛋白质的功能–主要由三级结构所决定球蛋白(Globularproteins):疏水的内核&亲水的表面膜蛋白(Membraneproteins):特定的疏水表面亚稳态(marginallystable):折叠之后的蛋白质无序性(Intrinsicallydisordered):许多蛋白质必须与其他蛋白质结合后才能够获得稳定的结构因此,预测蛋白质的结构和功能非常的困难Bioinformatics,2008-2009,Semester1,USTC蛋白质结构的四个基本层面Bioinformatics,2008-2009,Semester1,USTC一级和二级结构1.一级结构氨基酸的线性序列氨基酸残基之间连接的共价键2.二级结构氨基酸残基局部空间内的排列短程的、非共价的相互作用周期性的结构模式:-helix,b-sheet,loops,coilsBioinformatics,2008-2009,Semester1,USTC-helix1.蛋白质中最多的二级结构2.平均长度:10个氨基酸残基(10A0)长度范围:5-40aa每一圈:3.6个aa通过氢键(~per4aa)稳定结构通常在内核的表面,疏水残基向内,亲水残基向外Bioinformatics,2008-2009,Semester1,USTChelix通过氢键稳定结构C=blackO=redN=blueBioinformatics,2008-2009,Semester1,USTCR-侧基分布在helix的外侧Bioinformatics,2008-2009,Semester1,USTChelices:氨基酸偏好Ala,Glu,Leu,Met:出现频率高Pro,GlyTyr,Ser:出现频率低Bioinformatics,2008-2009,Semester1,USTCb-Strands&Sheets1.一般不单独出现,成对或多个出现2.b链通过氢键连接,稳定结构3.相互作用的部分通过短的/长的loop连接4.平行或反平行的bsheetBioinformatics,2008-2009,Semester1,USTC反平行的b-sheetBioinformatics,2008-2009,Semester1,USTC平行的b-sheetBioinformatics,2008-2009,Semester1,USTC混合的b-SheetsBioinformatics,2008-2009,Semester1,USTCLoops1.连接-helix和b-sheet2.长度和三级结构不定3.在蛋白质结构的表面4.受点突变的影响小5.柔性好,构象变化余地大6.带电荷、极性的氨基酸比例高7.倾向成为活性位点Bioinformatics,2008-2009,Semester1,USTCCoils无序性(Intrinsicallydisordered):介导蛋白质-蛋白质之间的相互作用Bioinformatics,2008-2009,Semester1,USTC三级和四级结构三级结构肽链折叠成三维的空间结构二级结构在空间上的排布长程的、共价与非共价的相互作用四级结构多个肽链在空间上的排布Bioinformatics,2008-2009,Semester1,USTC超二级结构1.StructuralMotifs:超二级结构或二级结构的组合2.Domains:Motifs的组合Bioinformatics,2008-2009,Semester1,USTC一些常见的结构性motifs1.Helix-turn-helix:e.g.,DNAbinding2.Helix-loop-helix:e.g.,Calciumbinding3.b-hairpin:2adjacentantiparallelstrandsconnectedbyshortloop4.Greekkey:4adjacentantiparallelstrands5.bb:2parallelstrandsconnectedbyhelixBioinformatics,2008-2009,Semester1,USTCH-T-HH-L-HBioinformatics,2008-2009,Semester1,USTCb-hairpinBioinformatics,2008-2009,Semester1,USTCGreekkeyBioinformatics,2008-2009,Semester1,USTCBeta-alpha-betaBioinformatics,2008-2009,Semester1,USTCDomains:Motifs的组合Bioinformatics,2008-2009,Semester1,USTC一个或多个domainsBioinformatics,2008-2009,Semester1,USTC六种蛋白质的结构类型(1)Domains:螺旋束通过loops连接(2)bDomains:主要是反平行b片,两对b片形成sandwich结构(3)bDomains:螺旋连接的平行的b片(4)bDomains:螺旋和b片各自形成单独的结构(5)Multidomain(b):包含多种domains(6)Membrane&cell-surfaceproteinsBioinformatics,2008-2009,Semester1,USTC-domainstructures:4-helixbundlesBioinformatics,2008-2009,Semester1,USTCUp-and-downsheetsandbarrelBioinformatics,2008-2009,Semester1,USTCGreekkeymotifsBioinformatics,2008-2009,Semester1,USTCbDomainsTIMbarrelRossmanfoldBioinformatics,2008-2009,Semester1,USTC2.蛋白质结构数据库、结构分类以及可视化1.蛋白质结构的数据库:PDB,MMDB,MSD2.蛋白质结构的分类:SCOP,CATH,DALI/FSSP3.蛋白质结构的可视化:Cn3D,Rasmol/RaswinBioinformatics,2008-2009,Semester1,USTC蛋白质结构的数据库1.PDB(ProteinDataBank):蛋白质结构数据库2.MMDB(MolecularModelingDatabase):分子模拟数据库=structure3.MSD(MolecularStructureDatabase):大分子的相互作用和结合位点(RCSB)Bioinformatics,2008-2009,Semester1,USTCMMDBBioinformatics,2008-2009,Semester1,USTCMSDBioinformatics,2008-2009,Semester1,USTC蛋白质结构的分类1.SCOP(StructuralClassificationofProteins):folds,superfamilies,andfamilies2.CATH(ClassificationbyClass,Architecture,Topology&Homology)3.DALI/FSSP:蛋白质三级结构的比较DALIserverDALIDatabase(foldclassification)蛋白质结构的可视化RasWinCn3DBioinformatics,2008-2009,Semester1,USTC3.蛋白质二级结构预测1.Chou-Fasmanpredictions:Empirical2.Garnier,OsguthorpeandRobson(GOR):HMM3.DavidT.Jones:PSSM4.Frishman,Argos:Nearestneighbormethods5.SujunHua:SupportvectormachineBioinformatics,2008-2009,Semester1,USTCChou-Fasman1.预测三种主要的二级结构:-helix,b-sheet,Coils2.训练数据:15个已知构象的蛋白质结构,共2473个氨基酸残基3.定义:蛋白质构象参数(proteinconformationalparameters):氨基酸残基在二级结构中的重要性Pα,Pβ,PcBioinformatics,2008-2009,Semester1,USTC氨基酸在各种二级结构中的频率InnerHelix:IncludedinHelixBioinformatics,2008-2009,Semester1,USTCPα,Pβ,Pc的计算20jiffPBioinformatics,2008-2009,Semester1,USTCPα&Pβ-helixb-sheetBioinformatics,2008-2009,Semester1,USTC经验规则与预测性能1.规则一:对于给定一个6aa的片段,Pα均值1.03,并且Pα的均值Pβ的均值,则判定为α-Helix2.规则二:对于给定一个6aa的片段,Pβ的均值1.05,并且Pβ的均值Pα的均值,则判定为β-sheet3.预测性能:准确性~50-60%;对于β-sheet性能较差Bioinformatics,2008-2009,Semester1,USTC准确性~65%Garnier,OsguthorpeandRobson(GOR):HMMBioinformatics,2008-2009,Semester1,USTCDavidT.Jones:PSSMPSIPRED:PSSM+NeuralNetwork准确性76.5%~78.3%Bioinformatics,2008-2009,Semester1,USTCFrishman,Argos:Nearestneighbormethods准确性~72%Bioinformatics,2008-2009,Semester1,USTCSujunHua:Supportvectormachine准确性~76.2%Bioinformatics,2008-2009,Semester1,USTC4.蛋白质三级结构预测