第四讲从质谱数据鉴定多肽/蛋白质中科院自动化所李伏欣开场白►在之前的讲座中,我们已经学到了关于蛋白质组学中的重要工具—质谱仪的知识。►蛋白质组学里,质谱仪的作用是鉴定混合物中的蛋白质。然而,没有数据分析的辅助,它是做不到这一点的。讲座大纲►本讲座中,将分别讲述两种鉴定蛋白质的方法。其一是质量纹鉴定法(PeptideMassFingerprinting),另外一种是二级质谱的数据库搜索鉴定法(MS/MSDatabaseSearching)。►我们将简略的介绍质量纹鉴定法。而用更多的时间讨论用于二级质谱上的方法。多肽质量纹鉴定►多肽质量纹(PeptideMassFingerprinting,PMF)是从一级质谱(MS)中鉴定多肽的主要方法。►多肽质量纹一般都是在MALDI-TOF仪器的结果上进行。►其原理就是利用了蛋白序列数据库中的多肽质量的信息。►我们下面的讨论,先假设一张质谱图对应一个蛋白。后面会讨论处理多个蛋白的情况。一级质谱图►蛋白质经过酶解后,送入质谱仪,得到一级质谱。►目前来说,由MALDI-TOF质谱仪产生的质谱图精度较高,而由ESI质谱仪产生的质谱图精度相对较低。►另一个问题是,ESI产生的质谱图中的离子通常带有很多电荷,而MALDI质谱图中的离子一般只带一个电荷,比较容易计算。►所以从一级质谱鉴定蛋白质的算法(质量纹)主要用在MALDI-TOF产生的质谱图上。SampleMSSpectrum蛋白序列数据库►在美国国家生物信息中心的网站上可以查询到最新的蛋白序列数据库。►NCBI上的数据库中,信息最丰富的是Genpept格式,包括有蛋白的序列,各种性质,甚至于参考文献。►但是对我们来说,我们只需要蛋白序列的信息就够了。Genpept示例Genpept示例FASTA格式►FASTA格式就是蛋白的氨基酸序列。虚拟酶解►对应于送进质谱仪的样品,我们可以对数据库里的序列作一次虚拟的酶解。质量排列►虚拟酶解的结果,产生了一系列的多肽,我们可以计算每个多肽的质量。►最后一个R的质量多加了18,这是因为我们写在下面的是残基的分子量。质量排列的►把所有多肽的质量排序。质量纹►如此,质谱图上的质量就可以与多肽上的质量相匹配。质量纹►这就是多肽质量纹(PMF)的最基础的思路。►但是,真正的将之作为一个鉴定蛋白质的方法,还有很多需要考虑的问题。►在讨论这些问题之前,我们先看一看目前常用的质量纹算法。常用的质量纹算法►现在试验中可用的算法有:Mascot:://prowl.rockefeller.edu/cgi-bin/ProfoundExpasytools::中的问题►第一个问题:质量相近的多肽怎么处理?►在现实的蛋白数据库中,多肽的数量是很庞大的。这里面难保不会有质量非常相近的多肽。这样,就造成了质谱图上的一个峰可能匹配不止一个多肽,于是我们就难以知晓这张质谱图究竟代表哪个蛋白。质量相近的多肽多肽[M+H+]DGAPLESSSR1019.0490REGESTPSR1019.0520DFPIANGER1019.0940DPLASSSWR1019.0940YVPLKDQR1019.1800HLQLPAPSR1019.1830VLFLNGIDK1019.2200Peakm/z:1019.08解决方案►第一个解决的办法是限制用来搜索的数据库。比如,你如果做的试验用的是小白鼠的组织,那么你可以只在鼠类的数据库中搜索,这样就可以减低出现这种情况的可能性。►第二个解决的办法是要求必须有多个多肽和数据库相匹配,才做出最后的蛋白质鉴定。多匹配DFPIANGER1019.09EPISVSSQQMLK1347.56VLDALDSIK974.13CarbonicanhydraseIISHHWGYGKHBGPZHWHKDFPIANGERQSPVNIDTKAVVQDPALKPLALVYGEATSRRMVNNGHSFNVEYDDSQDKAVLKDGPLTGTYRLVQFHFHWGSSBBQGSEHTVDRKKYAAELHLVHWNTKYGDFGTAAQQPDGLAVVGVFLKVGDANPALQKVLDALDSIKTKGKSTDFPNFDPGSLLPNVLDYWTYPGSLTTPPLLESVTWIVLKEPISVSSQQMLKFRTLNFNAEGEPELLMLANWRPAQPLKNRQVRGFPK多匹配可以大大降低随机匹配的概率,从而增加结果的可信度长蛋白和短蛋白►第二个问题:长蛋白可能会更容易的被匹配。►因为长蛋白里的多肽数目较多,即以概率来算,匹配上的几率也会比较大。►质量纹算法必须考虑这个问题,给短蛋白一定的补偿。多个蛋白的情况►第三个问题就是在一张质谱图中可能有多个蛋白存在。►通常,MALDI-TOF是与双向电泳连接使用。双向电泳的一个电泳点上可能有2-3个蛋白,这样就增加了鉴定的难度。►由于无法预知一个电泳点上有多少蛋白质,PMF的效果可能会受到很大的影响。多肽质量纹:小结►质量纹算法是用一级质谱鉴定蛋白质的经典方法。►质量纹算法比较简单,一般使用较简单的统计模型,速度一般较快。►质量纹算法的效果受到很多方面的限制,首先是仪器精度的限制,其次是样品中可能有多个蛋白的限制。这使得质量纹算法不是理想的分析复杂混合物中蛋白成分的方法。►返回利用二级质谱图►我们刚才谈到了,多肽质量纹有其先天的不足。其中,最糟糕的是它不能处理多个蛋白的混合物。►如果我们能够处理混合物,就可以减少很多用于纯化上的时间和精力。►那么,怎么才能从混合物中鉴定蛋白呢?这就要用到二级质谱。二级质谱图►在一级质谱图中,选择其中的一个峰,对其进行CID过程,就得到一张二级质谱图。►这里的假设是一级质谱中的一个峰就对应了一个多肽,实际情况可能并不是这样。►先看一张二级质谱图,然后我们来解释CID过程。典型二级质谱图CID►CID,即Collision-inducedDissociation,是通过撞击使得多肽的肽键断裂的过程。►在做二级质谱的试验时,质谱仪选择一级质谱中的一个峰,也就是对应质荷比的这些离子,让这些离子高速撞击质谱仪中的惰性气体,使其肽键断裂,这就是CID。肽键及其断裂一些常见的特殊情况►除了普通的肽键断裂以外,还经常有一些特殊的情况。►Neutralloss:某些酸性氨基酸可能会在CID中丢失一个水分子(H2O),而碱性氨基酸会在CID中丢失一个氨分子(NH3)。►翻译后修饰:有时,二级质谱中需要考虑某些氨基酸可能被修饰(磷酸化、糖基化等),这些修饰可能改变残基的分子量。肽键断裂的说明►CID中,肽键的断裂方式有非常多的可能性。关于具体的断裂方式,可以去查询生物化学方面的书籍。这些问题超过了本课程的范围。►通常,我们只考虑b系列和y系列。原因是我们使用的电压较低,其他系列的离子不易产生。►但实际上,如果能够清楚的知道我们究竟需要考虑什么样的断裂方式,对搜索算法的设计会有很大的帮助。通过残基鉴定多肽De-novoSequencing►这种通过残基来鉴定多肽的方法被称为De-novoSequencing。►当我们拥有近乎完美的二级质谱图时,我们可以采用这种De-novoSequencing的办法。►但是,实际情况中,我们并没有完美的二级质谱图,而一点点的不完美,带来的误差是惊人的。氨基酸质量表Molecularweightsusedforcalculations.ButtoncodeShortcodeNameAveragemassofresidueMonoisotopicmassofresidueTwentyNaturally-OccurringAminoAcidsAlaAAlanine71.078871.03711CysCCysteine103.1448103.00919AspDAsparticAcid115.0886115.02694GluEGlutamicAcid129.1155129.04259PheFPhenylalanine147.1766147.06841GlyGGlycine57.052057.02146HisHHistidine137.1412137.05891IleIIsoleucine113.1595113.08406LysKLysine128.1742128.09496LeuLLeucine113.1595113.08406MetMMethionine131.1986131.04049AsnNAsparagine114.1039114.04293ProPProline97.116797.05276GlnQGlutamine128.1308128.05858ArgRArginine156.1876156.10111SerSSerine87.078287.03203ThrTThreonine101.1051101.04768ValVValine99.132699.06841TrpWTryptophan186.2133186.07931TyrYTyrosine163.1760163.06333组合数(估计值)峰间质量距离(Da)最低组合数最高组合数平均值50-100010.089100-2000141.556200-300113624.871300-400371687386.23400-500586234815958.36500-6001409334038092016.7600-70024852148732601418510DatabaseSearching►对于一张不完美的质谱图,有这么多的组合可以生成之。但是,幸运的是,我们还有这个蛋白序列数据库。►虽然组合有那么多,但是在这个数据库的限制之下,组合数就大大的减少了。►所以我们可以从数据库里搜索最好的匹配质谱图的多肽,这样就有了二级质谱的数据库搜索算法。数据库搜索的基础►数据库搜索的基础很简单,就是理论质谱图和试验质谱图之间的一个比对。►我们刚才讨论了CID的过程,所以我们知道了残基产生的规律,那么,利用这些规律,我们可以对每个多肽产生一张理论的质谱图,用来和试验质谱图进行比对,对它们“相似”的程度做一个评分,分数最高的多肽,我们就认为它是试验质谱图代表的多肽。理论质谱图和试验质谱图数据库搜索的流程►在一个蛋白序列数据库中,可以找出来的,落在质谱仪质量范围以内的多肽多达数百至数千万,如果每个多肽都拿来和试验质谱图做比对的话,需要花费的时间是难以接受的。►提高搜索速度的关键就是减少搜索的对象数。数据库搜索的流程►所以,基本上,所有的数据库搜索算法都包括两个步骤。►第一个步骤是筛选数据库里的多肽,找出所有有可能与质谱图匹配的多肽。►第二个步骤就是拿这些选出来的多肽去和质谱图进行比对,并输出最高分值的多肽作为一个PSM(Peptide-SpectrumMatch)。常用的搜索算法►常用的二级质谱的数据库搜索算法包括:SequestMascot:…………Sequest►我们用Sequest作为一个例子来讲解数据库搜索算法的一般流程。►Sequest是由Eng,Yates等人在1994年提出的经典算法。虽然目前已经显得有些过时,但是在很多实验室中仍然是最为常用的算法。第一步:数据库初筛►首先的工作是要从数据库中找出分子量和质谱图母离子分子量相当的多肽。►算法首先把数据库里的多肽做一次虚拟的酶切。对酶切得到的每一个多肽,计算其分子量。►找到所有分子量与质谱图母离子接近的多肽后,准备进行匹配。第二步:质谱图预处理►对质谱图做一些预处理,可以提高算法的速度,有时还可以增加鉴定的正确率。►Sequest的预处理包括:►把质谱图