基于质谱分析的定性蛋白质组学方法 齐孟文 中国农业大学 现代质谱是蛋白质分析与研究的基本实验技术,这里简要介绍有关蛋白质鉴定的质谱原理、实验平台,及其质谱解析算法,以期对相关领域的技术线路和实验方法有一基本了解。1.现代生物质谱的一般结构生物质谱得益于两种软电离技术的发展,即基质辅助激光解吸电离(MALDI)和电喷雾电离(ESI)。图.MALDI电离原理示意图,一般得到单价的正离子。孙汉昌,2011,蛋白质组质谱数据处理关键问题与技术研究。图.ESI电离的示意图,一般得到多价态的离子。图片来自,孙汉昌,2011,蛋白质组质谱数据处理关键问题与技术研究。2.定性蛋白组学的实验平台图.ABI4700质谱仪组成、常用实验策略和数据处理。图片来自张记阳,2007,蛋白质组学中串联质谱数据搜库结果质量控制方法研究。图.LTQ-Orbitrap质谱平台及常用实验流程。图片来自张记阳,2007,蛋白质组学中串联质谱数据搜库结果质量控制方法研究。3.蛋白质组学的实验策略在基于质谱技术的蛋白质组学研究中,有两种基本的实验策略:自底向上策略(Bottom-up)和自顶向下策略(Top-down)。自顶向下策略是以蛋白质分子整体作为分析对象,通过蛋白质的肽质量指纹(peptidemassfingerprinting,PMF)对蛋白进行鉴定的方法。为了有效地克服质量简并的现象,减少搜索目标的范围,一般选择高精度和高分辨率的质谱,如傅里叶变换离子回旋共振质谱仪(2ppm,50000)。该策略具有较高的序列覆盖度和翻译后修饰特征的保持,适合于翻译后修饰及特殊的蛋白质异构体的分析。不足的是,(1)实验样品蛋白质需要高度纯化;(2)在目前的实验条件下,较难分析大分子量的蛋白质。自底向上策略,称之为鸟枪法,是利用串联质谱数据,即肽碎片指纹(peptidefragmentfingerprinting,PFF)来鉴定肽段序列,然后再推断组装样品中包含的蛋白质,是常用的高通量分析策略。由于肽碎片携有呈几何增长的组合信息,可以消除质量简并之忧,对质谱的质量分辨率要求不高,多用于对复杂样品的混合物进行高通量分析。图.自底向上策略和自顶向下策略示意图。孙汉昌,2011,蛋白质组质谱数据处理关键问题与技术研究。4.串联质谱生产特点及解析利用低能惰性气体诱导碰撞,使肽骨架各种键断裂,生成N端的和C端的6种系列离子,低能CID主要产生,其次是离子。另外两个骨架键断裂往往会形成内部碎片,如氨基一酰基离子(amino-acyliumion),亚氨(immnonim)离子等。碎片离子还有可能丢失一个中性分子基团(比如水或者氨分子)形成新的离子,高能量CDI则还可导致侧链的断裂而得到其它类型的离子。类,,-c-b-a类,,-z-y-x-b-y,-a图.CID作用下肽键的断裂方式AnIntroductiontoBioinformaticsAlgorithms||R1OR2OR3OR4||||||||||H--N---C---C---N---C---C---N---C---C---N---C--COOH|||||||HHHHHHHb2-H2Ob3-NH3y2-NH3y3-H2O图.部分离子示意举例不同类系列间存在一定的联系,如质量和的关系,和,以及称为互补的离子,互补i-nii-nii-nizcybxa+=+=+ai-nxi-niyb和i-nizc和离子的质量和等于母离子的质量。相邻的离子,比如1bbii+和,等则称为连续离子,连续离子之间的质量差正好是一个氨基酸的质量,某类离子与其失水失氨离子称为同源离子,同源离子之间相差某些分子基团,如CO,H1yyii+和2O,NH3等,因此其质量的差值也可计算出来。AnIntroductiontoBioinformaticsAlgorithms||R1OR2OR3OR4||||||||||H--N---C---C---N---C---C---N---C---C---N---C--COOH|||||||HHHHHHHb2-H2Ob3-NH3y2-NH3y3-H2O图.示意失去中性分子集团而产生的离子类型。图.连续离子构成阶梯式质量序列5.实验质谱预处理基本流程质谱仪产生的图谱,包含质荷比和信号强度的信息,由于酶切和CID碎裂都遵从一定的物理化学规律,蛋白质和肽段产生的质谱都具有特定的模式,这是利用质谱数据进行蛋白质和肽段鉴定的理论基础。从数据采集的角度来说,原始质谱是质谱仪按照固定的时间间隔采集得到的模式谱,其构成包括序列离子,内部碎裂离子,以及电子和化学噪声。电子噪声是随机分布的低矮信号,而化学噪声是由试剂中的杂物质引入的,有时信号很强,难于按信噪比去除或滤波,由于实际质谱十分复杂,存在大量的杂峰,不仅使鉴定工作量巨大,而且发生随机匹配可能性增加,使鉴定的可靠性降低,因此在进行鉴定前,必须进行预{Iz/m,}处理,把其变成中心化后棒状图。图.质谱原始图谱预处理基本流程6.基于鸟枪法蛋白鉴定过程图.基于鸟枪法蛋白鉴定过程。孙汉昌,2011,蛋白质组质谱数据处理关键问题与技术研究。1)数据库搜索方法顾名思义,就是针对每一张实验图谱,从数据库中搜索与之匹配的肤段。基本的方法是:首先从数据库中,由条件ε≤ip,其中iP为肽段i的质量,M-MMpε为质量误差容限,筛选所满足条件的肽段构成候选集,然后根据肽段的碎裂原理,产生理论图谱,并将理论图谱和实验图谱进行比对,给出相似性打分,挑选分值最高的一个或者几个肽段输出结果。已有的数据库搜索打分算法,包括SEQUEST,Mascot和X!Tandem。SEQUEST对实验图谱进行预处理后,从数据库中得到的酶切肽段,预测其理论图谱,并将实验图谱与之进行匹配,对匹配结果进行预打分(公式1),以筛选最可能匹配的肽段(保留前500个);然后将原始的实验图谱进行局部信号增强处理,并与预选出肽段的理论图谱进行互相关打分(公式2);最后对得到的结果按照Xcorr分值从大到小顺序输出(输出前10个);同时输出的还有CnΔ分值(公式3),预测离子的匹配比例(Ions),预打分Sp,预打分排序,母离子质量(等信息。RSp++)HM(图.SEQUEST工作流程。图片来自张记阳,2007,蛋白质组学中串联质谱数据搜库结果质量控制方法研究。BBB//Ytypeions(100%)Atypeions/Y-NH3/-H2O(20%)Y+2Htypeions(50%)WhereBandYionsareestimatedat100%,plus2ionsareestimatedat50%,andotherstragglersareat20%.ModelSpectrum图.理论推断的模式谱。图片来自Brian.Searle@ProteomeSoftware.comSEQUESTModelSpectrumForcalculatorCrosscorrelation,thepectraisshiftedtoforthroback图.计算Corr的模式图。图片来自Brian.Searle@ProteomeSoftware.comSp的计算公式为:L/11mISkkp))((ρβ++⎟⎠⎞⎜⎝⎛=∑(1)其中表示匹配离子强度和,∑kkIρβ和为出现连续离子序列和亚氨离子(immoniumion)的奖励,分别等于0.075和0.15,为预测离子总数目,Lm为在实验图谱中获得匹配的预测离子数目。两信号序列间的相互关系系数,由对其的卷积表示,对连续序列有dtt()t(x)(R-yx),ττ+=∫+∞∞y对分立序列,则有∑=+=1-n0i)i(y)i(xRττ其中,τ是两序列之间的位移。的计算公式定义为XCorrT)E,Corr1501-TE,CorrXCorr0()(τ=(2)假设排在前两位的搜库结果的,分别为和,则定义是两者的归一化差值:XCorr1XCorr2XCorrCnΔ12XCorr/Xcorr-1Cn=Δ2)Denovo算法从本质上来说,Denovo算法是,在分子质量误差容限内所有可能的肽段中,寻找图谱的最优解释,搜索空间比数据库搜索还要大,为了减小搜索空间,Denovo算法利用了二级图谱中包含的肽段序列信息来约束搜索空间。Bartels于1990首次提出求解从头测序问题的图论方法,这类这类方法的基本流程可以概述如下:首先对图谱进行预处理,例如,去掉图谱中低丰度的峰,或者归并图谱中的同位素峰簇等;然后构建质谱峰连接图,即如果两个峰之间的质量差在误差范围内等于某个氨基酸残基的质量,就将这两个质谱峰作为两个顶点和一条边加入到图中,质谱峰连接图构建完毕后,在图中加入型离子的起始点1和结束点,以及y型离子的起始点19和结束点,其中,M为母离子质量,再利用动态规划算法,在图中搜索b型离子或型离子从起始点到结束点的最优路径,如质量离查平方和最小的路径,并产生候选肽段,最后通过打分函数对候选肽段进行排序和输出。)EV(,)EV(,b17-M1M+)EV(,y图.Denovo算法原理。3)肽序列标签法肽段在CID过程中有可能碎裂不充分,导致实验图谱的肽段序列信息不完整,在这种情况下,Denovo显然是不可能的,但是根据图谱可以确定肽段的部分序列信息,间断的部分可以计算出分子量,如此将推得的局部序列,或局部序列+分子量作为标签,并利用标签镞通过搜索数据库对预测肽段进行鉴定。7.鉴定结果的判定和评估肽段鉴别结果的判定和评估,是指给定结果划分的标准和对假阳性率进行评估,对于SEQUEST搜库结果,现有的方法大致可分为三类:1)经验阈值法;2)概率模型法;3神经网络学习法。1)经验阈值法经验阈值法是确定一组与鉴别可信度相关参数的阈值,作为接受结果的标准。SEQUEST常采用的阈值,对肽段离子,设定的阈值为:++2]H2M[50SP1.0Cn2Xcorr≤≥Δ≥;;。2)概率模型法这是在一定的假设条件下,利用标准样品的数据作为测试集测定,得到相关参数的概率分布模型,然后进行统计推断的方法,其代表性的方法是Keller提出的petiprophet。其基本思路是,将相关打分参数(RSpCnXcorr,,Δ等)线性组合得到单一的判别函数,确定其分布,然后由期望最大算法和贝叶斯公式确定鉴别结果的假阳性率。一般步骤如下:第一步:构建判别函数)RSp(lncCncLln)XCorr(lnccD3210⋅+Δ⋅+⋅+=其中,L是肽段的长度,c是常系数,由标准混合样品测定定,经拟合得到的值为:()2.0,3.7,3.9,5.1()cccc3210−−=,,,。第二步:测定的分布D.BelowthresholdmatchesdroppedspectrumscoresproteinpeptidesortbymatchscoreSEQUESTXCorr2.5dCn0.1MascotScore45X!TandemScore0.01“correct”“incorrect”Peptidesthatareidentifiedwithscoresabovethethresholdareconsidered“correct”matches.Thosewithscoresbelowthethresholdareconsidered“incorrect”.Thereisnograyareawheresomethingispossiblycorrect.图.fromBrian.Searle@ProteomeSoftware.com第三步:计算假阳性的概率020406080100120140160180200-3.9-2.3-0.70.92.54.15.77.3“correct”“incorrect”Discriminantscore(D)Numberofspectraineachbi