蛋白质鉴定流程质谱数据是仪器实验过程的结束,又是数据处理过程的开始。对基于质谱的蛋白质组学研究来讲,是后续生物信息分析挖掘的源头蛋白酶解一级质谱(二级质谱)质谱数据解析数据检索质谱数据的预处理1原始质谱数据的预处理2谱峰中心化后的质谱数据的预处理1原始质谱数据的预处理1)质谱过滤(Spmrumfiltering)去除一些已知的公共污染物,比如角蛋白或者酶自解产生的多肽,可减少待测蛋白质鉴定中的错误解释2)质谱合并(Spectrumjoining)同一个多肽的不同的质谱识别出来并去掉,从而减少质谱的数据量1原始质谱数据的预处理3)质谱去噪(Dcnoising)识别质谱中的容易区分的噪声4)谱峰中心化(Peakcentroiding)轮廓质谱图---棒状质谱图质谱数据的预处理1原始质谱数据的预处理2谱峰中心化后的质谱数据的预处理2谱峰中心化后的质谱数据的预处理串联质谱中对肽序列鉴定有用的信息只是很少量的几十个重要离子的单同位素(monoisotope)谱峰但通常一个Q-TOF类型的串联质谱对应的.dta文件里包含300-5000甚至更多的谱峰。质谱中绝大多数的谱峰对应仪器的物理噪声以及离子的同位素谱峰。因此,有必要对质谱数据进行预处理2谱峰中心化后的质谱数据的预处理质谱噪声基线和信号峰的识别质谱中的噪声分布有一定的规律强度在基线以下的m/z值对应的谱峰是噪声的概率非常大。有效峰选取从质谱中挑选出离子的单同位素谱峰,作为进一步的序列鉴定之用1)信号峰的识别比较流行的各种基于串联质谱的蛋白质鉴定软件所采用的预处理方法,都是着眼于对谱峰强度进行处理大多属于阈值类方法,即根据某个阈值,保留阈值以上的蜂作为信号峰,而阈值以下的被当作噪音峰抛弃这是由于仪器等原因,每张图谱都会有一条噪音峰的水平强度基线(即阈值)。1)质谱噪声基线的识别根据基线的设定方法,可以大致分为三类:(1)固定基线算法(2)固定峰数法(3)窗口基线法(4)窗口基线法和固定峰数法的结合(1)固定基线算法即根据经验对所有的图谱设定同样的基线,不考虑图谱的差异。绝对强度基线法,比较简单,即给定一个绝对强度的基线,在此基线以下的全部舍弃相对强度基线法,即将峰强归一化,取定一个百分比值,在此基线以下认为是噪音。(1)固定基线算法这种固定基线方法简单易行,但最大的不足就在于没有根据用户当前提供的数据寻找基线,而固定一个基线,无法考虑当前图谱的强度分布。(2)固定峰数法这个方法可以看作是有效峰挑选的方法.这种方法将谱峰按照强度高低进行排序,保留固定数日的峰作为信号峰(如200个),其他的都作为噪音舍弃这个方法比固定基线方法有所改进,不需要考虑图谱的谱峰强度分布,取强度最高的固定数目的谱峰进行后续的分析。但是有的图谱的谱峰可能很多,会丢掉太多的信息(如图A所示);而有的图谱的谱峰可能很少,甚至不到100个,这就会使得预处理产生不了作用,所有的谱峰都被保留(如图B)比如SEQUEST(3)窗口基线法(a)根据图谱的谱峰分布,在谱峰分布强度不同的区间给定不同的基线,这些平均强度不同的区间被称为窗口(如50Da为一个窗口),计算出每个窗口内谱峰强度的平均值以及标准差,将强度的平均值加上标准差作为窗口的基线。这种方法相比于固定基线法有改进,设置基线时考虑了在不同的质量段,会有不同的谱峰强度分布。(3)窗口基线法(b)基线—采用局部线性拟合的方法来去除(3)窗口基线法(b)(4)窗口基线法和固定峰数法的结合例如,在图谱的质量方向上,每隔50Da开一个窗口,在每个窗口中选择峰强最高的5个谱峰作为信号峰,其他谱峰作为嗓声而舍弃。如Mascot通过在每一个固定范围内(14Da)保留一个质峰的方法加强了对小丰度值质峰的选取,以获得与离子系列相对应的质峰阶梯。2谱峰中心化后的质谱数据的预处理质谱噪声基线和信号峰的识别质谱中的噪声分布有一定的规律强度在基线以下的m/z值对应的谱峰是噪声的概率非常大。有效峰选取从质谱中挑选出离子的单同位素谱峰,作为进一步的序列鉴定之用有效峰选取理论上,同位素峰在图谱中表现为两个峰之间的质量差为1Da。去同位素峰:一个离子的同位素会在质谱图上显示出不同的峰,峰间的距离为1,去同位素峰就是把这些峰合并为一个峰。进一步简化质谱数据的复杂度比较同位素峰簇中第一个同位素峰和第二个同位素峰的强度如果第一个同位素峰的强度大于或等于第二个同位素的强度,只保留同位素峰簇中的第一个同位素峰如果第一个同位素峰的强度小于第二个同位素的强度,则只保留第二个同位素峰。去同位的效果通过质谱去鉴定多肽序列采用计算的方法通过实验质谱去鉴定多肽序列的问题可分成三大块:1)数据预处理---即从质谱中提取对鉴定有用且无偏的信息。1原始质谱数据的预处理2谱峰中心化后的质谱数据的预处理2)理论谱构造构造趋近客观和完备的理论谱。3)肽序列鉴定即比较理论和实验质谱而鉴别多肽的序列以致于确定蛋白质身份。trypticdigestionofeachproteinyieldsaspecificnumberofpeptidesofspecificlength,sequence,andmostimportantly,ofspecificmass.Wecanuseacomputertogeneratethislistofpeptidesbyperformingavirtualdigestionofalltheproteinsinadatabase.NCBI-Genpept,swiss-protWealsocandothiswithnucleotidesequenceinformationbyconvertingittoproteinsequenceinformationandthendigesting.Inprinciple,acompletegenomesequence,properlyannotated,canyieldacompletelistofproteinsand,consequently,oftrypticpeptides.Aninspectionofthetheoreticalproteolyticpeptidelistwouldrevealthatsomeofthepeptidesoverabout6aminoacidsinlength(about700Da)wouldhaveuniquemasses.通过质谱去鉴定多肽序列采用计算的方法通过实验质谱去鉴定多肽序列的问题可分成三大块:1)数据预处理即从质谱中提取对鉴定有用且无偏的信息。2)理论谱构造构造趋近客观和完备的理论谱。3)肽序列鉴定即比较理论和实验质谱而鉴别多肽的序列以致于确定蛋白质身份。质谱分析蛋白的方法用于质谱分析蛋白质的方法主要有三种:肽质量指纹图谱法(PMF)串联质谱法(CID)梯形肽片段测序法(ladderpeptidesequencing)PMF鉴定蛋白质肽质谱指纹图(peptidemassfingerprinting,PMF)PMF鉴定蛋白质肽质谱指纹图是从一级质谱(MS)中鉴定多肽的主要方法。酶解后的蛋白片段通过质谱精确测定每个肽段的分子量,得到该蛋白的肽指纹图谱,并通过和数据库中每一个蛋白的理论酶解片段比较从而实现蛋白的肽指纹图谱鉴定目前来说,由MALDI-TOF质谱仪产生的质谱图精度较高,而由ESI质谱仪产生的质谱图精度相对较低。另一个问题是,ESI产生的质谱图中的离子通常带有很多电荷,而MALDI质谱图中的离子一般只带一个电荷,比较容易计算。所以从一级质谱鉴定蛋白质的算法(质量纹)主要用在MALDI-TOF产生的质谱图上。胰酶消化蛋白质?多肽已测得质谱数据或理论质谱数据123数据库凝胶比较:??是否相同??1234.5396783.9147375.2561质谱3235.2256鸟枪法蛋白质组学Anexamplehumanhemoglobin血红蛋白alphachainMVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR蛋白质酶解粘贴蛋白序列:PGYRNNVVNTMRLWSAKAPNDFNLKDFNVG选择“Onlythefollowingselectionofenzymesandchemicals”,并选择胰酶Trypsin酶切点击PerformVGAHAGEYGAEALERhasanexactmonoisotopicmassof1528.7348Da.Thus,thesinglychargedionofthispeptidehasanm/zvalueof1529.7348.Thetheoreticalproteolyticpeptidesnowbecomesavaluablereferencetool.Onecouldrankthesetrypticpeptidesfromlowestmasstohighest.PMFVSblast相似点:PMF需要对庞大的蛋白质数据库进行筛选来找到和实验所测的分子量所匹配的氨基酸序列不同点:蛋白质研究领域中对于PMF没有一个可以被广泛接受的算法和概率模型常用的质量纹算法现在试验中可用的算法有:Mascot:://prowl.rockefeller.edu/cgi-bin/ProfoundExpasytools::简介使用类型在线检索:免费,数据库总是最新的,检索速度快,简单,只需将peaklist文件导入即可,但文件大小受限制本地检索:需要购买软件及安装数据库,但使用方便、可以进行大规模的数据检索分析和数据库配置,功能更加强大Mascot是一款强大的数据库检索软件,可以实现从质谱数据到蛋白质的鉴定,其检索方式包括以下三种:PeptideMassFingerprint(肽指纹图谱检索)SequenceQuery(部分序列比对)MS/MSIonSearch(串联质谱检索)打分算法---分数计算说明:这个分数算法是PMF的分数算法,MS/MSionsearch则采用其它分数算法打分算法---分数计算分数高低取决于数据库的大小与设定的E值,对于特定的数据库和E值(如E=0.05),则可以算出S。一般用确定的E值来设定对应的阈值分数。如下图,E=0.05,则阴影内结果表示为小于阈值分数的不可信结果1529.7348Theimportanceofthispoint(PMFrequireshighlyaccuratemassmeasurements)iseasytoillustratewitharealpeptide.TheresultsofsearchingthispeptideagainstallmouseandhumanproteinsintheSWISS-PROTdatabaseareillustratedinTable1.1529.7348anyrealtrypticdigestionoftheproteinsamplewouldhaveyieldedmultiplepeptidesandgivenusmultiplem/zvaluestosearchagainstthedatabase.Thebenefitofincreasingthenum