蛋白质组学的数据分析邵晨复习►蛋白质组的定义,蛋白质组学和基因组学的区别?►由一个基因组,或一个细胞、组织表达的所有蛋白质。蛋白质组的概念与基因组的概念有许多差别,它随着组织、甚至环境状态的不同而改变。在转录时,一个基因可以多种mRNA形式剪接,一个蛋白质组不是一个基因组的直接产物,蛋白质组中蛋白质的数目有时可以超过基因组的数目。►KeyadvantageofproteomicsResearchersworkonthelevelofgeneproductsanddealwithgenesthatarereallyexpressedtogiveadetectablePRODUCTandarenotjustexpressed“whichonlysaystheyproduceadetectablemRNAbutitisnotclearwhetherthereisageneproductornot.►KeylimitationofproteomicsUsually,onlyafractionoftheproteinssynthesizedcanbedetectedinaproteomicsexperiment,whereastheexpressionofALLgenescanbemonitoredinawhole-genomearrayexperiment.►KeyprerequisiteofproteomicsAgenomesequencefortheinvestigatedorganismoratleastacollectionofmanycDNAsequencesisrequired.FromYogitaMantri&ArvindGopu’spresentationin2003蛋白质组学研究的目标►蛋白质鉴定►蛋白质特性-如翻译后修饰►蛋白质定量-相对定量、绝对定量►样品间比较定性-不同样品间含有的蛋白类型的差异定量-不同样品间含有的蛋白浓度/含量的差异翻译后修饰-不同样品间是否存在不同的翻译后修饰形式►蛋白质功能把单个蛋白/多肽从复杂样品中分离出来非常困难,在“组学”实验中一般达不到这个效果Ionizationmethods►Electrospraymassspectrometry(ESI-MS)Liquidcontaininganalyteisforcedthroughasteelcapillaryathighvoltagetoelectrostaticallydisperseanalyte.Chargeimpartedfromrapidlyevaporatingliquid.►Matrix-assistedlaserdesorptionionization(MALDI)Analyte(protein)ismixedwithlargeexcessofmatrix(smallorganicmolecule)Irradiatedwithshortpulseoflaserlight.Wavelengthoflaseristhesameasabsorbancemaxofmatrix.MALDIm/zspectrumofapeptidemixtureTheQuadrupoleThequadrupoleconsistsoffourparallelmetalrods.Ionstraveldownthequadropoleinbetweentherods.Onlyionsofacertainm/qwillreachthedetectorforagivenratioofvoltages:otherionshaveunstabletrajectoriesandwillcollidewiththerods.Thisallowsselectionofaparticularion,orscanningbyvaryingthevoltages.sourceVoltageFiltersoutallm/zvaluesexcepttheonesitissettopassObtainsamassspectrumbysweepingacrosstheentiremassrangeCollectsandstoreionsinordertoperformMS-MSanalysesonthem.IonTrapMassAnalyzerTrappedionsIonsinIonsoutThetrapconsistsofatopandabottomelectrodeandaringelectrodearoundthemiddle.Ionsareejectedonthebasisoftheirm/zvalues.Tomonitortheionscomingfromthesource,thetrapcontinuoulsyrepeatsacylcleoffillingthetrapwithionsandscanningtheionsaccordingtotheirm/zvalues.Separatesthemassanalysisandionisolationeventsintime(usingasinglemassanalyzer)Ionizationiontransfer/trappingparentionisolation/fragmentationdaughteriondetection14Amassanalyzerfordeterminingthemass-to-chargeratio(m/z)ofionsbasedonthecyclotronfrequencyoftheionsinafixedmagneticfield.AllionsaredetectedsimultaneouslyoversomegivenperiodoftimeIonsareinjectedintoamagneticfield,thatcausesthemtotravelincircularpaths.ExcitationwithoscillatingelectricalfieldincreasestheradiusandenablesafrequencymeasurementFourierTransformMSFouriertransformioncyclotronresonancemassspectrometry,FTICMSICRcanbeusedwithdifferentionizationmethods,ESI,MALDIAshortsweepoffrequenciesisusedtoexciteallions.Thecomplexspectrumofintensity/timeisanalyzedwithFourierTransformtoextractthem/zcomponetsHighresolutionHighaccuracyVerysensitive(theminimalquantityfordetectionisinorderofseveralhunderedionsNondestructive–theionsdon’thitthedetectionplatesotheycanbeselectedforfurtherfragmentationOrbitrap静电轨道阱质谱傅里叶变换原理MassSpectrometryReviews,Volume27,Issue6蛋白质组学研究的目标►蛋白质鉴定Top-down策略(质量纹方法,MS谱图)Bottom-up策略(denovo测序和数据库检索,MS/MS谱图)►蛋白质修饰►蛋白质定量-相对定量、绝对定量►样品间比较►蛋白质功能Top-downproteomics一级质谱图指纹数据库多肽质量纹鉴定►多肽质量纹(PeptideMassFingerprinting,PMF)是从一级质谱(MS)中鉴定多肽的主要方法。►多肽质量纹一般都用于分析2DE-MS的结果,不适宜分析多个蛋白质的混合物。多肽质量纹鉴定►蛋白质经过酶解后,送入质谱仪,得到一级质谱,即多肽离子的m/z。►从一级质谱鉴定蛋白质的算法主要用在MALDI-TOF产生的质谱图上。1.目前来说,由MALDI-TOF质谱仪产生的质谱图精度较高。2.另一个问题是,ESI产生的质谱图中的离子通常带有很多电荷,而MALDI质谱图中的离子一般只带一个电荷,比较容易计算。蛋白序列数据库►质量纹算法的核心是将实验获得的蛋白指纹与数据库中的蛋白指纹进行匹配,为此,必须首先找到一个合适的蛋白质序列数据库►在网上可以查询到最新的蛋白序列数据库,如NCBI,UniProt,SwissProt等等►下载FASTA格式ProteinsequencedatabaseUniprot(包含Swissprot和Tremble)Integr8FASTA格式的数据库►FASTA格式包含蛋白的名称和氨基酸序列。虚拟酶解►有了蛋白序列的信息,我们就可以进行鉴定。►对应于送进质谱仪的样品,首先找到数据库里的序列的酶切位点。质量排列►这样可以产生一系列的多肽,我们可以计算每个多肽的分子量。►最后一个R的质量多加了18,这是因为我们写在下面的是残基的分子量。肽和肽键质量排列►把所有多肽的分子量排序。质量纹►如此,质谱图上的质量就可以与多肽上的质量相匹配。质量纹►这就是多肽质量纹(PMF)的最基础的思路。质量纹算法成立的基础,在于酶切的特异性以及多肽离子质量的精确测定►问题?PMF中的问题►第一个问题:质量相近的多肽怎么处理?►在现实的蛋白数据库中,多肽的数量是很庞大的。这里面难保不会有质量非常相近的多肽。这样,就造成了质谱图上的一个峰可能匹配不止一个多肽,于是我们就难以知晓这张质谱图究竟代表哪个蛋白。质量相近的多肽多肽[M+H+]DGAPLESSSR1019.0490REGESTPSR1019.0520DFPIANGER1019.0940DPLASSSWR1019.0940YVPLKDQR1019.1800HLQLPAPSR1019.1830VLFLNGIDK1019.2200Peakm/z:1019.08解决方案►第一个解决的办法是限制用来搜索的数据库。比如,你如果做的试验用的是小鼠的组织,那么你可以只在小鼠的数据库中搜索,这样就可以减低出现这种情况的可能性。►第二个解决的办法是要求必须有多个多肽和数据库相匹配,才做出最后的蛋白质鉴定。多匹配DFPIANGER1019.09EPISVSSQQMLK1347.56VLDALDSIK974.13CarbonicanhydraseIISHHWGYGKHBGPZHWHKDFPIANGERQSPVNIDTKAVVQDPALKPLALVYGEATSRRMVNNGHSFNVEYDDSQDKAVLKDGPLTGTYRLVQFHFHWGSSBBQGSEHTVDRKKYAAELHLVHWNTKYGDFGTAAQQPDGLAVVGVFLKVGDANPALQKVLDALDSIKTKGKSTDFPNFDPGSLLPNVLDYWTYPGSLTTPPLLESVTWIVLKEPISVSSQQMLKFRTLNFNAEGEPELLMLANWRPAQPLKNRQVRGFPK多匹配可以大大降低随机匹配的概率,从而增加结果的可信度长蛋白和短蛋白►第二个问题:长蛋白可能会更容易的被匹配。►因为长蛋白里的多肽数目较多,以概率来算,匹配上的几率也会比较大。►质量纹算法必须考虑这个问题,给短蛋白一定的补偿。多个蛋白的情况►第三个问题就是在一张质谱图中可能有多个蛋白存在。►通常,MALDI-TOF是与双向电泳连接使用。双向电泳