代谢组学方法及其研究进展2005.11.23.代谢组学的历史代谢组学的研究可以追溯至上世纪80年代。1985年,英国帝国理工大学教授Nicholson的研究小组利用核磁共振(NMR)技术分析大鼠的尿液,并于1999年,提出了代谢组学的概念。Nicholson教授也由于其在代谢组学发展中的开拓性的贡献,而被誉为“国际代谢组学之父”。什么是代谢组学?“代谢组学”=“代谢”+“组学”代谢组学基因组学genomics转录组学transcriptomics蛋白质组学proteomicsDNAmRNAPr研究一个细胞、组织或器官中,所有……的一门科学!代谢组指的是“一个细胞、组织或器官中,所有代谢组分的集合,尤其指小分子物质”,而代谢组学则是一门“在新陈代谢的动态进程中,系统研究代谢产物的变化规律,揭示机体生命活动代谢本质”的科学。它所关注的是相对分子质量为1,000以下的小分子。代谢组学的定义基因组学genomics转录组学transcriptomics蛋白质组学proteomics代谢组学基因与蛋白质的表达紧密相连,代谢物则更多地反映了细胞所处的环境。正如BillyDavid所言:“基因组学和蛋白质组学告诉你可能发生什么,而代谢组学则告诉你已经发生了什么”。对比几个基本概念研究对象研究方法核酸(A、T/U、C、G)由20个氨基酸构成代谢产物则以元素组成、原子排列、立体结构和分子特征来区分以测序为主差异显示、减法杂交、DNA芯片技术等同位素亲和标签、2D-MS技术检测代谢产物的方法各不相同代谢组学研究过程包括:前期的样品制备,中期的代谢产物分离、检测与鉴定以及后期的数据分析与模型建立三个部分。代谢组学研究过程代谢产物的分离、检测、鉴定样品制备数据分析与模型建立研究对象单个细胞或细胞类型中所有的小分子成分和波动规律对生物体液和组织进行系统测量和分析,研究完整的生物体中代谢物随时间改变的情况,确定生物标志物样品制备方法根据不同的分析方法采取不同的样品制备方法代谢产物分离、检测与鉴定方法GC,LC,CE-MSNMR数据分析与模型建立方法归一化与滤噪、非监督学习方法、有监督学习方法、数据库及专家系统;模型建立代谢组学的研究方法Metabolomemetabolomics“Metabolite”+”genomics”metabonomics(1)归一化与滤噪在得到分析对象的原始谱图后,首先需要对数据进行预处理(一般包括归一化和滤噪),处理后保留与分类有关的大部分信息,消除多余的干扰因素的影响。广泛应用的滤噪技术是正交信号校正技术(orthogonalsignalcorrection,OSC)。与普通的谱图滤噪技术不同,OSC滤掉与类别判断正交(不相关)的变量信息,只保留与类别判断有关的变量,从而使类别判别分析能集中在这些与类别的判别相关的变量上,提高了判别的准确性。OSC等效于从数据中去除了额外的影响因素,因此该方法经常用于易受环境因素影响的分析,例如在微量药物引发的生化效应中,分析结果经常被研究对象的性别、饮食和其他环境因素所淹没,在这种情形下,应用OSC能收到较好的效果。数据分析方法和模型建立(1)(2)非监督(unsupervised)学习方法这类方法用于从原始谱图信息或预处理后的信息中对样本进行归类,并采用相应的可视化技术直观的表达出来。该方法将得到的分类信息和这些样本的原始信息(如药物的作用位点或疾病的种类等)进行比较,建立代谢产物与这些原始信息的联系,筛选与原始信息相关的标记物,进而考察其中的代谢途径。用于这个目的的方法没有可供学习利用的训练样本,所以称为非监督(无师)学习方法。应用在此领域的方法有:主成分分析(principalcomponentsanalysis,PCA)、非线性映射(nonlinearmapping,NLM)、簇类分析(hierarchicalclusteranalysis,HCA)等。数据分析方法和模型建立(2)(3)有监督(supervised)学习方法这类方法用于建立类别间的数学模型,使各类样品间达到最大的分离,并利用建立的多参数模型对未知的样本进行预测。在这类方法中,由于建立模型时有可供学习利用的训练样本,所以称为有监督(有师)学习。在这种方法中经常需要建立用来确认样品归类(防止过拟合)的确认集(validationset)和用来测试模型性能的测试集(testset)。应用于该领域的主要是基于PCA、偏最小二乘法(partialleastsquares,PLS)、神经网络(neuralnetwork,NN)的改进方法,常用的有SIMCA(softindependentmodelingofclassanalogy)和偏最小二乘法显著性分析(PLS-discriminantanalysis,PLS-DA)。作为非线性的模式识别方法,人工神经元网络(ANN)技术也得到广泛应用。数据分析方法和模型建立(3)(4)数据库及专家系统现实情况下,代谢组学的数据是非常复杂的,特别是对病理生理过程的研究,预将代谢物的表达谱与时间相联系,则需要借助复杂的模型或是专家系统进行分析。为了将基于NMR的代谢组学用于药物的毒性筛选,伦敦大学的皇家科学院实验室和Pfizer等6家制药公司于2001年1月启动了一个为期3年的关于药物毒性研究的研究小组(COMET),拟在药物的发现到开发阶段用代谢组学的方法来评价药物的毒性,以缩短药物开发的时间,减少损失,并试图建立一个用于药物毒性预测的专家系统。该专家系统分为3个独立的级别:正常/异常的判别、对未知样本进行数据库中已知毒性或疾病的识别、病理学的生物标记物的识别。数据分析方法和模型建立(4)代谢组学分析离不开各种代谢途径和生物化学数据库。现在主要的数据库有接连图数据库(ConnectionsMapDB),KEGG,EcoCyc,EcoCycandmetacyc,BRENDA,LIGAND,MetaCyc,UMBBD,WIT2,EMP项目,IRIS,AraCyc,PathDB,生物化学途径(ExPASy),互联网主要代谢途径(mainmetabolicpathwaysonInternet,MMP),Duke博士植物化学和民族植物学数据库,Arizona大学天然产物数据库等,其中IRIS,AraCyc分别为水稻和拟南芥的有关数据库。数据分析方法和模型建立(5)生理条件对代谢谱的影响生物学研究领域农业和食品领域医药领域疾病诊断和发病机理探讨代谢组学的应用(1)生理条件对代谢谱的影响:建立生理条件下对代谢谱的正确认识,是研究各种病理条件或刺激干预的前提。目前运用NMR技术对生理状态的研究已取得了一些进展。代谢组学的应用(1)代谢组学的应用(2)(2)生物学研究领域:作为基因型与表型之间的桥梁,代谢组学将基因产物和基因关联起来,实现基因功能的鉴定。转基因生物和敲除突变体(knockoutmutants),往往没有明显的表型变化。比如拟南芥中就有90%的突变体是沉默型突变体,人们很难通过表现型的变化来确定有关基因的功能。而转基因生物和敲除突变体中某些代谢产物的含量却常常会发生变化。通过代谢产物水平变化的分析,就可以把它们与野生型区分开来。将代谢组学技术与功能基因组学手段相结合,通过代谢产物的变化能成功推断有关基因的功能。Metanomics公司的成立就是一个典型的代表,其思想就是遵循代谢组学的研究方法,在改变植物的基因后,进行植物的代谢分析或记录代谢产物,进而寻找植物代谢过程中的关键基因,如能够让植物耐寒的基因等;Fiehn研究小组的利用GC/MS技术,通过对不同表型阿拉伯荠的433种代谢产物进行代谢组学分析,结合化学计量学方法(PCA、ANN和HCA)对这些植物的表型进行了分类,找到了4种在分类中起着重要作用的代谢物质:苹果酸(malicacid)、柠檬酸、葡萄糖和果糖,结果与线粒体和叶绿体中的基因型结果一致。(3)农业和食品领域:代谢组学技术通过促进植物基因功能组学的研究工作,来加快农作物品质改良的进程。通过比较转基因生物和其野生型在代谢产物方面的差别,来对转基因生物及其食品进行安全性评估。Roesnner等人利用代谢组分析技术对转基因植物进行了研究,他们利用GS/MS分析技术对马铃薯块茎中150种化合物进行了定量和定质分析,确定了过度表达葡萄糖激酶、葡萄糖磷酸酶等不同基因之转基因植株的生物化学表现型。代谢组学的应用(3)(4)医药领域:药物安全性评价细胞中代谢物和组织中代谢物处于生物体液的动态平衡,机体中生物体液成分的变化反映了中毒或代谢损害而引起的细胞功能异常。利用高分辨率的1HNMR波谱可检测血浆、尿液、胆汁等生物基质中的具有特殊意义的微量物质的异常成分,而且可以同时对所有代谢物进行定量分析,且几乎不需要样品的前期准备,对任何成分都有相同的灵敏度。1HNMR谱所检测到的生物体液中的内源性代谢物,完全依赖于动物体内的毒素类型;每一种类型的毒物和药物都会在生物体液中产生特征的内源代谢物浓度和模式变化,这种特征提供了毒性作用的机理和作用位置的信息,使先导化合物筛选更有效,为新药临床前安全性评价提供可靠的技术支持与保障。因此,代谢组学在毒物药物学的研究中发挥了极其重要的作用。代谢组学的应用(4)1989年,Gartland等根据药物造成的靶器官(如肝、肾皮层或髓质毒)损伤及程度分组,利用1HNMR对尿液进行分析,结合主成分分析(PCA),建立相应的毒理学研究模型,帮助判断新药的毒副作用与程度,以及量效与时效关系。Holmes等研究了HgCl2(损伤近端肾小管)和乙基溴(损伤肾髓质)两组肾损伤模型,观察了9天1HNMR谱的演变情况。在肾损伤进展及恢复的过程中,尿中20种代谢物发生的改变,与组织学的改变相一致,并存在规律性的时效关系。进一步相关分析的基础上发现,HgCl2的损伤是单一的直接损伤、具有可逆性;而乙基溴则为双重损伤机制(直接损伤加上影响渗透压而造成肾乳头的间接损伤)、可逆性差。肝毒性研究方面亦有相类似的研究。美国食品与药品管理局(FDA)已经接受代谢组学研究的结果作为新药申报和注册的重要参考指标。代谢组学研究大大缩短了新药安全性研究的周期,它能够快速、有效地分析多条代谢通路,帮助定位靶组织及判定毒副作用程度,寻找相应的生物学标志。主要采用的仍是NMR技术,包括对各种体液、组织或组织提取液进行分析;在计算机基础上,发展起来的数据分析模型更是发挥了巨大的推动作用。(5)疾病诊断和发病机理探讨:诊断先天性疾病以往主要依赖酶学检测,但耗时、耗力,检出率低。如多种羧酶缺陷病,常规酶学检查不仅阳性率低,而且不能辨别治疗后微量酶变化。GC/MS分辨率高,NMR检测不需要样品准备、提纯等预处理,用于疾病筛查方便、快捷。如利用NMR技术分析患者尿液中尿黑酸的量,可以用来筛查尿黑酸病这种常染色体隐性遗传性代谢性疾病;检查羊水中3-羟基异戊酸和甲基枸橼酸可适用于产前筛查。肾脏疾病该研究方面也有零星报道,包括慢性肾功能衰竭,肾小球肾炎,多囊肾,肾移植预后判定等。研究主要集中于NMR技术,比较尿液及血液中的代谢组成与变化情况,界定疾病状态和性质。肿瘤,特别是无症状的早期肿瘤,尤其需要借助于敏感性高的综合检测手段。早在1992年,Howells等利用核磁共振(1HNMR)技术联合主成分分析(PCA)对脑肿瘤组织进行检测,其中脑膜瘤诊断的准确率达85%,神经胶质瘤则为2%。Moka等对肾组织活检的标本进行NMR检测,发现即使是肿瘤未累及的组织部分,肾细胞癌的检出率也非常高,但该法不能区分原发灶和转移灶。代谢组学的应用(5)冠心病(CHD)的发病率逐年上升,虽然目前通用的X线血管造影法确诊率高,但创伤、花费高、副作用多。Brindle等将X线血管造影明确诊断的患者进行分组,同时用NMR技术分析血清样本,建立了合适的模型。借助此模型,对于可疑CHD患者诊断的灵敏度高达92%,特异性为93%。该模型还可能判别CHD轻、中、重的严重程度和累及血管的数目,甚至可以细分出轻2中、