李春雨,张艺,孟宪丽*,邱一行成都中医药大学药学院,成都(611730)E-mail:wd2526@163.com摘要:代谢组学自20世纪90年代中期提出以来,发展十分迅速,在疾病诊断、药物作用机制研究、药物毒理学研究、植物代谢组学、营养科学、微生物代谢组学等诸多领域里都已取得出色的成果。由于其从代谢网络终端表象的整体角度反映生物体的功能水平,恰与中医的整体思想相吻合。它的研究思路和方法,对阐明中医的证候本质及药物的作用机制具有积极的意义,本文综述了近年来代谢组学在中医药现代化研究中的应用现状,并对该技术在中医药现代化研究中的应用和发展进行了展望。关键词:代谢组学;技术方法;中医药现代化1.引言代谢组学(Metabonomics)是众多组学中的一种,是20世纪90年代中期发展起来的一门新兴学科,是一种研究生物体系中代谢物组的技术和方法[1],是随着生命科学的发展而发展起来的,与其他组学不同的,代谢组学是通过考察生物体系(细胞、组织或生物体)受刺激或扰动后(如将某个特定的基因变异或环境变化后),其代谢产物的变化或随时间的变化,来研究生物体系的一门新学科[2]。随着“人类基因组计划”等重大科学项目的实施,中医药现代化的研究也进入了系统生物学的时代。代谢组学是系统生物学的关键技术和研究方法,主要是系统研究在新陈代谢的动态过程中代谢产物的变化规律,揭示机体生命活动代谢本质。它的出现为中医药复杂理论体系研究、中医药现代化提供了强有力的技术手段。代谢组学技术用于中医药现代化研究的最大优势,是能在继承和发扬中医药优势和特色的基础上,借鉴国际通行的医药标准规范,研究生命体的规律,认识疾病的本质,阐明中药的作用机理和药效物质基础,实现对中药的整体评价,增加中药的科技含量,确保中药能安全而有效地使用,从而有力地推动中医药的现代化、产业化、国际化进程。2.代谢组学的技术和方法代谢组学研究的基本步骤包括:样品采集,样品预处理,数据采集、数据分析及解析。首先要获得大量、稳定的生物样品(例如尿液,血清,血浆,组织、靶器官,细胞等),样本进行一定的预处理后进行仪器分析,获得代谢组学数据,再对所获得的原始数据进行处理和解析。代谢组学研究力求分析生物体系中所有的代谢产物,所以整个过程中都强调尽可能的保留和反映总的代谢产物的信息。精确、灵敏、高通量的分析方法为代谢物分析提供检测手段,是代谢组学研究的基础,各种模式识别等计算技术从大量的分析信号中发现有用的特征模式,是代谢组学研究的重要工具。2.1代谢组学的研究对象代谢组学研究的对象是代谢组。所谓代谢组(Metabolome)是基因组的下游产物也是最终产物,是一些参与生物体系新陈代谢、维持生物体正常功能和生长发育的小分子化合物的集合,主要是相对分子质量小于1000的内源性小分子[3]。代谢组学测定的对象为生物标本,1课题来源:国家中医药管理局中医药科学技术研究专项(NO.06-07JP38)中国科技论文在线是生物体液(如血液、尿液、汗液等)、细胞提取物、细胞培养液和组织等。研究内容包括:测定代谢物变化——研究系统生化谱和功能调节;应用代谢物组信息——进行生物信息、化学计量学、统计学分析[4],了解生物体液中所包含的大量而复杂的内源性代谢物信息。2.2代谢组学样品的采集与制备样品的采集与制备是代谢组学研究的初始步骤也是重要的步骤之一,代谢组学研究要求严格的实验设计。首先需要采集足够数量的代表性样本,减少生物样本的个体差异对分析结果的影响。实验设计中对样本收集的时间、部位、种类等应给予充分的考虑。在研究人类样本时,还需要考虑饮食、性别、年龄、昼夜和地域等诸多因素的影响。此外,在分析过程中还要有严格的质量控制,需要考察如样本的重复性、分析精度、空白对照等。根据研究对象、目的和采用的分析方法的不同,所需的样品提取和预处理方法也不同。采用NMR技术平台,只需对样品做较少的预处理即可进行分析。对体液的分析,大多数情况下,只要用缓冲液或水控制PH和减少样品黏度即可;采用MS进行“全”成分分析时,样品的处理方法相对简单,依据“相似相容原则”,脱蛋白后代谢产物通常用水或甲醇等有机溶剂提取,把非极性相和极性相分开,以便进行分析;采用GC或GC-MS时,常需对样品进行衍生化处理,以增加样品的挥发性。目前尚无一种能适合多种分析平台的代谢组学样品处理方法。应根据不同的分析仪器和研究目的采取相适的样品处理方法,并对处理方法进行优化。2.3代谢组学的数据采集完成样本的采集和预处理后,样品中的代谢产物需要通过合适的方法进行测定。由于代谢组学分析对象种类繁多,性质差异很大,浓度范围分布较广,在当前技术条件下仅凭借一种分析技术很难建立全局的无偏的代谢组学分析方法,最好采用联用技术和多个方法的综合分析。代谢组学中的监测技术主要有核磁共振(NMR)、气相色谱(GC)、高效液相色谱(HPLC)、气质联用(GC-MS)、液质联用(LC-MS)等技术。NMR在代谢组学研究中最为常用[5-10],特别是1H-NMR以其对含氢代谢产物的普适性而成为最主要的分析工具,其优势在于能够实现对样品的无破坏性、无偏向性的检测,具有良好的客观性和重现性,样品处理简单,具有较高的通量和较低的单位样品检测成本。通过氢原子谱峰直观显示样品中组分含量,并且可与外界特定干预相结合,研究动态系统中机代谢产物的变化规律。NMR虽然可以对复杂生物样品如尿液、血液等进行非破坏性分析,与质谱分析方法相比,它的缺点是灵敏度相对较低,动态范围有限,分辨率不高,有可能形成信号重叠,导致高丰度的分析物掩盖低丰度的分析物,很难同时测定生物体系中共存的浓度相差较大的代谢产物。研究者通过发展超低温探针技术,提高了其分辨率和灵敏度,其检测灵敏度现已达纳克级水平[11-12]。MS相对于NMR灵敏度低、检测动态范围窄、分辨率不高等缺点,MS具有较高的灵敏度和专属性,可实现对多个化合物的同时快速分析与鉴定。随着质谱及其联用技术的发展,越来越多的研究者将色谱——质谱联用技术应用到代谢组学的研究[13-21]。GC-MS分析方法的优势包括能够提供较高的分辨率和检测灵敏度,并且有可供参考和比较的标准谱图库进行代谢产物的定性分析。但GC-MS的样品前处理复杂,对于挥发性较低的代谢产物需要衍生化处理,预处理过程繁琐。而无法对难挥发性物质和热不稳定性物质进行分析,这些因素限制了其在生命科学领域的应用。GC-MS常用于植物和微生物代谢指中国科技论文在线纹分析[22]。近年来采用新的衍生化方法对血清/血浆样品进行研究,拓展了GC的应用范围,而成为代谢组学研究的常用工具之一。随着生物质谱的开发,采用气相色谱和飞行时间质谱(GC-TOF/MS)联用,应用封闭环运算法则来优化,提高了系统的稳定性,并且实现快速检测的目的[23]。LC-MS避免了GC-MS中复杂的样品前处理,由于其较高的灵敏度和较宽的动态范围,已被越来越多地用于代谢组的研究[24-26]。非常适用于生物样本中复杂代谢产物的检测和潜在标志物的鉴定,其优点是进样前不需对样品进行衍生化处理,适合那些不稳定、不易衍生化、不易挥发的分子质量较大的化合物,灵敏度和选择性较好。其缺点是缺少现成的商业化数据库供比对,代谢产物的鉴定需要标准品进行验证。超高液相色谱技术(UPLC)对比传统的高效液相色谱(HPLC)有更好的分离效率、峰容量以及灵敏度,提供更适合与质谱联用的借口,这无疑有助于更多代谢产物的检出,提高方法通量、灵敏度,改善与质谱联用的定性定量结果。UPLC与MS联用为代谢组学研究提供了更加高效、灵敏的方法平台,更适用于没有目标的代谢产物分析[27-29]。2.4代谢组学的数据处理代谢组学得到的是大量、多维的信息。为了充分挖掘所获得数据中的潜在信息,对数据的分析需要应用一系列的化学计量学方法。目前用于代谢组学数据分析处理的化学计量学方法很多[30、31]大多数是从检测到的代谢产物信息中进行两类(如药物干预前后的响应)或多类(不同药物干预代谢产物)的判别分类,以及生物标志物的发现。数据分析过程中应用的主要手段为模式识别技术,包括非监督(unsupervised)学习方法和有监督学习方法(supervised)。非监督学习方法用于从原始谱图信息或预处理后的信息中对样本进行归类,并采用相应的可视化技术直观的表达出来,不需要有关样品分类的任何背景信息。该方法将得到的分类信息和这些样本的原始信息(如药物的作用方式或疾病的种类等)进行比较,建立代谢产物与这些原始信息的联系,筛选与原始信息相关的标志物,进而考察其中的代谢途径。用于这个目的的方法没有可供学习利用的训练样本,所以称为非监督(unsupervised)学习方法。主要应用方法有主成分分析(PrincipalComponentsAnalysis,PCA)[32、33]、聚类分析(ClusterAnalysis,CA)、非线性映射等。有监督学习方法用于建立类别间的数学模型,使各类样品间达到最大的分离,并利用建立的多参数模型对未知的样本进行预测。在这类方法中,由于建立模型时有可供学习利用的训练样本,所以称为有监督(supervised)学习方法。应用于该领域的主要方法有偏最小二乘法-判别分析(PartialLeastSquares-DiscriminationAnalysis,PLS-DA)、辨别式功能分析(DiscriminantFunctionAnalysis,DFA),非线性回归(nonlinearregression),前馈神经网络(feedforwardneuralnetworks)等。PCA和PLS-DA是代谢组学研究中最常用的模式识别方法。这两种方法通常以得分图(scoreplot)获得对样品分类的信息,载荷图(loadingplot)获得对分类有贡献变量及其贡献大小,从而用于发现可作为生物标志物的变量。在运用各种模式识别方法前,还需要对数据进行预处理,减少因各种因素引起的基线波动、峰位漂移、峰宽变化等对计算结果可能造成的干扰。将原始谱图数据转变为适合于多变量分析的数据形式,使相同的代谢产物在生成的数据矩阵中由同一变量表示,所有的样品具有相同的变量数。最后用于模式识别的数据为二维矩阵数据形式,行代表样品数目,列代表中国科技论文在线相应的单个测定指标(通常为代谢物的信号强度等)。Keun等[34]采用VAST法预处理数据,提高了PLS-DA对代谢组数据的分类性能。Stoyanova等[35]研究了一种对NMR数据进行自动峰位矫正的算法,可有效用于大量的代谢组学数据预处理。代谢组学数据解析离不开各种代谢途径和生物化学数据库(表1)。现在主要的数据库有人类代谢组数据库、KEGG、连接图数据库(ConnectionMap,DB)、METLIN、PathDB、EMP项目、UMBBD、EcoCyc、Metacyc、LIGAND、生物化学途径(ExPASy)、互联网主要代谢途径(MainMetabolicPathwayonInternet,MMP)、Duke博士植物化学和民族植物学数据库、Arizona大学天然产物数据库等。表1常用与代谢产物相关数据库编号数据库名称网址1人类代谢组数据库://://://metlin.scripps.edu/5PathDB://://umbbd.ahc.umn.edu/8EcoCyc