本草基因组学doi:10.4268/cjcmm20162101本草基因组学(herbgenomics)是利用组学技术研究中药基原物种的遗传信息及其调控网络,阐明中药防治人类疾病分子机制的学科,从基因组水平研究中药及其对人体作用的前沿科学。涉及中草药结构基因组、中草药转录组、中草药功能基因组、中草药蛋白质组、中药代谢组、中草药表观基因组、中草药宏基因组、药用模式生物、基因组辅助分子育种、DNA鉴定、中药合成生物学、中药基因组学、中草药生物信息学及数据库等理论与实验技术。传统药物应用历史悠久,应用方式多样,相关研究主要集中在形态识别、化学物质基础揭示、药效作用分析、资源调查、人工栽培等方面,但长期以来对传统药物基因资源的认识和了解十分薄弱,人才极其匮乏。由于中药原植物基因组信息缺乏,中医药学和现代生命科学之间缺乏沟通的桥梁,新兴的前沿生命科学技术很难应用于传统中医药研究,如对于中药道地性形成和维持的遗传机制及道地性和药性的相互关系缺乏深入了解,已严重影响了我国道地药材的资源保护和新品种选育,中药道地性形成和维持的遗传基础研究急需加强;中药药性的生物学本质研究亟待加强,多年来中药药性研究主要集中在化学和药理方向,但对于中药药性的生物学本质研究还非常薄弱,已从根本上制约了对中药药性的深入研究;中药基因资源是一种珍贵的国家战略资源,国际竞争严峻,韩国、美国、日本等国家已启动许多中药基原物种全基因组研究,对我国传统中药研究领域造成极大挑战。另外,由于大多数药用植物有效成分含量低,分离提取需要消耗大量原料,对天然资源造成极大破坏,也使得多数提取类药物的生产成本很高。本草基因组学作为新兴学科,广义而言是从基因组水平研究中药及其对人体作用。一方面从基因组水平研究基因序列的多态性与药物效应多样性之间的关系,研究基因及其突变体对不同个体药物作用效应差异的影响,从蛋白质组学角度研究中药作用靶点,特别是中药复方的多靶点效应,为中药配伍提供科学依据,指导药物开发及合理用药,为实现个体化精准医疗提供重要信息和技术保障;另一方面建立含有重要活性成分的中药原植物基因组研究体系,系统发掘中药活性成分合成及优良农艺性状相关基因,解析代谢物的合成途径、代谢物网络及调控机理,为中药道地品种改良和基因资源保护奠定基础,为中药药性研究提供理论基础,对传统药物学理论研究和应用具有重要意义,从基因组层面阐释中药道地性的分子基础,推动中药创新药物研发,为次生代谢产物的生物合成和代谢工程提供技术支撑,创新天然药物研发方式,为优质高产药用植物品种选育奠定坚实基础,推动中药农业的科学发展,对揭示天然药物形成的生物学本质具有重要价值,对培养多学科人才充实到传统药物研究具有引领作用。狭义而言本草基因组学集中研究中草药本身的遗传信息,不涉及对人体的作用。也就是说狭义本草基因组学主要研究中草药结构基因组、转录组、功能基因组、蛋白质组、代谢组、表观基因组、宏基因组,以揭示中药道地性和中药药性的遗传本质。本草基因组学正促进前沿生命科学技术应用到中药领域,推动中药研究迅速走到生命科学的最前沿。1本草基因组学的产生和发展1.1本草基因组学的产生从“神农尝百草,一日而遇七十毒”的传说到现存最早的中药学著作《神农本草经》(又称《本草经》),从世界上现存最早的国家药典《新修本草》(即《唐本草》)到本草学巨著《本草纲目》,两千多年来,中药学的发展反映了我国劳动人民在寻找天然药物、利用天然药物方面积累了丰富经验。中药学是中国医药学的伟大宝库,对世界医药学发展作出了巨大贡献。随着现代科学技术的发展,特别是人类基因组计划(HumanGenomeProject)的提出和完成,对人类疾病的认识和治疗开启了全新的篇章,在此背景下,中药学研究逐渐深入到基因组水平从而导致本草基因组学产生和兴起。1977年Sanger完成首个物种全基因组测序,噬菌体φX174基因组,大小为5.836kb[1];人类基因组计划由美国科学家于1985年率先提出,1990年正式启动,2000年完成,是一项规模宏大,跨国跨学科的科学探索工程,其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的[2-3]。2000年,破译拟南芥Arabidopsisthaliana全基因组,大小为125Mb,作为第一个植物全基因组测序在植物科学史上具有里程碑意义[4]。我国药用植物有11146种,约占中药材资源总数的87%[5],是所有经济植物中最多的一类。同时,药用植物也是?S多化学药物的重要原料,目前1/3以上的临床用药来源于植物提取物或其衍生物,其中最著名的青蒿素来源植物是黄花蒿。2009年,陈士林团队提出本草基因组计划,即针对具有重大经济价值和典型次生代谢途径的药用植物进行的全基因组测序和后基因组学研究,全基因组测序、组装和分析策略:测序物种的筛选原则,待测物种基因组预分析,测序平台的选择,遗传图谱和物理图谱的绘制,全基因组的组装及生物信息学分析;模式药用植物突变体库的建立和基因功能研究;药用植物有效成分的合成及其调控研究;药用植物抗病抗逆等优良性状的遗传机制研究及优良品种选育。在此基础上,详细介绍了本草基因组方法学研究:全面介绍物种基因组大小、染色体数目测定方法、第二代高通量测序方法、全基因组组装和基因组注释方法、基因组比较等生物信息学分析手段、简要阐述重测序在药用植物全基因组研究中的应用方法。由此,本草基因组学逐渐形成和完善,包括中草药结构基因组、转录组、功能基因组、蛋白质组学、代谢组、表观基因组、宏基因组、基因组辅助分子育种、中药合成生物学、中药基因组学、中草药生物信息学及数据库等内容。基于分子生物学和基因组学的药用植物鉴别是当前研究的活跃领域,用于鉴别的分子生物学和基因组学技术:AFLP、RFLP、RAPD、DNA微阵列技术(microarray)、DNA条形码(barcoding)等,基于基因组鉴别的分子基础是植物分子系统发育关系反映物种进化关系。在这些技术当中,药用植物DNA条形码鉴定策略及关键技术是最受关注的方向,中药材DNA条形码分子鉴定指导原则已列入《中国药典》2010年版增补本Ⅲ和《中国药典》2015年版。1.2本草基因组学的发展2015年国际期刊《科学》增刊详述“本草基因组解读传统药物的生物学机制”,提出本草基因组学为药用模式生物、道地药材研究、基因组辅助育种、中药合成生物学、DNA鉴定、基因数据库构建等提供理论基础和技术支撑(图2)。目前,药用植物基因组学与生物信息学已经进入快速发展阶段,必将对传统药物学产生巨大影响。国内外已经开展青蒿[7]、丹参[8-15]、西洋参[16]、甘草[17]等多种药用植物的大规模转录组研究。基因组序列包含生物的起源、进化、发育、生理以及与遗传性状有关的一切信息,是从分子水平上全面解析各种生命现象的前提和基础。第二代高通量测序技术的飞速发展及第三代单分子测序技术的兴起使测序成本大大降低,测序时间大大缩短,为本草基因组计划的实施奠定了坚实的技术基础。目前,赤芝[6]、紫芝[18]、丹参[19]及铁皮石斛[20-21]等重要药用植物的基因组已完成测序工作并发表,人参、苦荞、穿心莲、紫苏等中草药基因组图谱也完成绘制。例如为了解析丹参的遗传背景,陈士林团队联合国内外著名高校和研究机构,通过联合测序技术完成了丹参基因组图谱的组装,丹参基因组的完成代表着首个鼠尾草属物种基因组图谱的成功绘制。进化分析显示丹参与芝麻亲缘关系更近,估计其分化时间约6700万年前。丹参基因组的发表推动首个药用模式植物研究体系的确立。本草基因组学将开辟中药研究和应用的全新领域,把握历史性机遇,将极大提高我国开发中药资源的能力,增强我国中药基础研究实力、提高我国中药研究的自主创新能力,对于加速中药现代化进程具有重大的战略性科学意义,促进中药研究和产业的快速发展[22]。本草基因组学将使中草药生物学研究进入一个崭新的时代――本草基因组时代。本草基因组学的学科外延与本草学、中药学、基因组学、生物信息学、分子生物学、生物化学、生药学、中药资源学、中药鉴定学、中药栽培学、中药药理学、中药化学等密切相关(图4)。本草学和中药学为本草基因组学奠定了深厚的历史基础和人文基础,为本草基因组学研究对象的确定提供丰富候选材料,基因组学和生物信息学为本草基因组学提供前沿理论和技术支撑,分子生物学、生物化学、中药化学则为本草基因组学提供基础理论和基本实验技术支持,生药学、中药资源学、中药鉴定学、中药栽培学与本草基因组学互相支撑发展,各学科的侧重点不同,中药药理学、中药化学为本草基因组学的应用提供技术支持。与以上各学科相呼应,本草基因组学促进本草学和中药学从经典走向现代、从传统走向前沿,为中医药更好服务大众健康提供强大知识和技术支撑,扩大了基因组学和生物信息学的研究对象和应用领域,为分子生物学、生物化学、中药化学走向实践应用提供了生动案例,推动生药学、中药资源学、中药鉴定学、中药栽培学从基因组和分子水平开展研究,为中药药理学的深入研究提供理论和技术支持。2本草基因组学研究?热?本草基因组学借助基因组学研究最新成果,开展中草药结构基因组、中草药功能基因组、中草药转录组和蛋白质组、中草药表观基因组、中草药宏基因组、中药合成生物学、中药代谢组、中药基因组学、中草药生物信息学及数据库等理论研究,同时对基因组研究相关实验技术在本草学中的应用与开发进行评价,推动本草生物学本质的揭示,促进遗传资源、化学质量、药物疗效相互关系的认识,以下详细阐述本草基因组学的研究内容。2.1中草药结构基因组研究我国药用资源种类繁多,因此药用物种全基因组计划测序物种的选择应该综合考虑物种的经济价值和科学意义,并按照基因组从小到大、从简单到复杂的顺序进行测序研究。在测序平台的选择上应以第二代及第三代高通量测序平台为主,以第一代测序技术为辅。近年来,紫芝、赤芝、茯苓、丹参、人参、三七等10余种药用植物被筛选作为本草基因组计划的第一批测序物种,其中赤芝结构基因组发表被《今日美国》(USAToday)以“揭秘中国‘仙草’基因组”为题报道(图5),丹参基因组小(约600Mb)、生长周期短、组织培养和遗传转化体系成熟等原因,被认为是研究中药活性成分生物合成理想的模式植物[23]。丹参全基因组测序完成已推动丹参作为第一个药用模式植物研究体系形成。由于多数药用植物都缺乏系统的分子遗传学研究,因此在开展全基因组计划之前进行基因组预分析非常必要。基因组预分析的主要内容包括:①利用条形码等技术对满足筛选原则的待测物种进行鉴定[24-25];②通过观察有丝分裂中期染色体确定待测物种的染色体倍性和条数;③采用流式细胞术[26]或脉冲场电泳技术估测物种的基因组大小,为测序平台的选择提供参考;④基因组Survey测序,在大规模全基因组深度测序之前,首先对所选药用植物进行低覆盖度的Survey测序,用来评价其基因组大小、复杂度、重复序列、GC含量等信息。遗传图谱和物理图谱在植物复杂的大基因组组装中具有重要作用。借助于遗传图谱或物理图谱中的分子标记,可将测序拼接产生的scaffolds按顺序定位到染色?w上。但遗传图谱的构建需要遗传关系明确的亲本和子代株系,因此其在大多数药用植物中的应用受到限制。物理图谱描绘DNA上可以识别的标记位置和相互之间的距离(碱基数目)。最初的物理图谱绘制多是基于BAC文库,通过限制性酶切指纹图谱、荧光原位杂交等技术将BAC克隆按其在染色体上的顺序排列,不间断地覆盖到染色体上的一段区域[27]。如今,光学图谱OpGen[28]和单分子光学图谱BioNano等[29]依赖于大分子DNA酶切标记的方法常用于物理图谱的绘制。随着第二代测序技术的快速发展,用于短序列拼接的生物信息学软件大量涌现,常用软件包括Velvet[30],Euler[31],SOAPdenovo2[32],CAP3[33]等。基因组草图组装完成后,可利用生物信息学方法对基因组进行分析和注释,为后续功能基因组研究提供丰