ChineseJournalofNatureVol.38No.4HISTORYOFNATURALSCIENCE278doi:10.3969/j.issn.0253-9608.2016.04.008CRISPR-Cas9技术发展史:25年的科学历程郭晓强†深圳市第二人民医院,广东深圳518035摘要CRISPR-Cas是一种重要的原核生物获得性免疫系统。CRISPR序列可转录并加工为非编码RNA——crRNA,而Cas利用其DNA核酸外切酶完成RNA介导的靶DNA剪切,从而抵御噬菌体和质粒等DNA的入侵。在这一系统基础上改进并发明目前生命科学领域广泛应用的CRISPR-Cas9基因编辑技术。通过对CRISPR序列发现、结构命名、功能预测、实验证实、机制研究和系统改进等的描述,以期能对CRISPR-Cas9技术的诞生过程有一个全面的了解。关键词获得性免疫系统;原核生物;基因编辑;CRISPR-Cas91953年,DNA双螺旋模型的提出确立了DNA在分子生物学乃至整个生命科学的“中心”地位。由于DNA是遗传信息载体,因此对DNA进行精确操作(DNA编辑)进而调控生物学性状的研究,其重要性不言而喻。三位在DNA编辑技术——基因敲除方面做出奠定性贡献的科学家分享了2007年诺贝尔生理学或医学奖。然而,传统基因敲除技术尽管在阐明某些基因的功能方面发挥了重要作用,但操作过程较为繁琐,周期长,费时费力,亟需进一步完善。随后出现一系列DNA编辑技术,如ZFN(zincfingernuclease)和TALEN(transcriptionactivator-like(TAL)effectornuclease)等,尤其是2012年出现的CRISPR-Cas9技术更是以操作简便、快速、高效而迅速成为实验室的必备技术之一,对推动生命科学的发展具有重要意义。此外,CRISPR-Cas9技术的发明也是一个具有传奇色彩的历程。1CRISPR序列的发现这项技术发明在一定程度上可追溯到20世纪50年代开始的微生物遗传学、生物化学和基因组学,三位大师级科学家莱德伯格(JoshuaLederberg)、科恩伯格(ArthurKornberg)和桑格(FrederickSanger)为此做出了奠基性贡献。莱德伯格奠定细菌遗传学基础,从而使简单的细菌成为分子生物学模式生物[1];科恩伯格则奠定细菌分子生物学酶学基础,开创酶学研究科学范式[2];桑格则于1977年发明基因测序方法[3],从而使基因测序成为常规研究内容。CRISPR-Cas系统的发现则开始于细菌测序。1987年,日本微生物学家石野良纯(YoshizumiIshino)在但中田(AtsuoNakata)实验室对大肠杆菌的碱性磷酸酶同工酶(alkalinephosphataseisozyme,iap)进行测序,为更好地理解基因表达调节的机制,在对编码区进行检测的同时顺便对基因上游和下游序列完成了测序。在常规报道iap基因编码序列的同时,他们意外地发现终止密码子后的非编码区存在一些异常重复序列[4]。之所以异常源于两个原因:一方面原核生物如细菌的DNA利用率较高,因此它的重复序列较少(真核生物存在大量重复序列);另一方面传统的重复序列常为串联重复,而这次发现却†通信作者,E-mail:xiaoqiangguo123@163.com第38卷第4期■自然科学史279是“重复-居间序列(spacer)-重复”这一排列特征(图1)。论文最后一句话是:“到目前为止,在其他原核生物未发现同源序列,并且这些序列的生物学意义尚不清晰。”[4]对这段重复序列的讨论说明他们也部分意识到这一现象,但就当时有限的知识而言,不可能对其有进一步理解。然而这一发现存在一个缺陷,就是尚不知这种现象是否具有普适性。如果仅仅是大肠杆菌iap基因特有,则重要性就大打折扣,因此科学界首先需要解决的是这种“诡异”的序列是否普遍存在。然而,后续研究进入一个缓慢发展期,很少有人对此现象进行研究(石野良纯等也转向翻译机制的研究)。图1CRISPR序列的发现20世纪80年代末,西班牙阿利坎特大学(UniversityofAlicante)的博士生莫伊察(FranciscoMojica)在一种嗜盐古菌(Haloferaxmediterranei)中也发现一类“重复-居间序列-重复”特征序列[5]。莫伊察对这种现象非常感兴趣,因此进一步在其他微生物中寻找类似结构,基因组测序技术的突飞猛进为这项研究提供了极大便利。莫伊察通过对多种已完成基因组测序的原核生物进行序列比对分析发现这种现象非常普遍,到2000年,已在20多种不同微生物中发现这种特异序列。为便于进一步研究,将其命名为短规律间隔重复(shortregularlyspacedrepeat,SRSR)[6]。2002年,荷兰乌得勒支大学(UtrechtUniversity)的詹森(RuudJansen)进一步发现多个微生物中存在这种特殊结构,并且不同物种的重复序列碱基数存在巨大差异,从21到37不等,如鼠伤寒沙门氏菌(Salmonellatyphimurium)为21,而化脓性链球菌(Streptococcuspyogenes)为37。此外,他还发现这种序列只在原核生物存在,而病毒和真核生物均缺乏。为更好地规范相关研究,詹森在和莫伊察沟通后,将这种特殊结构重新定义为成簇规律性间隔短回文重复(clusteredregularlyinterspacedshortpalindromicrepeat,CRISPR)[7]。詹森还发现CRISPR序列附近还存在多个编码序列,推测它们参与了CRISPR的生理功能,因此将其命名为CRISPR相关基因(CRISPR-associatedgene,Cas)(这种推测主要基于原核生物基因组多以操纵子形式存在,即功能相关基因串联分布在一起)。至此,在原核生物(包括细菌和古菌)中发现一个由特殊DNA序列(CRISPR)和多个编码基因(Cas)构成的独特系统,当然这个系统的作用尚一无所知。随后研究人员提出多种假说来解释这一系统,但大多基于一种想当然的推测,并未有太多的逻辑推理和数据支持。2CRISPR-Cas系统的生物学作用2005年,CRISPR研究出现一个根本转折。来自西班牙和法国的三个研究小组几乎同时报道了一个重大发现:通过对CRISPR居间序列的系统分析,意外发现它们并非原核生物自身序列,而是来自病毒或质粒[8-10]。这一发现提出了一个重要问题:那就是原核生物获取这些序列的目的何在?ChineseJournalofNatureVol.38No.4HISTORYOFNATURALSCIENCE280美国国立生物技术信息中心(NationalCenterforBiotechnologyInformation,NCBI)进化生物学家库宁(EugeneKoonin)很早就对CRISPR-Cas系统拥有浓厚兴趣,但苦于无法理解它的生物学意义。当获悉CRISPR的居间序列来自病毒DNA后,库宁立刻意识到细菌可利用CRISPR作为一种防御病毒侵染的重要武器。在自然界,细菌时刻面临噬菌体(细菌病毒)等的攻击,但它们绝非被动受害者,而是在进化过程中形成多种防御措施,著名的如修饰-限制系统(对自身DNA碱基进行甲基化修饰,再利用限制性内切酶对入侵DNA进行剪切从而实现防御目的)。早在2002年就发现原核生物中不编码蛋白质的CRISPR序列也可转录产生RNA[5],而1998年在真核生物中发现RNA干扰现象,即非编码的小RNA可影响mRNA稳定性或翻译效率。基于这些事实,库宁提出解释CRISPR-Cas作为获得性免疫系统的作用机制:细菌通过特定方式获取噬菌体DNA片段并将其整合到自身CRISPR重复序列之间形成居间序列,从而对外源入侵病毒产生“记忆”;这些序列可被转录出非编码RNA;当噬菌体再次感染时,这些RNA可依靠居间序列信息识别并破坏入侵者(图2)[11]。图2CRISPR干扰假说的提出在库宁提出这一假说时,科学界对CRISPR和Cas蛋白的作用还知之甚少,但这一思想激发了法国微生物学家巴兰古(RodolpheBarrangou)的动力,他决定验证这一假说的可靠性。巴兰古之所以会验证这一假说,动力来源不仅仅在于假说的迷人魅力,更重要是出于工作需要。巴兰古在著名的酸奶公司丹尼斯克(Danisco)工作,时常面临的一大问题是产酸奶的嗜热链球菌(Streptococcusthermophilus)有时会爆发噬菌体感染而导致死亡,最终影响酸奶生产。库宁假说意味着可利用CRISPR-Cas系统来实现增强细菌抵抗噬菌体的目的。巴兰古在霍瓦特(PhilippeHorvath)等协助下首先利用两株噬菌体(P1和P2)侵染链球菌,结果杀死大部分细菌,但仍有部分“幸运”细菌保留下来,且当它们被进一步培养时获得噬菌体抗性。对这些抗性细菌的基因组分析表明,其CRISPR居间序列中出现噬菌体序列,并且与P1序列一致则对P1产生抗性,若与P2序列一致则对P2产生抗性,而如果为两株噬菌体公用序列,则对两株噬菌体均产生抗性(图3)。当将抗性细菌去除噬菌体序列则导致抗性消失,相反直接将噬菌体序列整合到未感染过噬菌体的细菌CRISPR中,细菌对首次噬菌体感染产生抗性[12]。这是首次在实验上证实CRISPR-Cas是一种细菌获得性免疫系统。3CRISPR-Cas系统的作用机制巴兰古等的发现既是CRISPR-Cas系统研究的一个里程碑,也是一个转折点和分水岭。许多团队也开始意识到这一系统的重要性,从而促进这一领域的快速进展。2008年,荷兰瓦赫宁恩大学的范德欧斯特(JohnvanderOost)等通过研究大肠杆菌的第38卷第4期■自然科学史281CRISPR-Cas系统(Ⅰ型)发现CRISPR序列可转录并加工出非编码RNA——crRNA(CRISPRRNA),而crRNA介导了随后的干扰机制[13]。同一年,西北大学的松特海默尔(ErikSontheimer)等则在表皮葡萄球菌(Staphylococcusepidermidis)的CRISPR-Cas系统(Ⅲ型)中发现,crRNA发挥干扰作用的靶点是DNA,而不像真核生物作用靶点为RNA[14]。这一发现不仅纠正了库宁假说,更重要的是为DNA编辑埋下伏笔。2010年,对CRISPR-Cas系统的基本生物学作用和分子机制已有较清晰的理解,并将其应用于减少细菌噬菌体感染和细菌进化分析等。然而,CRISPR-Cas系统的应用范围极为有限,主要原因在于当时已研究的两种类型(Ⅰ型和Ⅲ型)都过于复杂,因此,寻找更为简单的体系成为一个重要方向。卡彭蒂耶(EmmanuelleMarieCharpentier)是一位法国微生物学家,最初爱好为钢琴和舞蹈,但对医学的热爱使她最终投身于生命科学的研究。在巴黎皮埃尔和玛丽居里大学完成本科学业后,卡彭蒂耶来到附近的巴斯德研究所攻读博士学位。在这里她对基础科学产生了浓厚兴趣,特别是对细菌耐药机制尤为热爱。博士毕业后,卡彭蒂耶进入美国洛克菲勒大学开展博士后研究,重点关注肺炎链球菌的耐药性。后来她又在纽约大学医学院开展哺乳动物基因调控研究。在此过程中她一方面发现哺乳动物过于复杂,因此决定重回细菌研究;另一方面也意识到当时过于繁琐的哺乳动物基因编辑技术亟待改进。2002年,卡彭蒂耶回到欧洲,首先在奥地利维也纳大学获得一份职位,并拥有独立的小实验室。尽管主要依赖短期基金项目支持,但仍孜孜不倦开展科学实验。随着哺乳动物RNA干扰现象的发现,卡彭蒂耶也开始关注细菌中非编码RNA的作用。在德国马普感染生物学研究所分子生物学家沃格尔(JörgVogel)协助下,卡彭蒂耶结合生物信息学方法在化脓链球菌(Streptococcuspyogenes)发现多种非编码RNA,特别是一类在CRISPR序列附近的新型小RNA,将其命名为反式激活CRISPR来源RNA(trans-activatingCRISPR-derivedRNA,tracrRNA),并推测它们与CRISP