体细胞的反转座子改变了人类大脑的遗传景观摘要反转座子是可移动的遗传元素,使用“复制-粘贴”的机制遍布到后生动物的基因组中,至少50%的人类基因来自反转座子,有三个活跃家族(l1,AluandSVA)与插入的突变和疾病基因有关。体细胞中表观遗传和转录后会抑制反转座子区,除了胚胎早期发育细胞和一些恶性肿瘤细胞。近期的报告呈人类大脑中l1的表达和拷贝数变异表明l1动员也可能出现在后期的发展中。然而,相应的综合位点并没被反映出来(基因的确定位置)。此时我们运用一种高通量的方法去识别大量的l1,AluandSVA的种系突变,即就是将我们假定的l1体细胞7743分别插入到三个人的海马体和尾状核中,出人意料的是我们分别在13692和1350体细胞中发现插入了Alu和SVA。我们的结果表明在人脑中反转录转座子动员蛋白质编码基因产生了不同的表达活性。如此一来由反转录转座子驱动的体细胞基因组镶嵌性可能重塑基因的电路来支撑正常的或不正常的神经生物学过程。恶性肿瘤与衰老通常与毒性突变的积累有关从而导致功能丧失,细胞死亡或者失控生长。反转录转座子是明显的诱变剂,据估计4亿种反转录转座子派生的结构变异存在于全球人口中和超过70种涉及了遗传和新合成反转录转座子事件的疾病中。可能因转座子能力的原因反转录转座子大量甲基化和大量转录灭活。然而在神经细胞系中已经检测到大量的体细胞L1反转录转座子。考虑到哺乳类动物大脑组织复杂的结构和功能以及它的自适应和再生能力还有神经生物学失常未找到的的病因,想必这些体细胞L1的插入可能有重大意义。观察到大脑中的置换活动有一种解释大概是L1启动子会短暂释放从神经发生的表观遗传抑制期间。L1转换能力可以反复地动员不同的个人位点细胞来产生体细胞镶嵌性。多方面证据支持这个模型,比如在不同年龄捐助者的大脑组织中的L1转录和拷贝数变异(CNV)以及动员在转基因老鼠体外设计的L1。重点是现在也不知道体细胞L1插入后将在基因组中的哪里出现,考虑到开放的核染色质容易L1集成,这些事件中的无论哪一件都不同程度的影响大脑中蛋白编码基因座的表达。在不同的细胞群中映射出个人逆转录转座子事件共同形成一个体细胞镶嵌现象,最有挑战的是每个突变的稀有等位基因。我们因此开发一种高通量的协议被称为逆转录转座子测序。首先片段的基因组DNA是杂化自定义序列捕获完整的L1,Alu和SVA逆转录转座子的目标数组5′—3′末端(如图1a)。稳定的ERVK和ERVILTR基础作为负性的控制。其次,捕获测序的DNA,每101单体单元序列样本可生成25亿个双末端(如图1b)。最后设计保守的计算途径去识别被映射的测序对(如图1c&d)。如下图所示:Figure1:整体RC-seq方法(a)反转录转座子捕获:剪切基因组DNA杂化特定的嵌合芯片探测反转位子活动(浅蓝色背景可高亮显示核苷酸)(b)测序:杂交后,用Illumina公司定序器筛选和分析DNA片段,在每一个基因序列中双末端测序2.5*107bp,随后配对到参照基因组中。(c)测定的序列映射出一对单一的基因座显示出已知的逆转录转座子插入。(d)测定的未配对序列的末端映射出单一的基因座和其他的末端映射出远端的逆转录转座子,显示出新颖的逆转录转座子事件。先前的工作相当于在体外体细胞动员L1拷贝数变异。为了L1的拷贝数变异我们用RC-seq来检验这个假想,首先从三个捐献者中(A,B&C)各选取5个大脑分区。一个显著增加的是我们在捐献者C的海马体DNA提取物中观察到大量的L1ORF2基因的复制,类似于捐献者A,尽管A是小规模增加(如图2)。使用三个捐献者的样本将RC-seq运用到他们大脑的5个分区中,其展示出最高和最低的L1拷贝数变异,包括捐献者A尾状核的技术复制。在七个基因库中,总共有1.774亿个序列双末端用高通量转录组分析(RC-seq)而生成。RC-seq实现了深度分析其覆盖了已知活跃的逆转录转座子,高度的重复性和有限序列的捕获偏差。图2.在人脑中用多样的定量多聚酶链式反应来证实L1拷贝数变异。L1开放阅读框2的相对丰度对a卫星重复序列使用基于现有的TaqMan方法而被定量化。分析化验来自三个捐献者的大脑的五个区域的基因组DNA(A,B&C)。海马体(Hi);硬膜(Pu);颞中回(TG);尾状核(Ca);额中回(FG)。价值是使每个捐献者的尾状核正常化。这种误差线相当于一个标准差。对每一个捐献者用重复测量的方法进行方差分析其p0.001,随后成对比较调整最小显著差。逆转录转座子插入的序列对的诊断结论是以插入位点,相对走向和逆转录转座子家族为基础而聚合丛生。总共有25229个集群生成。近侧的集群。近端集群排列在对位链上表明了两个目的,位点插入并配对,结果产生24540个异常插入目录。毫不奇怪的是,这绝大多数都是L1(32.2%)或者是Alu(60.9%)。从其他实验对象中隔离种系突变,我们结合可用的三大目录L1和Alu多态性作为一个注记库并在从提取的人全血基因组DNA上执行RC-seq,有6150个集群生成并被现有的大脑集群RC-seq所分割。来自超过一个地区或个人的任何大脑集群都容纳了高通量转录组分析序列,重叠血液的高通量转录组分析簇或者匹配成一个已知的被指定的种系插入物的多形性。总的来说,在大脑中相对于只有1.9%的L1来说,有8.4%的Alu插入序列就被注释为种系。几乎所有的未注释的L1插入序列匹配不到三个诊断RC-seq序列并且考虑到潜在的体细胞插入序列。图3.描述非引用基因组插入序列(a)每个家族的插入序列比例。(b)根据所有的大脑数据库对L1插入序列进行注释。经不到三个序列而检测到的绝大多数插入序列是不能被注释的而且考虑到了普遍的体细胞插入序列。候选的插入序列通过PCR扩增和毛细管测序而被验证确认。35个L1,Alu,SVA和LTR种系的插入序列通过一次PCR就很容易被确认。鉴于目标分子的丰度较低和L13`末端的高基因频率,我们对体细胞插入序列设计了一个5`末端的巢式PCR验证试验。在我们挑选出的29个样本中(14L1和15Alu)验证发现每个家族中被普遍认为的体细胞插入序列中有全长850kbp的L1插入序列和全长2601kbp的Alu插入序列分别地显示11.0%和19.0%。选取的样本几乎都是基于插入长序列的5`末端的剪切程度而优先考虑其外显子和内含子。最佳的草案是,结合大量输入的DNA最后导致了这个确认:14个L114序列和12个ALU15序列。在可用的输入原料处于无活性之前,我们将四个体细胞的SVA插入序列也同样用相同的方法进行分析和二次确定。反复对3`接头进行PCR扩增持续生产非目标扩增物,完全基于5`接头的脱离验证。由于这个原因我们不能通过实验来确定这个靶位点重复序列,那只是象征性的逆转录转座子领导目标反转录(TPRT)。我们提议由于上输的混杂因素所以确认在5`末端插入序列的3`接头并没有有效的扩增。以及在目标扩增物上存在很长的多聚腺苷酸尾部(polyA)但我们发现在非目标扩增物上往往没有。不管如何,靶位点重复序列在某些案例中会通过高通量转录组分析而直接被发现(如补充图.1d)。在一项种系插入序列的检查中进行深度测序,在他们的5`末端和3`末端显示有86%呈递靶位点重复序列。由于他们的丰度很低所以测序覆盖率低,只有三个被普遍认为的体细胞插入序列在两个目的中通过高通量转录组分析至少一个序列而被检测到。其中的两个例子(1L1和1Alu)提出了靶位点重复序列。尽管有这些和那些数据强有力的支持逆转录转座子作为体细胞动员的主要原因,一些数量不足的例子中对两个末端进行测序来区分是否是逆转录转座子领导的目标反转录或者另一种逆转录转座子负主要责任。这每个插入序列的体细胞来源根据高通量转录组分析和PCR的结果在一次大脑组织化验中证明了它的存在而且在其他中不存在。作为说明性的例子,一个体细胞的L1插入序列的内含子组蛋白去乙酰化酶会在图4a和图4b中详细表明同时一个体细胞的Alu插入序列的外显子RAI1会显示在图4c和图4d。这些实验结果表明这些插入序列通过体内发生高通量转录组分析而被检测到并且并不代表测序工件。图4.在体细胞插入序列中发现组蛋白去乙酰化酶(HDACI)和维甲酸诱导1(RAI1)。(a)对齐捐献者C的尾状核高通量转录组分析序列结果表明在组蛋白去乙酰化酶的基因9区内存在反义的L1插入序列。巢式PCR的引物设计跨越L15`终末端,起始反应就结合外逆转录转座子和引物插入位点,第二步反应是结合内部逆转录转座子和引物插入位点.(b)巢式PCR扩增的目标用毛细管测序确认其特异性,在尾状核中实现而不是在海马体中。测序表明在9号染色体存在L1动员还伴随者5`的转换。(c)对齐捐献者A尾状核的高通量转录组分析序列对显示出在有一种ALU插入序列在外显子3上,也进行RAI1的CDS分析。(d)至于(b)的尾状核中获得巢式PCR扩增的目标物而不是在海马体中。结果表明在4号染色体上存在ALU动员。注释:在图a和图c中L1和ALU的原理图不是按比例画的。捐赠者成分注释显示体细胞L1插入序列的80.2%相当于最近大多数人类活跃的L1-Ta&pre-Ta亚科。正常的海马体:捐献者A,B和C的体细胞插入序列的尾状核比例分别为1.3,0.5和2.2,这些并联的趋势来自对L1的拷贝数变异(CNV)分析(图2)。蛋白质编码基因座相比于期望数值和先前的种系频率是被不成比例的影响。相比于随机期望数,在大脑的已有的基因芯片表达数据显示基因中含有两倍的L1内含子很有可能是产生了不同的高表达。关键位点发现含有体细胞L1插入序列,包括神经母细胞瘤和神经胶质瘤的肿瘤抑制基因被剪切(多巴胺受体和神经递质转运蛋白)。全球,一个基因本体的分析浓缩为两条分别是神经的形成和突触的功能。现在工作中的一个重要发现是在正常的脑细胞中不像L1,ALU逆转录转座子,此前还没有被报道。无论如何,在制造了一个可信的体细胞的L1和Alu动员巧合后,这L1的转录机制已经熟知会在翻译中动员ALU并且体细胞ALU插入序列的83.0%相当于大多数人类活跃的AluY亚科。在每个原理的基础上观察到Alu活性相比于L1近似降低二十倍。如此一来,AluCNV如果通过定量PCR分析将会有统计学意义,这不太可能。这Alu插入序列和L1插入序列的基因模型也会不同;相比于L1,体细胞Alu插入序列会没有过多的内含子但更常见的是过多的外显子。Alu外显子是很重要的因为他是遗传性疾病基因。总的来说,L1,Alu或者更有限的范围内,SVA动员产生大数量的插入物其会影响蛋白质编码基因。我们的研究结果提供了强有力的证据其体细胞L1和Alu动员从根本上改变了人类大脑基因组全景并且逆转录转座子是这种现象下的最主要的机制原理。与种系的活性度形成对照,体细胞插入序列会不成比例的影响蛋白质编码基因座。他们会生成一个有毒的表现型因为在进化中进行强烈的再次选择而产生突变所以种系插入序列很难发现这样的区域。体细胞实验在另一方面为了下一代而存在并且在一个特定的环境背景下可能会影响蛋白质编码基因座,或许被吸引到开放的核染色质的转录区。除了插入序列外显子的这些显而易见的影响,内含子事件可以作为微妙的“转录变阻器”或独联监控份子类似于插入小鼠体内的刺鼠基因IAP插入序列负责可行的黄色等位基因。最近的一些研究已经编目人类细胞种系和肿瘤细胞的逆转录转座子插入序列。通过高通量转录组分析我们已经衍生这些数据到大脑中和串联体细胞逆转录转座子到神经生物学基因中。比如,HDAC1是一个全基因组转录监管机构其控制L1启动子规范化并且在精神疾病和肿瘤形成中有牵连。另一个例子在这里突出显示,RAI1是一个在大脑中高度表达的转录因子其与精神分裂症和Smith-Mageniszon综合征有联系。在RAI1中的Alu插入序列的外显子,如图4c所示,因此会有表型的影响。海马体呈现出更倾向于体系胞L1逆转录转座子,那是很有趣的在成熟的神经细胞中其颗粒下层是一个很重要的来源。这也符合L1逆转录转座子有关神经可塑性的假说。更有趣的是APOBEC的可能性,RNA/DN