通过母系血浆的高通量平行DNA基因组测序来进行胎儿染色体非整倍性的无创产前诊断前言染色体非整倍性是很多配偶选择做产前检查的主要原因。现在决定性诊断的方法主要靠破坏性的过程,比如绒毛膜取样和羊膜穿刺术,然而这些方法都有流产的风险。虽然胎儿的DNA可以在母亲的血浆中找到,但是作为其中非常微小的部分,总是伴随着大量母系DNA背景。因此胎儿基因组内的非整倍性染色体数量上的不同对于母亲血浆中全部的染色体序列表达就非常的微小。即使用非常精确的单分子计数方法比如数码PCR,为了达到必要的分析精度仍必须分析大量的DNA分子,即需要大量的母系血浆。这样我们就证明了使用独立位点的方法比定位于某一基因位点的方法将极大的提高从相同一定容量的血浆中可供分析的非整倍性染色体目标分子的数量。因此我们为了达到产前胎儿二十一三体综合症的无创检测,应使用高通量平行基因组测序来量化母系DNA序列。我们检测了28个怀孕六个月内母亲的血浆样本并正确辨别出了其中14个二十一三体综合征胎儿和14个整倍性胎儿,高通量平行血浆DNA测序展示了一个为所有孕妇进行无创产前胎儿染色体非整倍性诊断的新途径。正文检测胎儿非整倍性是许多孕期妇女做产前诊断的主要原因。传统的产前检测方法包括绒毛膜取样和羊膜穿刺术,这些具有破坏性的取样方法有可能导致流产,因此许多人都在研究无创取样方法,其中超声波扫描和母亲血清的生物化学标记被证明是有效的筛选方法,然而他们发现的是负现象而不是染色体异常的病理学特征。这些方法也存在很大的局限性,比如妊娠期适用性和同时需要联合多个标记,甚至需要通过不同的时间节点来达到一个临床上有用的灵敏度和特异性。为了从母亲血样中直接检测胎儿的染色体和基因组异常,早期的工作聚焦于如何将稀少的胎儿有核细胞从母亲血浆中分离出来。1997年发现的母亲血浆中无细胞胎儿核酸开创了新的可能,然而胎儿DNA仅仅占母亲血浆DNA的很小部分。绝大多数都是孕妇自己的DNA,这点造成了巨大的挑战。最近,生物学家发明了大量的方法。一个策略以母亲血浆中胎儿特异性的核酸作为目标,比如说胎盘的mRNA和DNA分子创造了一个胎盘特异性DNA甲基化信号。胎儿的染色体剂量然后用目标分子中SNPs的等位基因比率分析来评估,这种策略叫做RNA-SNP等位基因比率法和表观遗传等位基因比率法。这种基于等位基因比率的方法只能用在被分析的SNPs位点上是杂合的胎儿中,所以为了提高这种方法的覆盖率需要多样的标记。为了创造一种从母系血浆中检测胎儿染色体非整倍性的单独多态性的方法,我们团队最近提出了使用数码PCR来进行相关染色体剂量(RCD)测量的原则。数码RCD是用来数母系血浆中可能的非整倍性染色体的一个特殊位点的总数量,比如说二十一三体综合症中的二十号染色体,并且将其与参考染色体比较。因此我们检测到由三条二十一号染色体带来的基因位点与对照基因的微小增加时,我们就可以诊断出二十一三体综合症,二十一号染色体序列成比例的增加预期就很小,因为胎儿DNA在母亲血浆DNA中仅占很小一部分。为了可信的检测出这个微小的增加,需要高精度地分析和计数大量确定数量的二十一号染色体和由数码PCR试验定位的位点的对照染色体序列。因此当部分富集的循环胎儿DNA非常低,比如说在早期怀孕时,就需要大量的母亲血浆。另一种方法是进行多个遗传位点的多样化分析,然而多路复用的数码PCR法的优化十分具有挑战性。如果使用荧光标记,我们就能很快地分辨出不同位点的各种标记。为了克服以上的限制,我们打算用一种独立于任何特定基因位点的方法来计量母系血浆中二十一号染色体序列的数量。当使用独立位点的方法时,非整倍性染色体的每一个DNA片段都会对这条染色体的数量的计量产生影响。因此对任何固定容量的母系血浆中可计量的序列都比特定位点基因试验中作为模版的DNA分子多,所以过量或较低的非整倍性染色体的表达更容易被精确地检测出。我们之前提议高通量平行基因测序(MPGS)平台会是无创产前胎儿染色体非整倍性诊断DNA序列的一种方法。在这份研究中我们证明"Solexa"测序技术(Illumina)可以实现这个目标。结果过程框架。母系血浆中的无创胎儿染色体非整倍性检测使用MPGS的过程框架按图示表达在图一中,在这份研究中我们使用了Solexa的合成测序方法。因为母系血浆中地DNA分子在自然条件下就已经变成碎片了,所以我们无需再将其碎片化。每个血浆DNA碎片的一个同源衍生拷贝的末端都进行了测序且用IlluminaGenomeAnalyzer标准前测序生物信息学分析方法进行处理,后者使用了高效、大范围核苷酸数据库软件分析(ELAND)。这个测试的目的在于简单辨别测序血浆DNA碎片的染色体来源,但我们并不需要知道他们基因特异性位点的相关细节。每一个人类染色体上任何特定染色体的序列数量之后会被计数和制表。在这份研究中我们只数了没有错误配对并且只能和对照人类基因组作一个位点映射的序列,比如说那些在人类基因组中视为特殊的那些序列。我们根据ELAND序列测试软件(Illumina)的输出数据把这些序列称作U0-1-0-0。然后我们用某一染色体的U0-1-0-0数除以所有样本中的U0-1-0-0总数,通过该比例得出的值叫做%chrN。为了确定我们测试的母系血浆样本属于二十一三体综合症,我们需要计算一个叫做Z-score的值,这个Z-score是根据参照组数据平均值的标准偏差得出的。因此对于二十一三体综合症胎儿来说,我们就会看到其Z-score要高于整倍体胎儿。为了使无创产前胎儿非整倍性体染色体检测的过程高效,必须符合几个假设。首先,MPGS需要足够灵敏来捕捉和产生在母系DNA的背景下所有胎儿DNA的小片段的序列读数。其次,捕捉来做测序的血浆DNA碎片必须是在母系血浆中有类似染色体间的分布的具有代表性的样本。再次,对每条染色体上DNA测序的能力不应有巨大偏见。当这些假设成立时,%chrN就能反映出母系血浆中母亲和胎儿的基因表达。更甚的是,如果在母系血浆中,母亲和胎儿的基因是平等表达的,每条染色体上成比例的血浆DNA序列的贡献会产生人类基因组里每条染色体相对大小的关联。如果%chrN值可以通过测序和点一个够大的血浆DNA库来使其变得足够精确,我们假设可以辨别出大量映射到非整倍体染色体序列表达上的不同。我们准备分别测试这些假设。在母系血浆中检测胎儿DNA。如果MPGS可以可以给母系血浆中胎儿DNA测序,那么我们就应该可以检测出血浆中有y染色体的DNA,如果孕妇怀的是男性胚胎,从四个怀着整倍体胎儿的孕妇获得的血浆样本(三男一女)用Illumina的betahIP-Seq-protocol进行处理,这个功能包括副本文件中所描述的化学凝胶电泳尺寸分流法步骤之前或之后的适配器绑定的DNA片段的放大。这四个样本的临床信息和测序的数据详见S1表格。从每个样本获得的总的序列数约为9*10^6。每例中总的U0-1-0-0计数范围为1.8*10^6〜2.0*10^6。映射到每个染色体的U0-1-0-0计数的比例见图S1。对于这三个怀男性胎儿的孕妇,比如3009、3034和3143完全的和部分的映射到y染色体的计数分别为636(0.032%)、858(0.048%)和1054(0.056%)。然而没想到177(0.009%)的序列同样映射到了y染色体,包括一个女性胎儿。对sry基因的实时PCR对着之后的血浆样本产生了否定的结果。我们然后考虑凝胶电泳时可能有男性序列污染的出现。血浆DNA的测序方案。我们创造了一个新的方案来为MPGS准备血浆DNA样本,不需要凝胶电泳和二次放大步骤,这个新的和原来的方案作了对比,并且分别表示为方案A和方案B。为了将低DNA通量在测序结果中造成的偏差降到最低,三个血浆样本每个都抽取了100ng的DNA。每个血浆样本的一半(50ng)都用两个方案作了处理,并且进行了同样的测序。被测试的血浆样本包括一个怀着女性胚胎的孕妇,一个怀着男性胚胎的孕妇,和一个两个男性个体的血浆混合体。最后一个样本需要做混合那样才能获取100ng的DNA。这三个样本分别叫作样本1、2、3。每个样本和每个方案的临床细节和测序结果显示在表格S2中。总体的U0-1-0-0结果分布在2.0*10^6〜2.2*10^6。全部和部分的使用新方案的样本1、2、3的映射到y染色体的U0-1-0-0结果是184(0.009%),1444(0.066%)和3523(0.175%)。相应的,原来的方案的数值为218(0.011%),1615(0.077%)和3468(0.169%)。因此污染主要是由凝胶净化产生,而二次放大步骤得不到证实。我们接下来探索了是否存在一个生物信息学的解释,我们使用BasicLocalAlignmentSearchTool(BLAST),来分析这三个样本的每一个样本和每一种方案的映射到y染色体的每一个U0-1-0-0序列。我们用BLAST评估了只能匹配到y染色体的DNA序列的所占比例。通过BLAST得出的特异性匹配到y染色体的序列的比例,分别用新的和旧的方案进行了对比(表格S3)。怀着女性胎儿的孕妇的血浆样本,只有30%的通过ELAND映射到y染色体的序列被BLAST确证只映射到y染色体。这和样本2、3形成了鲜明的对比,他们有超过90%被ELAND映射到y染色体的序列可以被BLAST确证。尽管如此,怀有男性胎儿孕妇的血浆样本中检测出的y染色体序列可以证明母系血浆中的胎儿DNA可以用MPGS进行测序。为了确认ELAND软件得出的U0-1-0-0序列有着比较小的映射错误,我们进行了一个涵盖三个血浆DNA样本的在每一个染色体上的利用新方案进行的基于120个随机选择的U0-1-0-0序列的BLAST分析,正如表格S4所示。在选取的测试的序列中大于99%的利用ELAND来映射到常染色体的U0-1-0-0序列被BLAST确认只匹配到相应的染色体。样本一中所有的120个ELAND映射的x染色体序列都被BLAST确认了,它仅包含女性DNA。样本二和三中超过97%ELAND映射的x染色体序列被BLAST所确认,它们包含男性DNA。这些数据表明ELAND所映射的U0-1-0-0序列除去y染色体外还是基本上非常准确的。母系血浆DNA序列在人类染色体中的分布。样本一、二、三分别计算了每一个染色体的U0-1-0-0数量占所有序列的U0-1-0-0的比例的贡献。为了调查是否母系血浆DNA序列在人类基因组重平均分布,我们比较了血浆DNA数据和每条染色体的期望的基因贡献。我们主要的目的是分析占支配地位的DNA背景为女性的母系血浆DNA。因此我们计算了一下基因的相对表达,比如说每条染色体的大小,基于一位女性参考者的单倍体人类基因组的每条染色体的核苷酸构成,每条染色体的相对大小和测序的血浆DNA样本的U0-1-0-0序列的染色体贡献的比例被绘在一起。正如图表2中所示,使用新方案进行的血浆DNA的标本,比如说样本1A、2A和3A,和每个人类染色体预想中的基因表达比相关的用原来方案进行的标本,比如说样本1B、2B和3B都更加相似。我们进行了线性回归分析来比较,从新旧两种方案中获得的每个染色体的百分之U0-1-0-0和在人类基因组中每个染色体的预期的基因表达。正如图表S2所示,样本1A、2A和3A中获得的斜率大于0.95,而样本1B、2B和3B分别为0.755,0.795和0.859。样本1A、2A和3A的R^2大于0.980,但是样本1B、2B和3B分别为0.803,0.840和0.910。这些数据客观上证实了只有一个PCR放大步骤的和疏忽了凝胶电泳过程的DNA处理方案会产生一个大量的序列的简况,比原来的方案更好的符合每条人类染色体的基因构成。更重要的是这些数据表明母系血浆的DNA分子的在人类基因组中的总体分布是相当平均的。母系血浆样本(1A和2A)的DNA分子的染色体分布和成年男性血浆(样本3A)是相似的。这些观察结果表明母系血浆中的母亲和胎儿的DNA序列不太可能在它们的基因分布上有显著的不同。否则如果母亲DNA和胎儿的DNA在基因分布上有着本质上的不同,我们