植物连锁不平衡和关联分析目前的现状和未来的发展在过去的20年里,DNA分子标记已经广泛地应用到植物和动物的许多研究中。一个主要的应用是构建分子遗传图谱来研究简单或复杂的性状。然而这些研究主要是基于作图群体的连锁分析,这在许多植物系统中受到许多限制。所以,已经提出了替代的策略,其中一个主要的策略是利用基于连锁不平衡的关联分析。虽然这种策略已经用到分析人类复杂性状的遗传,例如不同疾病的遗传,但它在植物中的应用还刚开始。在这篇综述中,我们首先区分连锁不平衡作图和关联作图,然后简单描述各种不同的衡量LD的方法及这种方法的应用,并列出了一系列影响LD的因素,讨论LD在植物研究中的一些内容。我们也描述了LD在植物基因组学方面的不同应用,及在不同的植物基因组研究中LD相关研究目前的状态。最后,简单讨论了植物LD研究未来的发展方向,列出了LD相关研究的一系列软件。开发和检测动植物系统的DNA多态性标记是分子生物学和生物技术研究中的一个发展迅速的领域。这是导致植物基因学研究20多年来进展迅速的主要原因,同时也使分子标记在植物遗传学研究中的应用变得越来越活跃。产生DNA分子标记多态性两个主要原因是:突变和重组(突变产生新的等位基因,重组产生不同位点不同的等位基因组合)。因此在许多研究中检测连锁和追踪DNA多态性的产生历史成为分子标记的中心任务,然而对连锁的研究需要设计适合的杂交,有时需要建立作图群体甚至近等基因系。在有些情况下这是一个比较严重的限制因素,因为有的杂交不可能获得(例如树种),或者有时作图群体太小。所以其它的策略已经被发展起来研究连锁和重组,以及群体的突变历史。其中的一个策略是基于LD的关联分析。近几年来,它越来越受到植物遗传学家们的重视。这个策略有进行QTL作图以及鉴定引起表型变异的序列多态性的潜力。它也可以鉴定单个基因或多个基因的单倍型(Thisalsoallowstheidentificationofhaplotypeblocksandhaplotypesrepresentingdifferentallelesofagene.)可以根据特定区域的LD的存在来设计关联分析(Inusingthisapproach,anideaofthelengthofaregionoverwhichLDpersistsisalsopossible,sothatonecanplananddesignstudiesforassociationanalysis.)。用来评估LD水平的方法,及影响因素,以及这种策略的应用和限制在最近几年已经被广泛讨论。最近专门针对植物的LD的讨论文章也出现了。在这篇综述中,我们尽力总结在植物中的LD研究,侧重于讨论一些新的方面,包括多个位点的LD,复等位基因位点的LD,和LD相关的选择效应及基因转换等方面。什么是连锁不平衡/关联作图?这个术语连锁不平衡作图和关联作图常常在许多文献中交错使用。然而我们感觉当用关联作图时指的是一个表型性状和分子标记显著关联(性状和分子标记间的关联)。连锁不平衡指的是在两个标记或两个基因/QTL和一个标记间的非随机关联(分子标记间的关联)。因此,关联作图实际是LD的一个用途之一。在统计学的意义上,关联指的是一个标记和一个性状间的协方差,然而LD代表的是两个多态性标记(基于分子标记或基因标记的多态性)间的协方差。然而从上面联想,这个术语“连锁不平衡”在某种程度上是不适当的,因为LD可能是除连锁以外的其它的原因引起的。所以这里的非随机的关联用“配子阶段的不平衡”或“配子不平衡”可能更加适当,可以在遗传上不相关的个体组成的群体中测试。然而,LD出现在两个紧密连锁的位点的可能性比较高。怎样衡量LD和检测它们的统计显著性?不同的衡量植物LD的方法在最近的文献中有较多的描述。这里我们列出和简单描述这些方法,以及检测其显著性的方法。TheLDinvolvingmultialleliclociandmultilocusconditionswillbedealtinarelativelygreaterdetail,sinceinthepastthisaspectdidnotreceivethetreatment,whichitdeserved.Detailsofthesemethodsareavailableelsewhereinthepublishedliterature(Jorde,2000;Liangetal.,2001;GorelickandLaubichler,2004).两个位点的方法连锁不平衡常常用在一对等位基因间的统计的关联被量化。然而包括的位点可能是双多态性的(例如SNP和AFLP等)或多多态性的(例如SSR和RFLP)。在连锁作图群体中只有两个等位基因,多多态性位点也被处理成双多态性位点。然而,当用自然群体或种质资源来估计LD,每个位点的多个等位基因能被取样用来估计LD。进一步,虽然有些方法在双等位基因及多等位基因的条件下都能应用,但那些在双等位基因条件下常用的方法在多等位基因的条件下得做些修饰。在一些特定的条件下,LD作图的能力在两种条件下也是不同的。双等位基因位点在双等位基因条件下的衡量方法包括D,D`,r2,R,D2,D*,Q*,F`,X(2),d,等。这里面的一些方法也在多等位基因的条件下应用。它们的不同及其有缺点在以前的其他的综述文章中已经做过说明,这里就不重复了。然而,需要注意的是不能不加选择地应用这些方法,因为,所有这些方法,除了D`都和等位基因频率强烈相关,甚至D`有时也和等位基因频率相关。大多数的方法,也对小样本容量是敏感的,有时甚至在最大的连锁不平衡的情况下给出负值。上面的方法中,D`和r2,是首选方法,虽然d,和k已经被认为和D`一样好,因为它也和重组片段成比例的。在这两种首选方法中,D`仅仅衡量重组的不同,但r2可以反应重组及突变的历史。r2也是一个指示性的东西,标记可能和感兴趣的QTL相关联,所以,常常r2是首选的。然而,在D`和r2间进行选择也常常依耐于研究目的。在一些最近的综述文章中,不同的LD衡量方法已经被图示解释,我们修饰了这个图,Figure1.Diagrammaticrepresentationoflinkagedisequilibrium(LD)betweentwoSNPsshowingbehaviorofD,D`,r2anddA:没有重组(突变发生在两个连锁的位点,没有分离)B:独立分类(突变发生在两个位点,没有分离)C:没有重组(仅仅发生了突变)D:低频率重组()(这个图一开始还看不明白,应该这样看,看单倍型,如上面A/T位点和G/C位点的单倍型为:AG,AC,TG,TC。进行分子标记时纯合的2倍体材料,可以当成单倍体来看,也即每个个体为AG,AC,TG,TC中的一种,但杂合2倍体材料则一个个体可能出现两种单倍型。它计算的单位是单倍型。进行分子标记时是以个体为单位的,但这里的分析要以单倍型为单位)Multialleliclociandphaseinformationinheterozygotes多等位基因位点和杂合阶段信息除了双多态性标记象SNP,多多态性标记象SSR也常常用在关联分析中。这些SSR标记已经用在研究玉米和水稻的群体结构,及小麦和大麦的关联分析。对多多态性的位点D`也是广泛应用的一种方法,用来估计两个位点间的LD或者所有位点间的LD。D`的范围和等位基因的频率及其它条件无关。D`也不必进行标准化处理D¢canalsobecomputedfrommaximumlikelihood(ML)estimatesusinganexpectationmaximization(EM)algorithm(SlatkinandExcoffier,1996),andstrategieshavebeendevelopedtomapquantitativetraitloci(QTLs)usingD¢,whentheQTLandmarkerlociarebothmultiallelic(Abdallahetal.,2003).当用包含超过一个位点的杂合个体的群体,有许多位点要同时考虑时,估计复等位基因位点间的LD时问题会变得更加困难。在这样的条件下,haplotypephaseinformation缺失,所以s个杂合位点能通过2s-1条不同的途径整合到haplotype中(应该这样理解:比如考虑3个位点A/a,B/b,C/c,这是其中一个个体的基因型数据,根据这个基因型可能产生的单倍型途径为:ABC/abc,ABc/abC,AbC/aBc,Abc/aBC,我们不知道具体是哪种方式),所以makinginferenceabouthaplotypephasedifficult。在过去的几年中已经haplotypephaseproblemeitherthroughpedigreeanalysis(Eavesetal.,2000)orthroughcharacterizationofgametes(Taillon-Milleretal.,2000),throughhaploidstoragetissueofseeds(megagametophyte)(NealeandSavolainen,2004),throughasymmetricPCRorthroughisolationofsinglechromosomesforPCRamplification;这些方法来解决这个问题。animprovedalgorithmbasedonHardy-WeinbergequilibriumwasalsointroducedtoinferthehaplotypephasefromPCR-amplifiedDNA(Clark,1990).However,therewereproblemsassociatedwitheachoftheseapproachesthatwereproposedandusedinthepast.Therefore,morerecently,anapproachwassuggested,whereusinganEMalgorithm,MLestimatesofgameticfrequenciescouldbeobtainedandusedforestimationofLD(KalinowskiandHedrick,2001).Thisapproachhasbeensuccessfullyappliedinsomeanimalsystems(e.g.sheep)andamodifiedformofEMalgorithm(optimalsteplengthEM;OSLEM;Zhangetal.,2003)hasbeensuccessfullyappliedinsomeplantsystems(e.g.tetraploidpotato).Infuture,itwillcertainlybeimprovedfurtherandthenusedinotherplantsalso(fordetails,seeKalinowskiandHedrick,2001;Simko,2004;NealeandSavolainen,2004).(植物群体,例如水稻位点是纯合的,所以其单倍型是比较明确的)多位点的方法在最近几年,侧重于用来自多个位点的数据用来进行LD-作图,因为LD数据最终是需要准备用来全基因组的LD作图,全基因组的连锁图谱在过去就是按相似的方式建立多位点策略能够大致分成两个方式:(i):‘底部到上部策略’,从单个位点开始估计多个LD,和‘从上到下策略’,wherewestartwithhigherorderLDcoefficientsandthendecomposethemintolowerorderLD-terms.Bottom–upapproaches一个最早的bottom–upapproaches是,它和上面描述的d非常相似。几个其它的bottom–