第三章QTL定位的原理和方法22:4922:49QTL是什么?•数量性状位点(QTL)是影响数量性状的一个染色体片段;•QTL定位是确定数量性状基因在染色体上位置的一种方法;•QTL和QTLs。22:49为什么要定位它?•它为了解个体数量性状基因之间的行为和交互作用等基础知识提供了一条路径,允许建立更加真实的表型变异、选择反应和进化过程模型;•将标记信息综合到遗传评估中,辅助人工选择程序,主要方式有MAS和MAI;•能进行基因的位置克隆,允许对当前存在的数量变异进行分子机制的研究,并通过直接的分子干预,进一步增加增效等位基因频率。22:49QTL定位的基本原则•QTL定位的基本原则是关联度量的遗传变异和表型变异;•群体的选择、用于度量表型个体选择和基因型判型个体的选择是所有QTL定位设计要重点考虑的因素;•对于所有的QTL定位设计,标记等位基因和QTL等位基因之间的LD是必须的。22:49•QTL定位的关键22:4922:4922:49第一节LA定位(连锁分析定位)22:49linkageanalysis•onlyconsidersthelinkagedisequilibriumthatexistswithinfamilies,whichcanextendfor10sofcM,andisbrokendownbyrecombinationafteronlyafewgenerations.•SuchasBCandF2design22:49单标记分析22:49•是总平均;和是加性和显性效应;是标记和QTL之间的重组率。mdar•是给定个体标记位点基因型为Aa的条件下的QTL基因型Qq的条件概率;•是标记和QTL基因型的联合概率;•是标记基因型的边际概率。)Pr(AaQq)Pr(QqAa)Pr(Aa22:49来自近交系的回交群体的标记和QTL概率•标记基因型之间的表型值平均差异:22:49单标记分析的缺点•单标记使用标记平均值,不能获得QTL效应单独的估计值和QTL与标记的重组频率;因此,不能区分是一个大的QTL效应松散地与标记连锁,或是小效应紧密地与标记连锁。22:49区间定位•LanderandBotstein(1989)提出使用所有连续的标记进行QTL定位的方法;•该方法原则上能够区分QTL的效应和位置;•该方法需要一张带有一定数目的遗传图谱,相邻标记间的距离是已知的。22:49Haldane作图函数•为遗传距离();•假设减数分裂期间的遗传物质交换沿着染色体是随机和独立发生的。212MerMcMM100122:49标记和QTL概率22:49数据分析•为具有QTL基因型的个体的性状记录;•为具有QTL基因型的个体的期望效应(如或);•为随机误差,并且,因此有:ijyijjmjdmamije),0(~2Neij),(~2jijmNy22:49最大似然法分析•前面回交例子的似然函数为:•为QTL位点的基因型;•和为个体在标记位点A和B的基因型;•为回交个体数。jQiiANiB22:49•似然率检验(LRT):–为零假设没有分离QTL条件下的似然值;–为有一个QTL分离条件下的似然值。reducedLfullL•LOD检验:22:49最小二乘分析•前面回交例子的最小二乘分析模型为:–需要估计的参数:一种为两个QTL基因型的平均值;另外一种为总平均值和两个基因型之间的效应差;•显著性检验:RMSMSQF–MSQ为拟合模型由QTL基因型解释的方差;–RMS为拟合模型的残余均方。22:49LS和ML的比较•LS只使用了标记平均值信息,标记基因型组内的方差变异没有被使用;而ML使用了所有可能的信息,这包括标记基因型和性状分布。•LS的计算比较简单易行,能够使用标准的软件(SAS)进行分析;而ML计算非常困难,需要专门的软件将其扩展到非常复杂的模型。22:49•似然率检验和F检验的比较:–对一个QTL,如果残差呈正态分布,则LS和ML估计是相同的;–对一般情形,关系变为:•大部分QTL定位分析结果显示LS获得与ML极端近似的结果。22:49基因组扫描•区间定位的优势在于能对整个标记的基因组进行扫描;•QTL定位是在整个基因组内进行,某一个区间内QTL基因型的条件概率根据侧翼标记信息进行计算,然后一个区间接着一个区间,使用最小二乘或最大似然法进行分析,同时每个区间的检验统计量(F-ratio或LRT)也被计算,具有最大检验统计量的位置就是QTL最可能存在的位置,而该位置的QTL效应就是最好的QTL估计效应。22:4922:49多次检测问题•如果有许多独立的零假设被检验,而且事先知道所有的零假设都为真,则,至少出现一次假显著(falsepositive)的概率为1(1)n22:49伯努利校正11(1)nn22:49Permutationtest•对表型和标记基因型数据进行随机重排,它消除了标记基因型和表型之间的关联;•每次重排数据,都要重新在整个基因组中进行QTL定位分析;•通过多次重排,可获得每次检验LRT统计量在没有QTL的零假设条件下的分布;22:49•Permutationtest的具体步骤:22:49FDR(falsediscoveryrate)•αisdeclaredFDR(suchas0.05)•jisthelargestorderthatmetformula(1)•misthenumberofmarker(1)jjPm22:49FDR(falsediscoveryrate)•方法–Sortpvaluesofallmarkerintervalbasedonascendingorder–22:49LOD下降支撑区间(LODdropsupportinterval)•如果某一特定位置检测到一个QTL,需要对QTL所在的位置执行检验;•零假设是该QTL位于估计的峰值位置,备择假设为QTL位于距峰值距离为的位置,•检验统计量为全QTL模型在峰值位置和距离峰值位置图距单位位置的似然函数的差值的两倍,当样本为大样本时,它近似呈自由度为1的分布;•因此可以通过偏离峰值位置,使检验统计量降到一个给定的数值来对QTL位置置信区间进行检验。dd222:49•例如:–95%的QTL置信区间对应的检验统计量下降3.84;–1LOD下降对应97%的QTL置信区间;–2LOD下降对应99.8%的QTL置信区间;22:4922:49Bootstrap置信区间1.对于一个大小为的群体,抽取个带有覆盖性质的记录(有些记录被抽取多次,而有些记录没被抽取);2.分析并估计QTL位置;3.重复上面的1和2两个过程,如200次或更多;4.在分布的两尾去掉2.5%的极端的QTL位置估计值;5.剩余的95%表示置信区间的估计值。nn22:49QTL位置估计的置信区间22:49预测置信区间•置信区间的长度受样本大小、QTL效应和标记密度的影响,对一个高密度标记图谱,DarvasiandSoller(1997)给出了一个预测的近似95%的置信区间(单位cM):–为样本大小;–和为标准的加性和显性效应(以基因型标准差为单位)。nda22:49统计能力(Statisticalpower)22:49为什么要计算检测能力?•给定样本大小,计算能够检测到的QTL效应;•给定QTL效应,估计检测到该QTL需要的群体大小;•检测特定的QTL时,比较不同的群体设计。22:49完全连锁标记统计能力的计算理论•Ⅰ型错误():当零假设为真,拒绝零假设所犯错误的概率;•Ⅱ型错误():当零假设为假,接受零假设所犯错误的概率;•统计能力被定义为:22:49P(T)TCriticalvalueHAH0Statisticalerrors22:49RejectionofH0NonrejectionofH0H0trueHAtrueTypeIerroratrateTypeIIerroratrateSignificantresultNonsignificantresultPOWER=(1-)22:49ImpactofalphaP(T)TCriticalvalue22:49Impactofeffectsize,NP(T)TCriticalvalue22:49影响检测能力的重要因素•群体类型;•样本大小;•QTL效应;•基因组大小;•标记密度;•显著性阈值;•分析类型。22:49完全连锁标记统计能力的计算•近交系杂交情形下的QTL定位检测能力计算基于单标记的t-检验和F-检验。22:49•F2设计:•BC设计:ndateBC24)(222)(4datnBCe22:49•对于合理的样本大小和小的QTL效应,要求的t值为:22:49daSamplesizeBC6721284211622:49•BC和F2设计的合理样本大小之比为:–BC比F2的基因组扫描所需的显著性阈值要低;BC:F2:–BC比F2的可能要低。2e22:49•考虑两种设计阈值的变化:22:4922:49•如果连锁不完全(),且使用单标记分析:0r•如果连锁不完全(),且使用区间定位分析:0r22:49•为了增加QTL检测能力,可以增加判型的个体数目或标记密度;两者之间花费依赖于标记的成本与获得个体表型成本之间的比率。22:49增加检测能力的方式•增加样本大小;•增加效应大小。–后者可以通过选择一个具有丰富分离QTL的群体结构或样本;–如后裔检验。22:49精细定位QTL的群体设计22:49FineMappingStrategiesGenomewide-basedstrategies:LargescaleBC,F2,halfsibs,etc.Recombinantinbredlines(RIL)AdvancedIntercrossLines(AIL)Locus-basedstrategies:SelectivephenotypingRecombinantprogenytestingIntervalspecificcongenicstrains(ISCS)Recombinantinbredsegregationtest(RIST)22:49重组近交系(RecombinantinbredlinesRIL)•重组近交系来源于F2群体的近交;•RIL只需要被判型一次,却能很好地度量多个性状(clonalLines);•RIL关键的特性是比F2发生更多的重组,数量性状通过使用系平均值能被准确度量;•RIL只能定位加性QTL;•RIL的产生慢而困难。22:49深度杂交系(AdvancedintercrosslinesAIL)•AIL开始于F2群体,杂交后裔继续杂交一定数目的世代(与RIL近似,但是远交,而不是近交);•AIL是在F2群体QTL定位的基础上进一步提高QTL的定位精度;•AIL的任何性状都能被度量,但基因型判型只着眼于感兴趣的区域;•AIL的关键特性是在目标区域创造了附加的重组事件,类似于扩大了F2群体。22:49Advancedintercrosslines(AIL)Semi-randomintercrossingPF1F2F3FtCI=CIF2/(t/2)22:49•AIL要保持一定的群体大小;•AIL相对于F2使重组近似增加,置信区间为:•AIL能定位几个QTL或多个QTL到1—5cM。/2t22:49Locus-basedstrategies:Selectivephenotyping(SPh)Theoreticalbasis:OnlyrecombinantsincreasemappingaccuracyforadetectedQTL.Procedure:AlargeF2orBCpopulation,OnlyindividualsrecombinantataQTL-containingintervalaresubsequentlyphenotyped.22:49Requiresonly2generations.Requiresv