D和r2的区别

supertack
3 ℃
2019-12-29

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

D是LD（连锁不平衡）的基本单位，度量观察到的单倍型频率与平衡状态下期望频率的偏差。假设两个位点分别有等位基因A，b和B，b，则D=PAB–PAPB，P表示频率。如果D值显著的偏离零，则说明存在LD。随着两个位点间重组的发生，它们之间的LD将逐渐衰减。特别的，D受两个位点间的重组率θ和传递代数t的影响：Dt=(1-θ)tD。因为所有的单倍型和等位基因的频率都在0到1的范围内，因此D的取值范围也是有限的：Dmin=max(-PAPB,-PaPb)=min(PAPB,PaPb)；Dmax=min(PAPb,PaP。因为D的取值强烈地依赖于人为指定的等位基因频率，所以它不利于LD程度的比较。标准化的不平衡系数D’能够避免这种对等位基因频率地依赖。当D0时，D’=D/Dmax，反之D’=D/Dmin。假如D’=0，则说明两个位点完全独立；D’=1说明两个位点没有被重组分开，处于完全的连锁不平衡状态，这时能观察到2或3种单倍型；D’1说明两个位点间发生了历史重组，完全LD被破坏。但是当D’1时的一些中间值的意义是很难解释的（比如D’为0.3和0.7究竟有怎样的不同意义）。甚至在模拟情况下，相同距离的成对位点间的D’值也是高度可变的。特别的，当样本量比较少，SNPs的频率较低时，D’的估计值会偏大，这种情况下，甚至是连锁平衡的位点之间也能得到较大的D’值。因此只有统计学上显著性接近1的D’值才能提示这两个位点之间有较小的历史重组，中等程度的D’值不能用来比较不同研究中的LD程度。另一种LD的衡量值是r2（或∆2），代表两个位点之间的统计相关。r2=D2/(PAPaPBPb)，当r2等于0时也说明两个位点之间是完全独立的；但是与D’比较，r2=1有更严格的解释：两个位点的等位基因有着相同的频率，并且一个位点某个等位基因的出现完全预示着另一个位点相应等位基因的出现，这时候两个位点组成的四种可能单倍型中仅表现两种单倍型。r2在连锁不平衡作图中更加有用，因为其具有较强的群体遗传学理论基础和一些统计学上的优势：第一，r2的期望值和有效群体大小和重组系数相关，E(r2)=1/(1+4NeC)，其中Ne是有效群体的大小（effectivepopulationsize），C是重组系数;第二，r2有很好的取样特性，样本量和r2的乘积就是所观察到的关联水平尾概率对应的卡方值。在检测SNPs和致病位点之间的关联时，如果要达到同样的统计效力，所需用的样本量要增大1/r2倍。例如，假设SNP1与疾病相关，我们对它附近的SNP2位点进行基因分性，它们之间LD系数为r2=0.5。为了达到与SNP1位点检测同样的统计效力，必须把样本量增加2倍；第三，与D’相比，在同样长度的染色体范围内，r2往往要更低，这个特性能够帮助我们得到更高精度的基因定位。另外，r2较D’受样本量和等位基因频率的影响较小（但是影响仍然存在）。在评估连锁不平衡的过程中，显著性水平p也是一个很重要的参数，但由于显著性水平在很大程度上依赖于样本量的大小，因此它不能用于比较不同样本量得到的LD的程度。高强度的LD可能并不和显著性的p值相关，而低强度的LD在一个足够大的样本中则能得到显著性的p值。如果将表示两个位点间的LD程度的参数与它们是否关联的统计显著性结果相结合的话，就能较为可靠的估计LD。D值由control组来做，在符合HW平衡的前提下，control组的LD是可以代表整个群体的LD的，无论你用什么软件，最终tagSNP的选择都是基于control组的LDblock分布haplotype无论是case还是control都是以上述tagSNP为基础构建的，如果你做的case-control的associationstudy，那么就如同你所说的一样，分别做出case组和control组的haplotype频率，然后做个nxm的卡方拟合度分析就行了LD值D'R2计算2011-01-2513:54几个遗传学基本概念1.连锁不平衡2.linkerddimorphisms3.单倍型4.基因型的频率是如何计算的？（公式）5.等位基因的频率如何计算出来的？（公式）连锁不平衡分析在连锁不平衡程度的评估，复杂疾病精细定位以及研究人类的历史和迁移中得到了越来越广泛的应用。连锁不平衡又称等位基因关联（allelicassociation），其原理其实很简单。假定两个紧密连锁的位点1，2，各有两个等位型（A，a；B，b），那么在同一条染色体上将有四种可能的组合方式：A—B，A—b，a—B，和a—b。假定等位型A的频率为Pa，B的频率为Pb，那么如果不存在连锁不平衡（如组成单倍型的等位型间相互独立，随机组合）单倍型A—B的频率就应为PaPb。而如果A与B是相关联的，单倍型A—B的频率则应为PaPb＋D，D是表示两位点间LD程度的值。如果位点2上的等位型B与疾病易患性有关，那么将会观察到等位型A的频率在病人群体中高于对照群体。换句话说，等位型A与该疾病性状相关。事实上，可以检测遍布基因组中的大量遗传标记位点，或者候选基因附近的遗传标记来寻找到因为与致病位点距离足够近而表现出与疾病相关的位点，这就是等位基因关联分析或连锁不平衡定位基因的基本思想。等位基因(alleles)：同一位点上可能出现的基因，例如ABO血型基因基因型(genotype)：同一位点上两个等位基因的组合。基因频率(allelefrequency)：人群中一个等位基因占该位点全部基因的比例。基因型频率(allelefrequency)：人群中特定基因型占该位点全部基因型的比例。如同一位点上两个等位基因分别为A和a,则A的频率（p）和a的频率(q)的之和为1。即p+q=1A基因的频率为p，a基因的频率为q。该位点的基因型有三种，分别是AA，aa和Aa。基因型为AA的频率=p×p基因型为aa的频率=q×q基因型为Aa的频率=2×p×q单倍型也叫单体型,单体型(haplotype)是指一条染色体上紧密相连的两个或两个以上基因座一组等位基因的基因型，通常作为一个单位遗传不同基因座位的各等位基因在人群中以一定的频率出现。在某一群体中，不同座位上某两个等位基因出现在同一条单元型上的频率与预期的随机频率之间存在明显差异的现象，称连锁不平衡(linkagedisequilibrium)。由于HLA不同基因座位的某些等位基因经常连锁在一起遗传，而连锁的基因并非完全随机地组成单元型，有些基因总是较多地在一起出现，致使某些单元型在群体中呈现较高的频率，从而引起连锁不平衡。非常感谢二位的解释，受益非浅呀。以后又什么在请教了。贴出来和大家一起学习：假设在同一染色体上有临近的两个双等位基因位点A和B，4个等位基因的频率分别为PA、Pa、PB和Pb。如果两个位点之间完全独立分离，那么单倍型AB的频率的期望值为PA*PB，而如果观察到的实际频率为PAB，那么两个位点之间的连锁不平衡程度可以表达为如下式子：D=PAB-PA*PB虽然D能够很好的表达LD的基本含义，但是由于其严格依赖于等位基因频率（allelefrequency），故不适合应用于表述实际的LD强度尤其是进行不同研究的LD值的相互比较。几个常用于度量LD的符号中，最重要的是D’和r2，两者都是基于D，各有各的特点及用途。他们的数学表述如下式子：D’和r2值为零时，连锁完全平衡；D’和r2值为1时，连锁完全不平衡D’=D/DMaxDmax＝min(PAPb，PaPB)D’＝D/Dmax对于A、B两个位点，AI、BI两个等位基因连锁出现的频率为PII，AI、BI、A2、B2的频率分别为p1,q1,p2,q2；其中D＝PII-pIqI，Dmax＝min(p1q2，p2qI)r2=D/PA*PB*Pa*Pb当两个位点组成的可能4种单倍型只出现其中3种时，D’=1，即两个位点处于“完全连锁不平衡（completeLD）”。而D’1的时候，D’的数值究竟表征了多大程度的连锁不平衡，是很难做出准确判断的。另外，D’一个的重要特点是严格依赖于样品量的大小。如果样品量太小，D’值的实际含义很容易被“夸大”，尤其某个位点的其中一个等位基因的频率很低的时候。因此，较高D’值的背后，实际上可能是连锁不平衡程度很低的两个位点。统计学上较高D’值仅仅暗示了重组发生率较低。而普通程度的D’1不适合于度量LD，以及比较不同研究之间的LD程度。因此，使用D’作为LD程度的度量，需要做谨慎的评估和判断。如果用P值来描述LD，更须谨慎。因为P值严格依赖于样品量大小，故也不宜用于不同研究之间的比较。受益匪浅，谢谢