第一部分:SNPs多态性位点相关知识主要内容:一、单核苷酸多态性二、连锁不平衡分析三、单体型分析四、应用举例一、单核苷酸多态性(singlenucleotidepolymorphisms,SNPs)1.SNPs概念1)SNPs指染色体DNA序列中的某个位点由于单个核苷酸的变化而引起的多态性,在群体中的频率1%。SNPSNPAACACGATCCGCCATGATATCAGTGACCGTAAACACGATTCGCCATGATATCAATGACCGTA2)SNPs的基本类型SNPs属于二等位基因,有两种基本类型:转换:嘧啶置换嘧啶C-T,嘌呤置换嘌呤G-A颠换:嘧啶与嘌呤互换C-A(G-T)C-G(G-C)T-A(A-T)转换:颠换=2:1(G-A)GpC岛SNPs发生率较高,约占总SNPs25%,主要是C-T。可能胞嘧啶是最易发生突变位点;且大多数是甲基化的,自发脱氨基形成胸腺嘧啶。2.SNPs的特点1)数量多、分布广:一个个体至少携带300万SNPs,平均300-1000pb有一个SNPs。有学者推测基因组约有1000万个SNPs。2)相对稳定:每一代中每个核苷酸变异频率极低(10-8),且这种变化的随机性。3)易于快速筛查和基因分型:SNPs的二态性标记,非此即彼。有利于实现高通量、自动化的筛查和分析。3.SNPs的基因型1)a.人体除性染色体外,每个染色体都有两份,个体所拥有的一对等位基因的类型称作基因型。b.例如,一SNPs(A/G),则个体在该位点的基因型则:c.检定个体的基因型,被称作基因分型。2)基因型与表现型a.表现型(表型):指由不同基因型与环境共同作用,而生物体可观测到的物理或生理性状(如疾病)。b.寻找基因型与表现型的关系是遗传学的基本目标。基因型环境表现型(疾病)d.寻找基因型与表现型的关系是遗传学的基本目标。4.SNPs可用于发现致病基因1)a.大部分SNPs都不具有这种功能性的变异,但是可以作为寻找致病基因的标志(路标)。致病基因?SNP1?SNP2?SNP8在这…致病基因2)为了寻找致病基因所在的区域,可以将病人和正常人的SNPs等位基因的频率进行比较。SNPs-疾病相关性提示:致病基因可能存在于SNPs所在的染色体区域.5.SNPs分析:基于实验的分析方法1)未知SNPs温度梯度凝胶电泳(TGGE)、变性梯度凝胶电泳(DGGE)、单链构象多态性(SSCP)、变性高效液相色谱检测(DHPLC)、限制性片段长度多态性(RFLP)、随机扩增多态性DNA(RAPD);发现含有SNP的DNA链:测序2)已知SNPs突变错配扩增检验、实时定量PCR技术、焦磷酸微测序技术、荧光偏振光技术、基因芯片技术;提示:SNPs的实验分析方法可用于基因型的分析6.SNPs分析:基于公共数据库的方法1)利用数据库中的大量序列信息,采用生物信息学软件,用计算机自动识别,是发现SNPs的新策略和重要方法。2)与癌症和肿瘤相关的候选SNP数据库:3)适于生物医学研究的SNP数据库:4)人类SNP数据库:二、连锁不平衡分析1.连锁不平衡(一)连锁不平衡概念1)连锁不平衡(linkagedisequilibrium,LD),又称等位基因关联,是指同一条染色体上,两个等位基因间的非随机相关。即,当位于同一条染色体的两个等位基因(A,B)同时存在的概率,大于人群中因随机分布而同时出现的概率时,就称这两个位点处于LD状态。假设:位于同一条染色体相邻两个SNP:a.组合方式(单体型):AB,Ab,aB:ab。b.如果A与B无LD:两个SNP的等位基因相互独立,随机组合,概率为AB:Ab:aB:ab=0.25:0.25:0.25:0.25,AB组合的频率:fAB=fA×fB(等位基因频率)c.如果A与B存在LD:A与B连锁,当完全连锁时概率为AB:ab=0.5:0.5,AB组合的频率fAB=fA×fB+D,(D表示两位点间LD程度)d.LD定义式:D=fAB-fA×fB2)LD的产生原因:a.LD是由突变或重组形成的。在染色体某一SNP附近有新的突变产生时,则LD出现。重组的发生:两位点间LD程度↓b.理论上,LD强度与2个SNP间的距离有关:距离越小:发生重组机会越小→LD强;距离越大:发生重组机会越大→LD弱。c.实际上,也有距离很近不存在LD,而距离相当远(超过100kb)存在LD。3)LD的度量a.LD的度量一般不直接使用LD定义式,而对D进行归一化后,用LD系数D’和r2进行检验。b.取值范围:0(无LD)——1(完全LD)。︱D′︳=D2/min(fAfb,fafB)(D<0)︱D′︳=D2/min(fAfB,fafb)(D>0)r2=D2/fAfafBfb取值范围:0(无LD)——1(完全LD)。c.D′的意义D’是与频率无关的量,两位点间无重组时,D’=1I.D’=1称为完全LD,说明两个位点间没有发生重组;两位点组成的单体型最多出现3种。II.D’=0称为无LD或连锁平衡,即4种单倍型频率相等。III.D’<1说明两位点间发生过重组或突变;4种单倍型均可出现;D’相对值意义模糊。D’接近1:提示:两位点间发生重组的可能性很小;D’中间值:无法比较两位点LD的差别。D’值的95%可信区间(confidenceinteeval,CI)进行比较。d.D′值的95%可信区间(95%CI)I.95%CI:对每对SNP,采用重复采样算法(一般大于1000次),建立一个95%可信区间。II.95%CI的定义:区间上限值CU>0.98,区间下限值CL>0.70,区间上限值CU<0.90:“重组证明明显”;其余:“无提示意义”。e.r2的意义:I.r2是与频率有关的量,在两位点间无重组时,r2也不一定达到最大值1。II.r2=1说明两位无重组;4种单倍型最多只能出现2种(AB,ab),且等位基因频率相同。称为完美LD:观察一个标记即可得到另一标记的全部信息。III.r2=0与D’=0意义相同.IV.r2>0.33:提示“强LD”.D’=0,r2=0D’=1,r2=1D’=0,r2=0.33(二)影响LD的因素a.遗传漂变:群体较小,导致群体中基因频率随机波动的现象称为遗传漂变。一般认为:群体越小,漂变效应越大→LD程度↑。b.“奠基者效应”:是一种剧烈的漂变;指一个小群体从一个大群体中分离出来,并逐渐发展壮大的现象。“奠基者效应”→LD程度↑c.人口增长:人口增长会降低遗传漂变,LD强度减弱。群体的增长→LD程度↓;群体的再分→LD程度↑(“奠基者效应”)。d.重组率的变化:LD程度与重组率呈反比。重组率↑→LD↓重组区域→LD↓非重组区→LD↑e.突变率的变化:与重组类似,突变率↑→LD↓突变率高的SNPs间几乎无LD。f.基因转换:指染色体的部分片段在减数分裂过程中转移到另一片段的过程。基因转换在人类的发生率较高。类似重组或突变,基因转换→LD↓。基因转换对紧密相邻SNPs间的LD影响最大。3.基于SNP的LD关联分析a.在关联分析中,主要采用基于LD的关联分析。b.将LD应用于关联研究,可定位复杂的疾病基因。(三)基于LD的关联分析原理a.在关联分析中,主要采用基于LD的关联分析。b.将LD应用于关联研究,可定位复杂的疾病基因。1.基于SNP的LD分析原理基于SNP的LD分析原理2.LD作图a.LD作图是将一段基因的所有SNPs的LD关系标记在基因序列中。用来观察重组热点。b.作图方法有:(1)LD散点图(dotplot)以两个SNPs间的LD值与其两点间的物理距离(bp)绘图。用于观察LD与物理距离之间的关系,即SNPs间的LD延伸范围(extentofLD)(2)LD矩阵图(LDmatrix)以SNPs在基因序列中的位点组成阵列,将SNPs间的LD或P值填到相应的阵列中。可直接观察LD与物理距离bp之间的关系。LDmatrixforpolymorphicsiteswithinsh1.(3)邻近LD窗口分析(adjacentLDwindowanalysis)SNP1234567a.方法:是将相邻SNPs(1-2,2-3…)、间隔1个SNPs(1-3,2-4,3-6…)、间隔2个SNPs(1-3,2-5,3-6…),与其对应的LD值绘制散点图再连线即可。b.作用:观察强LD区域,分析推断在扫描的基因组区域潜在的重组热点(波谷或较低的LD区域)。c.CDKN1A基因调控区21个SNPs邻近LD窗口分析发现:在~2800bp有较低的LD值及波谷;提示:在该位置可能有较高的重组率。三、单体型分析1.单体型:一条染色体区域中所有SNPs等位基因的集合称为单体型或单倍型(haplotype)。a.单体型理论数量:有n个SNP→2n个单体型。如:SNP1(A,G)SNP2(C,T)AC、AT、GC、GTb.LD存在,实际上只存在少数几个常见的单体型:I.例如,在一段含有6个SNPs区域中,理论上应有26=64种单体型,实际上只有3种常见的单体型(频率90%)。II.对1和2:4种单体型中实际只有AC和GT是常见的。a.单体型块的形成:由重组区域所致。b.单体型块的大小:从lkb~数百kb;c.人体之间单体型块的大小及单体型种类非常相似;d.一个单体型块一般只有几个常见单体型,用几个SNP位点,就可以确定单体型块的类型。III.例如,Daly等用103个常见SNPs(频率5%),研究250个欧洲人5号染色体上500kb范围内的单体型结构。发现:a.500kb区段被分为11个单体型块;b.单体型块大小:3kb~92kb;c.每个单体型块中,有2~4个单体型,频率95%;d.单体型块:LD较高;重组区域:LD较低。DalyMJ,etal.High-resolutionhaplotypestructureinthehumangenome.NatGenet,2001,29(2):2292.标签SNPs(haplotypetagSNPs,htSNPs)htSNPs:指确定染色体某一区段的单体型结构所必须的、少量的、关键的SNPs。a.用htSNPs可以确定一个单体型或一个基因,从而使基因型的检测工作量大大降低。b.例如,有学者在研究疾病基因单体型时发现:2-5个htSNPs就可以确定单体型结构;基因型的检测工作量:从l22个SNPs减少到34个。JohneonGC,etal.Haplotypetaggingfortheidentificationofcommondiscasegenens.NatGenet,2001,29:233-237.3.单体型的确定方法:(实验法、系谱推断法、统计算法)I.实验法单分子稀释法(single-specificdilution);等位基因特异性PCR(AS-PCR法);长插入克隆法(long-insertcloning);双倍型-单体型转化(diploid-to-haploidconversion)实验法可以得到更多的信息,但由于费用昂贵,耗时长,因此不适合大规模应用。II.系谱推断法系谱推断法是依据家系中相关个体的基因型来确定单体型。该法可以为紧密连锁的SNPs(强LD)提供真实的信息,但当家系中某些成员的资料无法获得或数据缺失时,会使SNPs间的关系模糊不清,可能导致完全错误的单体型与疾病的相关结论。该方法仅适用于家系的单体型确定。III.统计算法目前最经济、最实用、应用广泛的单体型推断的方法。a.克拉克算法(Clark’s):是试图使观察样本中单体型数目最小化的一种算法。计算软件是Hapinferx程序。b.最大似然算法(Expectation-Maximization):采用EM算法进行样本单体型频率的最大似然估计。计算软件:Haploview和EH(estimationofhaplotype)。贝叶斯算法(Bayesian):按照在自然人群中的理论值预测单体型的类型。计算软件:Phasehttp://