基本内容1234单核苷酸多态及数据格式GWAS关联分析技术SNP单倍型分析技术SNP数据分析软件操作一、单核苷酸多态及数据格式单核苷酸多态性(singlenucleotidepolymorphism,SNP)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。一、单核苷酸多态及数据格式突变率低,一次突变,遗传+自然选择使得等位扩增,snp多为二态AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT1chr6个体序列AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT2chr6AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr6AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT4chr6chr6(3)SNP数目:目前,测得大约1500~3000万个SNP位点(平均约每100~200bp)存在一个单碱基突变。(2)占所有已知多态性的90%以上。(1)理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但实际上,后两者非常少见,几乎可以忽略。注:一、单核苷酸多态及数据格式(4)从对生物的遗传性状的影响上来看,SNP又可分为2种:同义SNP(synonymousSNP),即SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同。非同义SNP(non-synonymousSNP),指碱基序列的改变可使以其为翻译的蛋白质序列发生改变,从而影响了蛋白质的功能。一、单核苷酸多态及数据格式人类基因组中3000万的SNP,遍布全基因组,由于其分布广、密度高、检测技术手段成熟,伴随和HapMap计划的完成和1000genome计划的开展,目前已被广泛应用于复杂疾病风险位点的检测中。一、单核苷酸多态及数据格式我们的目的:寻找哪些SNP标记与疾病相关—关联分析单核苷酸多态的测定及数据格式(1)PCR(2)SNP芯片(3)新一代测序技术一、单核苷酸多态及数据格式SNP1AGATA[A/C]GGCTAAACdbSNP&array:A/CdataPCRorGTTTTTAA[A/G]CCCCTTAGATACGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT1chr6AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT2chr6AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr6AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT4chr6SNP2A/GPCRorPCR和芯芯片技术AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT1chr21AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT2chr21AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr21AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT4chr211234C/AA/AC/CA/AG/GA/AA/GA/G等位1:A2:C1:A2:G野生型和突变型PCR和芯片技术,将染色体割裂,导致恢复原来真实相形困难SNP数据说明:SNPdatafile格式1:ped格式snpdata+infodata一、单核苷酸多态及数据格式SNPinfofile一、单核苷酸多态及数据格式SNP数据说明:SNPdatafileSNPinfofile一、单核苷酸多态及数据格式格式2:GWASdataformatsampleSNP一、单核苷酸多态及数据格式二、关联分析二、关联分析复杂疾病遗传关联分析:复杂疾病是由遗传因素与环境因素共同作用的结果,探索影响复杂疾病发生、发展的遗传因素,是遗传学的重要任务。研究人员期望从疾病个体和正常个体的比较中来发现基因组上的差别,进而寻找引起疾病的基因。目的:寻找哪些SNP与疾病相关?正常疾病AAATATTTATATATATSNP1SNP2关联非因果关联分析的类型关联研究的数据类型1、基于无关个体的关联分析基于无关个体的关联分析病例对照研究设计:主要用来研究质量性状,即是否患病。基于随机人群的关联分析:主要用来研究数量性状。2、基于家系数据的关联分析在研究基于家系的样本时,采用传递不平衡检验(TDT)等注:(1)家系数据分析遗传标记与疾病数量表型和质量表型的关联可以排除人群混杂对于关联分析的影响,但其在发现阳性关联的检验方面不如相同样本量的病例对照研究有效。(2)当前的人口状况使得大规模的家系数据很难获得,目前的研究中case-control研究居多。关联分析中SNP位点的质量控制1、最小等位频率控制最小等位基因频率:MAF(MinorAlleleFrequency):最小等位基因频率通常是指在给定人群中的不常见的等位基因发生频率,例如TT,TC,CC三个基因型,在人群中C的频率=0.28,T的频率=0.72,则等位基因C的频率为最小等位基因频率,MAF=0.28。在关联研究中,较小的MAF将会使统计效能降低,从而造成假阴性的结果。通常情况下要求MAF0.01或0.05注:1、通常MAF0.01或0.05的SNP称为commonSNP;MAF0.01或0.05的SNP称为rareSNP2、常见疾病,常见变异假说。注:发表此类paper,质量控制要占一段。关联分析中SNP位点的质量控制2、Hardy-Weinberg平衡控制Hardy-weinberg平衡定律:在理想状态下,各等位基因的频率和等位基因的基因型频率在遗传中是稳定不变的,即保持着基因平衡。注:H-W检验p值显著性水平0.001或1E-6P(AA)=p2P(Aa)=2pqP(aa)=q2Hardy-Weinberg平衡检验例关联分析中SNP位点的质量控制关联分析中SNP位点的质量控制3、SNP分型成功比例控制一般情况下,某个SNP在所有样本中的分型成功率(callratio)要控制在75%以上,否则不能通过质量控制,该SNP将从分析数据中去掉。关联分析中SNP位点的质量控制4、样本的基因型缺失比控制对于基因组范围内关联分析而言,对于一个需要检测的样本,一般情况下,某个样本所对应的所有SNP的分型成功率要控制在75%(或95%)以上,否则不能通过质量控制,该样本将被从分析数据中去除。关联分析中SNP位点的质量控制5、孟德尔错误控制对于家系数据的分析而言,父代-子代之间满足孟德尔遗传,对于那些孟德尔错误出现次数超过指定次数(1次或2次)的SNP,将被从数据分析中去除。关联分析的理论基础关联研究的理论基础连锁不平衡—关联分析的理论基础Chromosome连锁不平衡区域SNP2SNP1SNP3SNP4疾病位点1111222212122121()()ABABABABABABABABDPPPPPPPPPPPPmaxDDD1212AABBDrpppp2r关联检验的模型假定:某个SNP位点有两个基等位A、a,形成三个基因型:AA、Aa、aa。当我们检测该SNP位点与疾病的关系时,我们不知道等位以何种方式起作用(等位、基因型、显性、隐性)。开始检测之前A、a地位相同,我们假定A为minorallele,对两个等位加以区别。SNPAaSNP1T(0.2)G(0.8)SNP2A(0.17)T(0.83)SNP3G(0.43)C(0.57)SNP4C(0.33)T(0.67)关联检验关联检验关联检验的模型1、GenotypicModelHypothesis:all3differentgenotypeshavedifferenteffectsAAvs.Aavs.aaGenotypicModel的卡方检验:NullHypothesis:IndependenceAAAaaacasesnAAnAanaacontrolsmAAmAamaajiijH..0:df=2关联检验cellsall22E)(OEChi-squaredTestStatistic:OistheobservedcellcountsEistheexpectedcellcounts,undernullhypothesisofindependence关联检验AAAaaaRowSumcases82666100controls701911100ColumnSum784577200ObservedMatrix:关联检验ExpectedMatrix:AAAaaaRowSumcases3922.538.5100controls3922.538.5100ColumnSum784577200例:AAAaaaRowSumcases82666100controls701911100ColumnSum784577200ObservedMatrix:关联检验ExpectedMatrix:AAAaaaRowSumcases3922.538.5100controls3922.538.5100ColumnSum7845772005.38)5.3811(5.22)5.2219(39)3970(5.38)5.3866(5.22)5.2226(39)398()(22222222allcellsEEO关联检验关联检验的模型2、DominantModelHypothesis:thegeneticeffectsofAAandAaarethesame(assumingAistheminorallele)AA+Aavs.aaDominantModel的卡方检验:NullHypothesis:IndependenceAA+AaaacasesnAA+nAanaacontrolsmAA+mAamaajiijH..0:df=1关联检验cellsall22E)(OEChi-squaredTestStatistic:OistheobservedcellcountsEistheexpectedcellcounts,undernullhypothesisofindependence关联检验AAAaaaRowSumcases82666100controls701911100ColumnSum784577200AA+AaaaRowSumcases61.538.5100controls61.538.5100ColumnSum12377200ObservedMatrix:关联检验ExpectedMatrix:例:AA+AaaaRowSumcasesnAA+nAanaacontrolsmAA+mAamaaColumnSumAA+AaaaRowSumcases3466100controls8911100ColumnSum12377200DominantModel:ObservedMatrix:5.38)5.3811(5.61)5.6189(5.3