全基因组关联分析2概念引言全基因组关联分析——英文名字叫Genome-wideassociationstudy简称——GWAS全基因组关联分析——是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病/性状相关的SNPs。3概念引言全基因组范围内的SNP4概念引言全基因组范围内的SNP对某一复杂疾病/性状的影响——关联身高间的差异5单基因遗传背景利用家系连锁分析的定位克隆方法,发现了大量单基因疾病,如囊性纤维化病、亨廷顿病性痴呆亨廷顿病性痴呆囊性纤维化病6单基因遗传性状背景7单基因遗传性状背景8家系连锁分析的定位克隆背景单基因家系连锁分析9背景但对于复杂疾病,连锁分析的作用非常有限。10研究基础进行GWAS时,选择的表型定义要准确和精确应尽可能选择那些可定量反映疾病危险程度的指标、可用于分析疾病临床亚型的特征,或可用于诊断和鉴别诊断疾病的表型特征。缺血性脑卒中可能涉及血栓脱落或者脑动脉粥样硬化等不同的发病机制,但在人群中却常常同时出现而难以区分11研究基础单核苷酸多态性(SNP)和拷贝数变异(CNV)—GWAS的主要对象随着人类基因组单体型计划的完成,收录了成千上百万的SNP,SNP是人类基因组中最常见的遗传变异,现已被用作第三代遗传标识。CNV是指与参考序列相比,基因组中≥1kb的DNA片段插入、缺失和/或扩增,及其互相组合衍生的复杂染色体结构变异。发现了成千上万的基因组拷贝数变异(copynumbervariations,CNV),它们能显著影响基因的表达。12研究基础基因组单倍体图谱计划(InternationalHumanHapMapProject)的实施和基因连锁不平衡13遗传标记的选择SNP基于单倍型图谱(HapMap)可以选择五十万到一百万个覆盖全基因组的SNP用于GWAS。CNV基因组拷贝数变异(copynumbervariations,CNV)是指与参考序列相比,基因组中≥1kb的DNA片段插入、缺失和/或扩增,及其互相组合衍生的复杂染色体结构变异14SNP单倍型,是单倍体基因型的简称,在遗传学上是指在同一染色体上进行共同遗传的多个基因座上等位基因的组合15CNV2004年,Iafrate等和Sebat等首次描述了人类基因组CNV,2006年Redon等确定了覆盖12%(300Mb)人类基因组的1447个CNV区域(CNVregion,CNVR)CNV可能通过数量作用和质量作用两种机制引起的基因剂量改变导致表型改变,所以CNV全基因组关联分析(CNVassociationanalysis)可能更容易检测到致病遗传变异16CNV2006年11月23日,一个国际研究小组在Nature(2006,444:444)上发表研究报告称,通过分析270名亚洲、非洲和欧洲健康者的DNA样本,发现了约2900个基因(至少占人类基因总数的10%)含有特异DNA片段拷贝数变异(CNV)。研究者认为,这些变异会影响基因活性,造成疾病易感性的个体差异。此前学术界认为人类个体间基因组序列一致性达99.9%,该研究结果对此提出了置疑。另外,随着第一代人类基因组拷贝数变异图谱的完成,人们审视疾病与基因的关系又多了一种视角,除了检测单核苷酸多态性(SNP),或者显微镜检染色体异常外,还可对中间长度(数百万核苷酸)的DNA片段变异进行评价。17CNV染色体左侧的线条表示DNA丢失的范围;右侧的线条表示DNA增加的范围,粗线条表示扩增.CGH检测31例肝癌DNA变异频率结果图.18研究基础基因分型技术和遗传信息学的发展近年来,基因分型技术不断进步,分型成本显著降低,以基因芯片技术为代表的超高通量分型技术更是得到了飞速的发展全基因组测序商业化和公司之间的竞争使得基因组测序成本越来越低19截止到2010年12月,已经陆续报导和公布了关于人类身高、体重、血压等主要形状,以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种疾病GWAS的结果。累计发表了近万篇论文(9900篇)。确定了一系列疾病发病的致病基因、相关基因、易感区域和单核苷酸多态性(SNP)的变异,取得了很大成绩。“GWAS第一次高潮”成果20成果截止到2010年12月GWAS发现的与人类性状或复杂疾病关联SNP位点(p5×10-8)不同颜色圆点代表不同性状或疾病21“GWAS第一次高潮”成果GWAS方法学(如研究设计、统计分析、结果的解释)也取得了极大的进步22进行GWAS时需满足病例必须携带导致疾病的遗传因素选择覆盖全基因组的SNP或CNV研究样本量达到足够的检验效能采用高效可靠的数据分析方法以及进行重复验证检验等条件23研究方式24研究方式25研究方式GWAS目前分为单阶段研究和多阶段研究单阶段研究即选择足够的样本,一次性在所有研究对象中对选中的SNP进行基因分型,然后分析每个SNP与疾病的关联,在早期GWAS多使用GWAS目前分为单阶段研究和多阶段研究单阶段研究即选择足够的样本,一次性在所有研究对象中对选中的SNP进行基因分型,然后分析每个SNP与疾病的关联,在早期GWAS多使用GWAS目前分为单阶段研究和多阶段研究单阶段研究即选择足够的样本,一次性在所有研究对象中对选中的SNP进行基因分型,然后分析每个SNP与疾病的关联,在早期GWAS多使用26研究方式多阶段研究多为两阶段研究694个体→923个体→27两阶段研究第一阶段的分析可以是以个体为单位,也可以采用DNApooling的方法,筛选出较少量的阳性SNP注意:要保证SNP的敏感性和特异性后者简单,但误差大,其估计的等位基因的频率标准差在1%—4%之间,对检验效能有重要影响第一阶段的分析可以是以个体为单位,也可以采用DNApooling的方法,筛选出较少量的阳性SNP注意:要保证SNP的敏感性和特异性后者简单,但误差大,其估计的等位基因的频率标准差在1%—4%之间,对检验效能有重要影响28两阶段研究第二阶段采用更大的样本对第一阶段筛选出的阳性SNP进行分析注:应用大样本人群甚至在多种人群中进行基因分型验证29遗传统计分析GWAS比较每个SNP等位基因频率差别多采用4格表的卡方检验,同时需对如年龄、性别等主要混杂因素采用Logistic回归分析。在GWAS中,人群分层(populationstratification)和多重假设检验调整(multipletestingadjusting)是引起研结果分析误差的最主要原因30人群分层人群分层是导致许多大样本研究出现假阳性或假阴性结果的一个主要原因如Campbell等(2005)采用欧裔美国人研究与身高表型乳糖酶基因型的关联,其结果在其他人群难以重复的原因即是受研究对象在不同地域存在极大差异引起的人群分层影响人群分层产生的问题即使在研究对象是同一种族人群时也仍然存在,而且现有的研究方法尚未能有效地解决此类问题一种可能的策略是采用基于家系的关联研究,该方法可以避免人群分层对关联分析结果的影响31群体分层32如果采用较为宽松的多重假设检验方法就可能导致I类错误,出现大量的假阳性关联;但是如果采用最为严格Bonferroni校正,则又可能导致过度校正,结果使假阴性概率增加,而与疾病真正关联的SNP难以发现。二、多重假设检验结论:GWAS不能仅凭P值判断某个SNP是否与疾病真正关联,多种族、多群体、大样本的重复验证研究(replication)才是提高检验效能、确保发现真正疾病关联SNP的关键。33局限性通过统计分析遗传因素和性状/复杂疾病关联确定与特定性状/复杂性疾病关联的功能性位点存在一定难度——同义突变、不在ORF等。例如:胰岛素基因启动子中的遗传变异增加Ⅰ型糖尿病风险SNP在RNA的转录或翻译效率上发挥作用,可能在基因表达上产生短暂的或依赖时空的多种影响,刺激调节基因的转录表达或影响其RNA剪接方式。因此,研究者在找寻疾病相关变异时,应同时注意到编码区和调控区位点变异的重要性。34局限性大部分常见遗传变异可能通过单独或联合作用轻度增加疾病发生风险,而这些变异仅可解释部分人群中因遗传引起的表型变异。35局限性最后,GWAS是一种发现符合常见疾病-常见变异假说(commondiseasecommonvarianthypothesis)相关位点的方法,其可以确定相关位点但不能直接确定基因本身,且在任何特定人群中GWAS都不能方便地识别罕见的风险等位基因位点(下图)36局限性37反思“所有的改变,即使是最令人期待的,也有令人惆怅的一面,我们抛在脑后的一切仍如影随形”—阿纳托尔·法朗士(AnatoleFrance,1844~1924)现在发现这种全基因组分析是高出低收:昂贵的全基因组关联研究(每人份的花费预计高达数百万美元)所得的结果庞杂无序,大多数的基因变异与疾病并不关联。在已实施的100余项GWAS和几千例患者样本的分析结果发现,许多基因变异都是罕见的基因变异而不是关键基因,有一些变异仅仅与疾病危险因子、诱发因子、影响因子有关,而不是疾病直接相关联的基因38反思在疾病/性状的发生过程中,基因是重要的,但不是唯一的,除了基因以外,还有RNA、蛋白质等;除了基因变异以外,还有转录、翻译、表观(epigenetics)、构象、调节和功能的变化等。最近国际基因组研究团队在冷泉港开会,研究、调整、部署下一阶段基因组计划。提出应以“外显子”为全基因组分析的中心。因为已发现多数与疾病相关联的基因变异都发生在外显子,而且外显子数量少,功能明确,分析相对容易、经济。39反思所得的结果庞杂无序,大多数的基因变异与疾病并不关联。在已实施的100余项GWAS和几千例患者样本的分析结果发现,许多基因变异都是罕见的基因变异而不是关键基因,有一些变异仅仅与疾病危险因子、诱发因子、影响因子有关,而不是疾病直接相关联的基因流行病学家JohnIoannidis说:“大多数已发表的研究都是错误的。”他认为,太多的科学家们急功近利地寻找种种基因变异与某一疾病发生风险之间的关系,而杂志社又急于发表描述这类关系的研究论文。40美国加州一个与硅芯片相关的潜力大产业正在这里兴起,那就是基因组测序技术产业。一家名为“整合基因”(CompleteGenomics,CG)的公司专为科学家提供外包的测序服务,更绝的是,在这家公司里做测序的,并不是研究人员,而是一排排的机器人目前CG公司只针对研究者和制药公司开放,个人还没法购买他们的服务。在这里,每对基因组测序要价9500美元,如果购买1000对以上,则每对价格降为5000美元。这个价格是随着基因组测序技术突飞猛进而急剧下降的,要知道,十年前,第一对人类基因组序列完成时,其价格是以十几亿美元计量的。资料扩展41资料扩展工作人员正在蓝色幽暗的“车间”内操作检测设备。CG公司的基因组测序工作完全由机器人完成。42资料扩展5月19-21日,由国际知名的自然出版集团(NaturePublishingGroup)与安徽医科大学共同主办的2011年度全基因组关联分析研究国际论坛(2011GenomeWideAssociationStudy)在安徽医科大学隆重举行。此次论坛的主题是“全基因组关联研究2011:机遇与挑战”(GWAS2011:Opportunityandchallenge)。专家代表紧紧围绕全基因组关联研究在发现常见疾病易感基因应用过程中出现的常见问题、技术难点及其发展方向,以及对全基因组关联研究推动转化医学进程进行了深入而广泛的研讨。43小结GWAS的概念与传统关联分析方法的比较单基因性状家系连锁分析研究基础表型选择研究对象——SNP与CNV技术支持GWAS研究成果研究方式未来发展展望——反思44谢谢观看!