2016.09.21基因组学黄学辉中国科学院上海生命科学研究院植物生理生态所/国家基因研究中心2016年Bio2000分子生物学课生命的奥秘蕴藏于“四字天书”中基因组复杂度提升第一代测序技术(Sanger法)读长能达到近1000bp,序列高度准确(千分之一的错误);一代测序的通量低(一天几Mb数据)、费用高。DNA测序方法的发明人——FrederickSanger1918年8月13日-2013年11月19日)是一位英國生物化學家,曾經在1958年及1980年兩度獲得諾貝爾化學獎第一次是发明了蛋白质序列测定;第二次是发明了DNA序列测定。WellcomeTrustSangerInstitute第二代测序技术读长超过100bp,序列有一定错误(百分之一的错误)通量高(Tb级数据量)、费用比一代测序低了几个数量级。第三代测序技术目前仍无真正意义上的、成熟的三代测序技术目标:保证高通量的同时实现长片段、单分子和测序的便捷性参考基因组的测序战略基于物理图的克隆连克隆法全基因组鸟枪法(CraigVenter)染色体BAC重叠群BAC亚克隆重叠群克隆连克隆测序战略示意图人类基因组计划人类基因组计划(humangenomeproject,HGP)于1990年正式启动的。美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。人类基因组计划与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划。被誉为生命科学的“登月计划”。人类基因组计划2000年6月26日,参加人类基因组工程项目的美国、英国、法兰西共和国、德意志联邦共和国、日本和中国的6国科学家共同宣布,人类基因组“草图”的绘制工作已经完成。序列错误率低于万分之一,覆盖95%的区域,每个Gap小于150kb。完成图于2003年左右公布,比预计提前2年。全基因组鸟枪法matepair(3k,8k,20k)S75rawreadsContigsScaffoldsSuperscaffoldsFosmidends(40k)rawreadsFosmidSuperscaffoldsscaffoldsAssemblystrategyChromosomesLinkagemap完成参考基因组测序的动物完成参考基因组测序的植物最后的一根硬骨头:小麦基因组异源六倍体17Gb的基因组80%为重复序列小麦基因组测序计划目前3B(法国)染色体草图初步完成基因组学≠参考基因组测序基因组浏览器——可视化转录组和表观组使用亚硫酸氢盐处理DNA结合鸟枪法测序已成为研究DNA甲基化的新方法:先将基因组DNA片段变性,然后用亚硫酸氢盐处理,可以将其中未甲基化的胞嘧啶(Cytosine,C)转换成尿嘧啶(Uracil,U),再通过PCR技术扩增后把尿嘧啶转换成胸腺嘧啶(Thymine,T)。相反,未转化的甲基胞嘧啶,最终以胞嘧啶形式被检测到。通过与参考基因组的比较分析,可以获得全基因组中不同时空下的甲基组化图谱.RNA-SeqBS-SeqHumanENCODEprojectDNA元件百科全书(英语:EncyclopediaofDNAElements,简称为ENCODE计划)是一个由美国国家人类基因组研究所在2003年9月发起的一项公共联合研究项目,旨在找出人类基因组中所有功能组件。这是既完成人类基因组计划后国家人类基因组研究所开始的最重要的项目之一。所有在该项目中产生的数据都会被迅速的在公共数据库中公开。2012年9月5日,该项目的初步结果被整理为30篇论文并发表于《自然》、《基因组生物学》及《基因组研究》中。这些发表的论文显示人类基因组内的非编码DNA至少80%是有生物活性的,而非像之前认为的仅仅是“垃圾”。这个结果非常重要,因为人类基因组中98%的DNA是非编码的,意味着它们并不直接编码任何蛋白质序列。ENCODEdataintheUCSCGenomeBrowser物种内部的遗传多样性帮助我们获知很多生命活动的遗传机制;在医学和农学上有它的实际应用价值。基因组重测序在生物领域的应用通过了解人种差异及群体迁移等历史驯化——从野生种到农家种Along-termselectionexperimentinawiderangeofmorphologicalandphysiologicaltraits.WildriceDomesticationLandraceElitevaritiesGeneticimprovement基因组重测序和基因分型Thenextgenerationsequencingtechnologies欢迎各位同学前来参观中国科学院植生所物所来参位同前来ReferenceReads观中中国Alignment欢迎各位同学前来参观中国科学院植生所物所来参位同前来观中中国Variation生-物其他复杂变异转座子——一种可移动的遗传因子TheTEinsertioninthePigmentGeneaffecttheSynthesisofthePurplePigment.Feschotteetal,Nat.Rev.Genet.3(5):329-341(2002)•转座子类型DNA转座子逆座子•植物基因组水稻:~40%高粱:~60%玉米:~80%小麦:~80%ALocalViewofTransposonInsertionPolymorphisms(TIPs)序列变异类型和频率ForwardGenetics——associateunderlyinggeneticfactorswithaspecifictraitAssociationmappingNaturalpopulation,e.g.ecotypes,landraces,cultivarsLinkagemappingArecombinantpopulationfromexperimentalcrosses,e.g.F2,RILTraditionalmethods–PCR–RFLPI–RAPD–DNAsequencing–DNAchipGenotypingGenotypingistheprocessofdeterminingdifferencesinthegeneticmake-up(genotype)ofanindividualbyexaminingtheindividual'sDNAsequenceusingbiologicalassaysandcomparingittoanotherindividual'ssequenceorareferencesequence.Itrevealstheallelesanindividualhasinheritedfromtheirparents.High-throughputsequencingbasedgenotyping1-SamplePreparation2a–ClusterGeneration2b–FlowCell4–DataAnalysis3–GA(IIx)基因型鉴定方法HuangandHan,2014Recombinationpopulations•F2•Backcross(BC)•Doublehaploid(DH)•Recombinantinbredlines(RIL)•Chromosomesegmentsubstitutionlines(CSSL)•Singlesegmentsubstitutionlines(SSSL)•Near-isogeniclines(NIL)–ThebasisforMendel’sfirstgeneticexperiments~150yearsago–Thekeytothestudyofgenesandgeneticvariationtodayinplant重组自交系的图谱和连锁分析QTL(数量性状位点)初定位–对多个性状同时进行QTL定位,定位分辩率主要取决于群体大小和基因型密度。–对主效的几个QTL构建替换系后产生大样本进行图位克隆。ChromosomeSegmentSubstitutionLines(CSSLs)Simplifymap-basedcloningofQTLsConstructedaplatformforQTLmappingConstructedaplatformforricebreedingXuetal.BMCGenomics2010.RecombinationmapofCSSL_i#C50AlargesegmentwassubstitutedbyNipponbaregenomeonChr6Xuetal.BMCGenomics2010.CSSL_iandCSSL_j1,163,670SNPsbetweenparentsTraitLODR2(%)AddictiveChrMbqPH111.884.6817.2614.2-7.1qPH247.6327.97-19.19137.7-40.3qPH39.484.1812.53727.4-28.6qHD151.981.890.4714.2-7.1qHD232.250.88-0.4120-1.45qHD353.051.970.442727.4-28.6qHD48.470.54-0.041111.2-13.6qHD55.700.54-0.011116.6-17.2QTLsPlantheightHeadingdatesd1SNPH1LDBlock1LDBlock2StrongcorrelationStrongcorrelationNocorrelationTagSNP1StrongassociationbetweenaphenotypeandatagSNPStrongassociationbetweenaphenotypeandtheLDBlockH2H3H4H5H6H7H8McCarthyetal.NatRevGenet,9,356-369(2008)Genome-wideassociationanalysisoffatmassidentifiedthreeobesitygenes.Genome-wideassociationstudyinHumanHapMap基因组变异与标签位点大型矩阵:单倍体与变异位点ThepioneerworkinhumanGWAS7种常见病:躁郁症、冠状动脉病、局限性回肠炎、高血压、风湿性关节炎;1型糖尿病;2型糖尿病.每种病2000个病人和3000个正常人,对全基因组50万个SNP位点进行扫描和关联分析。7种病一共定位到了24个位点2005年,Science杂志报道了第一篇GWAS研究——年龄相关性黄斑变性人类GWAS的发展历程截至2010年底,单是在人类上就有1212篇GWAS文章被发表,涉及210个性状。目前GWAS研究主要采用两阶段或多阶段方法:在第一阶段用覆盖全基因组范围的SNP进行对照分析,统计分析后筛选出较少数量的阳性SNP进行第二阶段或随后的多阶段中采用更大样本的对照样本群进行基因分型,然后结合两阶段或多阶段的结果进行分析。GWAS最大的局限性:同一疾病由大量的、不同的低频变异决定;比如1万人得了同一种病,其中10人是由于基因A发生了变化,20人是由于基因发生了变化…而统计学对低频变异毫无办法,唯有提高样本量。复杂性状的GWAS——极大的样本量体重指数;34万人;97个位点;总共解释2.7%的表型变异ExperimentaldesignforGWASinplant•SchemeADeepsequencingfor1000linesHigh-qualitySNPsGenotypedatasetwithraremissingdata•SchemeBDeepre-sequencingfor30linesSelectionof~1MtagSNPsDesignofgenotypingmicroarrayGenotypingof1000linesusingmicroarray•Sche