基于新一代测序技术的基因组学研究和系统育种策略许姣卉博士华大基因研究院科研合作总监xujh@genomics.org.cn技术是科学发现与产业发展的源动力1950196019701980199020002010测序技术的跨跃式发展进程DiscoveryofDNAstructure(1953)DevelopmentofSangerSequencing(1977)InventionofAutomatedFluorescentSequencer(1985)InventionofCapillarySequencer(1996)InventionofAppliedBiosystemsSolidSystem(2007)InventionofIlluminaGenomeAnalyzerSystem(2006)Inventionof454GS20Sequencer(2005)IlluminaSolexaFlowcellFlowcellAflowcellcontainseightlanesLane1Lane8•Eachlanecontainsmultipletiles–total100•Eachtileisimagedfourtimespercycle–oneimageperbaseImagefrom1tile焦磷酸测序边合成边测序边连接边测序1999200020012001200220082010CPU速度(每秒)十亿次百亿次千亿次千亿次七千亿次十万亿次存储能力8G1T3T10T30T670T1P百万亿次日新月异的生物信息技术碱基产量和测序成本反向曲线项目基因组大小花费时间总体费用单碱基费用测序策略测序技术人类基因组3G10年30亿美元1美元BTBSanger水稻基因组400M2年4000万RMB0.1元RMBWGSSanger家蚕基因组400M2年4000万RMB0.1元RMBWGSSanger黄瓜基因组360M18个月1500万RMB0.04元RMBWGSSolexa+Sanger藻苔基因组900M6个月1800万RMB0.02元RMBWGSSolexa+Sanger测序时间、费用的变化GrowthofNCBI010,00020,00030,00040,00050,00060,000198219841986198819901992199419961998200020022004200620082010年份十亿碱基(Gb)NCBI数据的变化新一代测序技术正在形成新的产业革命传统分子育种的两条思路种质资源基因工程育种分子标记辅助育种寻找分子标记寻找功能基因新的系统育种策略种质资源重测序数字表达谱比较基因组学连锁不平衡做图连锁分析突变体库遗传转化核心geneset100-1000基因组测序新品种种质资源GeneTestKits选择效率1000x育种时间1/2-1/3➀➁➂➃➄➅➆➇➈➉TraditionalfindingmethodThemethodonre-sequencing部分案例中国农业科学院蔬菜花卉研究所InstituteofVegetablesandFlowersChineseAcademyofAgriculturalSciencesWorkPlan151全基因组从头测序的应用•How?•BACtoBAC•WGS•组装质量?•测序序列长度•构建片段长度•测序深度•三个阶段•基因组调查(repeats,GC%,genedistributions)•框架图(contig5kb,scaffold20Kb,singlebaseerrorrate0.01%)•精细图(contig20Kb,scaffold300Kb,singlebaseerrorrate0.001%)WhyGenome?一个物种基因组序列图的完成,就意味着这一物种科研和产业革命性的新开端。——向仲怀院士DataanalysisToolsGenomeassembly:•RePS•SOAPGenomeAnnotation:•BGF•ReASComparativeGenomics:•FGF•KaKS_Calculator•CAT基因组生物信息分析:1、全基因组基因详细注释:a)基因组组分分析;b)编码基因预测;c)重复序列注释;d)Non-codingRNA基因注释;e)microRNA基因注释;f)tRNA基因注释;g)假基因(Pseudogene)注释2、基因功能注释:•GO注释(GeneOntology)a)InterproScan注释;b)调控Motif预测;c)Pathway注释;3、比较基因组及分子进化分析:a)物种特有基因组区段检测;•物种特有基因检测;•快速进化基因检测;a)共线性分析(SyntenyBlock)b)基因家族分析。2基因组重测序的应用WhyGermplasmgenomics?•对有参考基因组的群体/个体基因组测序可以检测到各种序列水平的变异,例如SNPs/Indels,Structurevariations,Copynumbervariations等。•通过对核心种质进行重测序以及与表型的关联性分析,揭示作物品种的多数等位基因变异。SNP的检测Deletion的检测测10X深度,覆盖95%的基因组–9311品系SNP的最低频率为1.5-2/kb,共获得80万SNP.–日本晴(粳稻)品系SNP的最低频率为3/kb,获得100万SNP.两个水稻品系的SNP检测个体水平研究水稻等栽培植物的起源模式和驯化的群体遗传学基础利用多位点核基因序列,结合叶绿体DNA等标记,研究水稻和重要栽培植物(茄子、茭白和香蕉)的起源地和起源时间;探讨其野生近缘类群中的遗传变异和群体遗传结构;探讨栽培植物驯化过程中的群体遗传动态和人工选择的后果重要家养动物的起源和驯化利用线粒体全基因组、Y(Z)染色体以及核基因,阐明家鸡、猪、马、牦牛、黄牛、水牛、绵羊和山羊等家养动物的遗传多样性及群体分化,揭示其起源地、驯化时间及迁移分化模式;探讨驯化过程中的创群者数量及其地理分布;发展新的性染色体和常染色体遗传标记系统,建立家养动物群体基因组学研究方法和技术体系和大数据集的数据分析方法。49个水稻品系的SNP检测群体水平研究25representativecultivatedricelines人工选择信号的鉴定1.πtest2.Tajima’sDWholegenomeSNPsSNPssurroundsh4SNPssurroundprog1脱粒基因形态相关基因3.Tree-basedselectiontests共鉴定出517个可能受人工选择的基因!E.g.家蚕重测序•40silkwormvarieties(29domesticatedand11wild)•~3-foldcoverageforeachDomesticatedgroupWildgroupTotalSNPGeneregion3,047,6262,922,4403,508,433TEregion3,374,9863,120,0873,801,067Total14,023,57313,237,86515,986,559IndelGeneregion60,37454,31867,369TEregion77,87163,10785,259Total281,185251,453311,608SVDeletion--34,677Insersion--80Duplication--327Total--35,093群体水平研究PhylogeneticrelationshipWildspeciesdomesticatedspecies受选择信号的鉴定华北类型欧洲温室日本少刺美国加工华南类型美国鲜食印度野生西双版纳100份核心种质资源重测序葫芦科比较基因组3023546718910Casestudy-CloningoftheMgene26,682基因组测序45遗传作图831关联分析比较基因组学数字表达谱0.2cM50个品种甜瓜的信息10个组织基因M甘氨酸非极性弱亲水半胱氨酸极性疏水MMmmm32性别基因M雌性基因F抗黑星病抗枯萎病抗白粉病叶苦Bi基因果实苦Bt基因强雌性基因In-F果实长度QTL瓜把长度QTL矮生基因叶面积Importanttraitgenesincucumber3转录组分析(RNA-Seq)TotalRNARichmRNA(polyARNA)Fragmentation(200~700bp)Oligo(dT)primedcDNAsynthesisSolexaadaptorSingle-end&paired-endSolexaSequencingRandomhexamerprimedcDNAsynthesisRNAfragment(200~700bp)RandomhexamerprimedcDNAsynthesisScheduleofExperimentDeNovoInreferenceInonecasesThreefishlinesGenomeSize~1.5GbInitialproject,wecanuse1GbperfishlineGenenumberreachto3000~5000(length1Kb)DeNovoRNA-seq快速获得参考基因库ExampleIIInsectGenomeSize~16Gor6GwithoutReferenceSequenceData:10GrawdataAssemblyResults:Morethan15,000Scaffolds(L1k)~(morethan15,000genesidentified)DeNovo更多深层次的应用领域转录本结构研究UTR鉴定;Intron边界鉴定;可变剪接研究;Startcodon鉴定;RNA编辑研究;基因融合的发现等;非编码区域研究基因转录水平研究基因表达差异;进化分析等全新转录区域研究InreferenceExampleIRice–TranscriptomeGenomeSize~400MbwithReferenceData:10Gb/sample(twosamples)Result:For27,655highcoveredgenes,8923genesre-defined,include11,208newexons,9,784intronsand3,186exonskippingevents.Aschematicrepresentationofcancer-specificalternativegenesplicing.PLoSONE.2009;4(3):e4732.应用举例Transcriptomesizeestimationonrice4数字表达谱(DGE)用测序取代芯片的技术革命基因表达研究进入数字时代mRNA产生标签CATGGCTGAAGTCAAGGATGTCATGGAAGGCAATCCCACATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGTTGAATCTGAAACCCTCATGGTTGAATCTGAAACCCTCATGGCTGAATCTGAGGCTCTCATGGCTGAATCTGAGGCTCTCATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGCTGAAGTCAAGGATGTCATGGCTGAAGTCAAGGATGT测序CATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGTTGAATCTGAAACCCTCATGGTTGAATCTGAAACCCTCATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAG