高通量测序技术在生物学中的应用主要报告内容高通量测序简介从头测序及其应用重测序及其应用转录组测序及其应用SmallRNA测序及其应用HGP项目:20世纪90年代美国能源部资助启动人类基因组计划,六个国家的科学家耗资4.37亿,于2000年完成人类基因组工作草图。方法和结果:应用分层shotgun+Sanger测序法,结果预测了31,000个基因,证明基因组的95%是非编码序列。意义:人类基因组测序的完成标志着分子医学时代的到来;此项目也催生了高通量测序技术。Nature(2001)409:860-921人类基因组从头测序分析分层的shotgun测序法Sanger测序技术PCR末端终止技术+电泳检测技术单个片段序列测定最高通量:小于4MB/天基于平板胶的测序技术96通道毛细管阵列高通量测序技术ShotGun文库构建DNA片段固定簇序列读取反应图像获得和处理序列组装和比较单条模板扩增1234TTTT…TGCT…123789456TTTTTTTGT…TGCTACGAT…高通量测序技术主要测序技术平台Metzker,NatureReviewsGenetics(2010)11:31主要报告内容高通量测序简介从头测序及其应用重测序及其应用转录组测序及其应用SmallRNA测序及其应用454技术完成5倍测序深度;GAII技术完成20倍测序深度;Sanger技术完成6倍覆盖度(Dallouletal.PLoSBiol(2010)8:e1000475)多种技术平台联合应用完成火鸡基因组从头测序测序数据统计火鸡基因组从头测序结果:覆盖火鸡基因组90%(0.92/1.1Gb),发现6MSNP,预测16K个基因。火鸡和家鸡测序拼接结果火鸡基因组从头测序发现了数千个禽类特有的基因,尤其是性染色体基因研究令人兴奋。禽类中的特有基因火鸡基因组从头测序为研究者提供火鸡质量和数量生产性状和抗病候选基因,加速了火鸡育种进展。与家鸡基因组比较火鸡基因组中20种基因家族的分布情况三种鸟类基因比对结果四种禽类不同氨基酸含量情况意义:第一个完全运用高通量测序技术模式完成的动物基因组从头测序;方法和结果:不同插入片段测序文库双末端测序技术的尝试:包括150bp、500bp、2kb、5kb和10kb不同插入片段,测序深度达73倍,覆盖94%的基因组区域;获得2.7MSNP位点,证明大熊猫仍然具备很高的杂合率和较高的遗传多态性;Lietal.,Nature(2009)463:311-317大熊猫基因组从头测序和组装大熊猫基因组从头测序和组装利用9个Sanger测序的BAC序列评价测序的质量,表明98%的BAC序列可以比对到scaffold上预测大熊猫约有21001个基因大熊猫与人、狗和鼠的基因进化分析测序数据与BAC序列比较构建不同长度的插入片段文库高通量测序基因组杂合度分析覆盖基因区估计得到框架图或更高覆盖度500bpfragment文库Paired-end测序,测序深度达到40×以上3KBMatepair文库Paired-end测序,测序深度达到60×以上10KBMatepair文库Paired-end测序,测序深度达到80×以上基因杂合度>5%,同时启动BAC-to-BAC测序基因组从头测序经典策略从头测序的数据分析和产出指标框架图覆盖基因组常染色体区域90%,覆盖基因区域95%,contigN50达到5Kb,scaffoldN50达到20Kb,单碱基错误率在万分之一以下精细图覆盖基因组常染色体区域95%,覆盖基因区域98%,contigN50达到20Kb,scaffoldN50达到300Kb,单碱基错误率在万分之一以下完成图完整的基因组序列,单碱基错误率在十万分之一以下从头测序的覆盖度指标从头测序主要数据分析原始数据比对组装结果统计覆盖度、深度评价基因注释比较基因组及进化分析蓝藻~1Mb线虫~100Mb果蝇100Mb人~3,000Mb基因和基因组进化小鼠~3,000Mb生物进化谱系树大鼠、小鼠、狗、大熊猫、牛……家鸡、火鸡……斑马鱼……拟南芥、水稻、杨树、酿酒葡萄、短柄草、黄瓜、高粱、玉米……1535个细菌基因组、49个真菌基因组和78个古细菌……利什曼原虫、椎体虫……四类蓝藻……隐藻……蜜蜂……单分子测序技术及其对从头测序的影响单分子实时测序,无需PCR扩增运行时间15min或者更短,读长达到5-50K,数据产出100-1000G;使人类基因组测序成本低于1000美元主要报告内容高通量测序简介从头测序及其应用重测序及其应用转录组测序及其应用SmallRNA测序及其应用瑞士和美国科学家对8个家鸡品系和1个野生品系进行测序该研究可以用于动物育种及提高家鸡在生物医药研究模式动物中的应用Rubinetal.,Nature(2010)464:doi:10.1038通过全基因组重测序分析鸡驯养过程中的位点选择通过全基因组重测序分析鸡驯养过程中的位点选择测序完成44.5倍测序深度,测序覆盖度达92%发现7,000,000SNP位点,约1,300插入/缺失位点研究发现基因功能缺失突变在鸡驯养过程中没有显著性作用缺失影响编码区的基因测序数据统计筛选到两个基因GHR(以前验证)和SH3RF2在育种中具有功能在400个F8群体中分析SH3RF2的缺失对鸡体重的影响表明SH3RF2是筛选不同鸡品系的一个重要指标通过全基因组重测序分析鸡驯养过程中的位点选择分析SH3RF2基因中科院上海生命科学院、北京基因组所等六家科研机构对150个水稻RIL系进行测序利用IlluminaGA,每16个样一个道,以3个碱基为标签,测序读长为36碱基,每个样的测序深度约0.02倍第一次利用全基因组重测序筛选SNP位点,对群体进行表型分析利用全基因组重测序分析表型差异利用全基因组重测序分析表型差异分析两个亲本的基因组差异发现1,226,791SNP位点,即3.2SNPs/kb分析150个RILs发现了1,493,461SNP位点,即1SNP/40kb实验设计与以前的该RILs的重组图谱比较分析,在150个RILs中鉴定出2334个重组框,平均每个框的大小约164kb利用slidingwindow方法分析SNP位点与表型间的关系与重组位点利用全基因组重测序分析表型差异Slidingwindow方法分析株高,共鉴定出4个QTL,其中贡献率最强的1个QTL位点含有一个sd1基因,该基因在2002年已被报道。表明利用全基因组重测序可以进行精确的QTL定位及基因定位利用全基因组重测序分析表型差异重测序生物信息学分析内容原始数据比对测序深度分布评价测序覆盖度评价SNP检测插入缺失检测结构变异检测SNP注释插入缺失注释结构变异注释Genetech公司(已被罗氏制药收购)生物信息学与计算机生物学部,与CompleteGenomics公司合作对一名烟龄超过15年,平均每天吸烟25根的原发性肺部肿瘤患者进行分析,将这名患者的癌细胞和相邻正常组织的基因组进行测序对癌细胞完成了60倍的测序深度,相邻正常组织完成了46倍的测序深度。(Leeetal.Nature(2010)465:473)肺癌组织的比较基因组学研究测序数据统计肺癌组织比较基因组研究发现了超过5万个基因点突变,其中530个得到确认,它们当中392个在编码区域,包括以前已知的变异,如KRAS“原致癌基因”突变和放大体细胞单核苷酸突变趋势和模式统计MAPK信号通路中多个基因的突变的作用模式肺癌组织比较基因组研究表明遗传上复杂的肿瘤可能包含很多部分冗余的突变,而且要识别复发性致癌“驱动突变”(drivermutation),将需要对很多尚未测序的样本进行测序。这些癌基因的发现对于未来研究肺癌靶向治疗,以及基因突变具有重要的意义犹他大学(Universityofutah),CompleteGenomics公司,华盛顿大学等对一对夫妻和他们的两个孩子进行了全基因组测序。这家的两个孩子都患有米勒综合征和原发性纤毛运动障碍,这两种疾病都是常染色体隐性遗传病测序深度分别为父亲88倍,母亲51倍,儿子52倍,女儿54倍Coachetal.,Science(2010)328(597):636–639应用全基因组测序技术在家系中分析遗传力父母和子女的测序覆盖度分别达到91%、85%、92%和91%与参考序列相比,96%序列至少在一个家系成员中被检测到,81%序列在家系四个成员中都检测到应用全基因组测序技术在家系中分析遗传力测序数据与NCBI参考基因组序列比较分析测序数据统计通过比较两代之间的基因组序列,科学家们对儿童基因组描绘出精确的重组图谱。这让他们校正了70%的测序错误,使测序准确率达99.999%。使研究人员精确确定了重组位点和稀有的单核苷酸多态性。在他们最终的分析中,只保留了四个候选基因的突变,包括已知在纤毛运动障碍中突变的基因以及导致米勒综合征的变异体应用全基因组测序技术在家系中分析遗传力重组图谱SNP分析这些结果暗示对任何简单的单基因遗传病,一个或两个家庭的全基因组测序就有可能鉴定出致病突变研究人员还第一次估算出两代人之间的遗传突变率,即基因组从一代人到下一代人的遗传过程中会发生多大程度的改变,约为1.1×10-8。结果发现,从父母到孩子的基因变异率仅为之前医学界预期的一半。应用全基因组测序技术在家系中分析遗传力哈佛医学院计算遗传中心主任GeorgeChurch提出PGP目标是创建一个包含100,000人、公众可以公开访问的在线基因库,帮助科学家了解基因之间的联系和遗传特征现已公布了1000人的基因组序列个人基因组测序是个性化医疗保健的基础个人基因组计划(PGP)和他的研究团队重测序意义在个体或群体水平进行差异性分析辅助分子育种,能够快速的进行种质资源普查筛选遗传进化分析及重要性状候选基因预测遗传疾病分析主要报告内容高通量测序简介从头测序及其应用重测序及其应用转录组测序及其应用SmallRNA测序及其应用RNA是遗传信息的载体应用RNA-seq分析葡萄浆果发育过程中转录组意大利维罗纳大学Vitisvinifera(葡萄)浆果发育三个阶段中(开花后5周、10周和15周,即着果期、转色期和成熟期三种发育阶段中)的转录组研究数据量超过59M的36至44bp读长,82%的测序序列能够比对到基因组上第一次使用RNA-seq分析葡萄浆果发育过程中的基因转录差异有参考序列分析92,051剪切点,大约0.8%剪切点参与385个基因的可变剪切与葡萄参考基因组(PinotNoir40024)比较,检测到85870个eSNP应用RNA-seq分析葡萄浆果发育转录组分析基因的可变剪切鉴定了浆果发育过程中的17324个基因,其中的6695的基因是以时期特异性方式表达的分析浆果发育过程中的marker基因,表明RNA-seq分析的准确性应用RNA-seq分析葡萄浆果发育转录组中科院上海生命科学院、北京基因组所和上海交通大学对一个japonica(Nipp)和两个indica(Gla4and93-11)发芽两周的样品进行转录组测序每个样本两个生物学重复,每个样本测三次,2×40碱基测两次和2×76碱基测一次第一次运用高通量测序分析转录组以鉴定外显子剪切位点运用RNA-seq对水稻转录组进行功能注释有参考序列与参考序列比较,约38.8%~57.3%能够比对到基因组的一个位置上共鉴定了15708个新的TARs(transcriptionalactiveregions)运用RNA-seq对水稻转录组进行功能注释测序数据统计新的TAR统计约48%的水稻基因具有可变剪切,这远远高于以前预测的频率检测到参考基因注释中的83.1%基因6228个基因的5’和/或3’末端至少比预测的延长50bp运用RNA-seq对水稻转录组进行功能注释