草案的甜橙基因组

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

草案的甜橙基因组(类)文摘桔子是一种很重要的营养来源,人类健康和具有巨大的经济价值。在这里,我们提出一个综合分析基因组草案的甜橙(类)。装配序列覆盖87.3%的估计橙色基因组,这是相对紧凑,20%是由重复的元素。我们预测29445个蛋白编码基因,其中一半是杂合���状态。与其他两个柑橘类物种的测序和比较分析七个柑橘的基因组,我们目前的证据表明,甜橙起源于一个回交柚子和普通话之间的混合。集中在维生素C代谢相关基因分析表明,GalUR,编码galacturonate途径的限速酶,在橙果显著调节,这个基因家族的最近的扩张可能会提供一个基因组的基础。这个草案基因组代表一个宝贵的资源对于理解和改善在未来许多重要的柑橘类特征。left.图1.图2..图1.图2.图3.图4.介绍柑橘是一个大属,包括几个主要栽培品种,包括c.喹酮(甜橙),试(橘子和普通话),柠檬(柠檬),茅(柚子)和柑橘paradisi(葡萄柚)。2009年,全球种植面积是900万公顷,柑橘产量1.223亿吨(粮农组织统计,见url),这是排名最高的在所有的水果作物。1090万吨(价值$93亿)柑橘产品的交易在2009年,甜橙占大约60%的柑橘生产新鲜水果和果汁加工消费(粮农组织统计,见url)。此外,柑橘类水果和果汁是人类的主要来源,维生素C、人类营养的一个重要组成部分。柑橘类水果也有一些独特的植物特性,如珠心的embryony(珠心细胞可以发育成单性生殖的胚胎基因完全相同的母亲植物)。因此,体细胞胚胎的生长比合子的胚胎更大力的种子,种苗本质上是克隆母体的父母。这样citrus-unique特点阻碍了柑橘遗传和育种研究改进1,2。完整的基因组序列将提供有价值的遗传资源为提高柑橘作物。柑橘被认为是原产于东南亚3,4,5,种植的水果作物发生在至少4000年前3,6。甜橙的遗传起源并不清楚,虽然有一些猜测,甜橙可能来自一些原始的柑橘类物种的种间杂交7,8。柑橘也无患子目的顺序,一个妹妹MalvidaeBrassicales秩序,使其有价值的比较基因组学研究的模式植物拟南芥。我们旨在序列的基因组瓦伦西亚甜橙(c.sinensis简历。瓦伦西亚),其中一个最重要的全球甜橙品种培育和种植主要为橙汁生产。普通甜橙二倍体,估计九对染色体基因组的大小~367Mb9。降低测序基因组的复杂性,我们获得了双单倍体(dihaploid)来自瓦伦西亚甜橙的花药培养10。我们首先生成的全基因组鸟枪paired-end-tag读取从dihaploid基因组DNA序列,建立了一个新创作为柑橘参考基因组组装;然后我们产生鸟枪测序读从父母的二倍体DNA和单倍体的参考基因组的序列映射到瓦伦西亚甜橙获得完整的基因组信息。此外,我们进行了全面的转录组测序分析四个代表组织使用猎枪RNA序列(RNA-Seq)来捕获所有转录序列和paired-end-tagRNA序列(RNA-PET)划分的5′和3′末端的成绩单。DNA和RNA序列数据的基础上,我们橙色基因组的基因特征内容,杂合性和演化特性。基因组和转录组分析提出研究收益率甜橙的起源的新见解和维生素C的基因基础代谢和提供丰富的资源为柑橘育种和遗传改良的遗传信息。结果基因组测序和组装dihaploidDNA的甜橙(补充图17.85亿),我们生成高质量paired-end-tag测序读(2×100个基点)从不同的DNA片段大小(~300个基点,2kb,10kb和20kb)使用Illumina公司GAII编曲,碱基对覆盖率和代表214倍214倍的物理覆盖估计柑桔基因组(补充表1)。顺序读取被SOAPdenovo组装11和歌剧12,导致16890年组装序列重叠群(obasanjo49.89kb)和4811支架(obasanjo1.69Mb)(表1)。总叠连群序列长度(320.5Mb)涵盖了估计甜橙基因组的87.3%,超过135年80%的基因组组装支架大于713kb和8.2Mb。评估柑桔基因组组装的准确性,我们评估质量支架的BAC克隆分析,对准既定的柑橘遗传连锁图和细胞遗传学分析.表1:统计的甜橙基因组草案基因组大小的估计367MB染色体数目(2n)18总装配重叠群的大小320.5Mb多的重叠群(500个基点)16890年最大重叠群323.34kbobasanjo长度(重叠群)49.89kb支架(500个基点)4811年组装支架的总大小301.02Mbobasanjo长度(支架)1.69MB最长的脚手架8.16MBGC含量34.06%数量的基因模型29445/44387意味着记录长度1817个基点意思是编码序列长度1255个基点意思是外显子的长度312个基点意味着基因内区长度359个基点数量的预测microrna基因227年转位因子的总大小61.7Mb甜橙的BAC克隆库曾被构造和特点13,估计尺寸范围的BAC克隆插入120kb。我们选择个人BAC-end毛细管测序克隆。BAC-end735双的序列读取两端的一对映射在同一叠连群,的平均距离是125875±26788个基点(班)。这是与此前估计的BAC克隆的长度一致13,表明重叠群装配的正确性。进一步评估的准确性在当地组装,我们分析了七个完整BAC序列的甜橙基因库并锚定在甜橙遗传图谱。这些BAC序列之间的对齐和柑桔基因组装配显示整体的身份97.6%(补充图2和补充表2)。在一起,BAC克隆测序分析验证装配是高质量的。然后我们问的组装基因组序列建立了甜橙遗传连锁图14。我们绘制了支架-768标记与已知序列的基因连锁集团,和160年固定支架(每个10kb),占239Mb的柑桔基因组组装(补充表3)。此外,83年支架,占大多数的固定支架的长度(178.7Mb,或75%的总固定支架)是在匹配定位在遗传图谱(补充注意),这表明高锚定遗传标记之间的对齐一致和序列支架。对齐方式不一致可能反映了技术的准确性,如标记密度不足、基因分���错误或测序基因组之间的个体差异(瓦伦西亚甜橙)和遗传图谱,是基于三个三个甜橙品种之间穿过14。瓦伦西亚橙色是已知染色体重组相对于破旧的甜的橘子15。结合组装基因组序列和遗传连锁集团,我们构建了pseudomolecules为每个9染色体,命令他们在遗传的基础上长度(图1).图1:对齐的基因组序列组装的遗传图谱蛾。组装支架(蓝色,239Mb或组装基因组序列的75%)被锚定在9个联系组(LG1-LG9、黄色)与相应的遗传标记(黑酒吧)。pseudochromosome数据分配的基础上估计的长度遗传连锁群14.然后我们拍了一些细胞学标记,包括两种核糖体基因(45s和5s)和串联重复序列(107个基点),鱼分析进一步验证组装柑桔基因组序列的一致。细胞学上标记染色体显示初步一致性genomicallypseudochromosomes定义(补充表4)。例如,pseudochromosomes1和8,轴承45年代地区近端位置,对应两个b染色体,一个脆弱的网站(补充图3);pseudochromosome6,映射包含45支架和5s核糖体DNA序列在远端区域,对应于d类型染色体脆性位点;和染色体7包含大量的副本107-bp串联重复序列在两个远端位置,它对应于c型染色体(补充图3)。总的来说,我们的细胞学实验提供染色体sequence-matched证据1、6、7和8。其它染色体所需额外的细胞学证据。+*-+基因组特征大多数植物基因组与转座因子高度重复的地区特色和独特的基因编码区域。我们分析了柑橘在这两个方面揭示基因组基因的基本结构和功能特性。转座的元素是主要组件的植物基因组和基因组进化的重要贡献者。然而,很少有以前在柑橘转座的元素。橙色的基因转位因子分析,我们首先构建一个自定义数字转座因子库使用从头开始,同源性,基于结构转座因子预测工具,然后这个数据集应用于柑橘参考基因组注释。这种分析识别了61.7Mb的装配序列重叠群,占20.5%的c(基因组的补充表5)。这种级别的重复是拟南芥的类似16和大米17,这表明甜橙相对紧凑的基因组。类我长末端重复反转位子活动占据超过89%的转座的元素,包括198年Copia家庭和前者130年吉普赛家庭。类似于其他紧凑如拟南芥基因组18和大米19,每一个家庭的完整元素小于250成员,而超过90%的长末端重复逆转录转座子家庭只包含一个五个完整的元素。插入时间估计表明,80%以上的完整元素放大在过去的200万年里,和10%比50000年更年轻(补充表6)。相比之下,二类DNA转座子转座因子只有~11%组成的,类似于苹果20和木瓜21基因组。在二类DNA转座子,微型inverted-repeat转位因子(螨)占据了67%的序列。值得注意��是,我们发现了一个新型的螨虫,名叫MiM(螨插入微卫星),在柑桔基因组(补充表5).注释的柑桔基因组蛋白质编码基因,我们使用一个全面的战略,结合从头开始基因预测,蛋白质同源性搜索和实验支持(est,RNA-Seq和RNA-PET)(补充图4)。我们使用四个从头开始基因发现程序(Fgenesh、GeneIDGenscan和GlimmerHMM)repeat-masked基因组序列。此外,我们收集了917610蛋白质从UniProt数据库22和958121年柑橘EST读从基因库和生成9.646亿RNA-Seq读从四个柑橘组织(愈伤组织、叶、花和果实)(补充表1)。总的来说,我们鉴定了29445个蛋白编码基因座(基因模型)与44387年成绩单(图2和补充表7),23421个基因在9个pseudochromosomes分配模型。1817个基点的基因记录的平均长度,平均编码序列的大小1255个基点,平均5.8每个基因外显子。RNA-Seq和EST数据显示,有26%的基因模型(7640基因位点)编码的两个或两个以上的成绩单亚型(补充图5)。总体来看,85%的基因模型包含多个外显子(补充图5b),和99%的预测编码序列和80%的接头连接网站RNA-Seq支持的数据(图2b和补充表7),显示精度高的基因注释在橙色的基因组中。我们评估和纠正所有基因预测模型使用RNA-PET测序数据(互补RNA-Seq数据)标定基因边界(补充图6)。我们生成大约1亿RNA-PETs从四个组织(愈伤组织、叶、花和果实),用它们对地图、集群和基因组的注释(补充表1),确认70%的5′和3′边界的基因转录(图2c和补充表8)。值得注意的是,我们发现967744年的成绩单公认的基因模型完全的基础上结合RNA-Seq和RNA-PET数据(补充表9和补充图7),代表一个潜在的新和citrus-specific基因集合。此外,我们发现了一个181核糖体RNA,451转移核糖核酸,39个小核仁的RNA在柑橘类和104个小核RNA基因组(补充注意)。我们还发现了40守恒的微RNA(microRNA)有227个成员的家庭在橙色基因组的基础上,以前的小核糖核酸测序数据23(补充表10),大多数的microrna基因是均匀分布在整个基因组,与几个小集群(补充图8).图2:基因组特征。(一)圆形图描绘的九个甜橙基因组景观pseudochromosomes(Chr1~Chr9规模Mb)。每个轨道的外延上市是正确的。RPKM,每千碱基读取每百万映射读取外显子模型。(b)基因模型预测实验数据支持。离开时,箱线图RNA-Seq读取对齐的基因特性。顶部和底部的盒子显示上、下四分位数,分别。中间的红酒吧代表中间,红点表示每个特性的平均值。cd、编码序列。的权利,维恩图预测RNA拼接连接支持的各种证据(美国东部时间,蛋白质和RNA-Seq数据)。括号里的数字是每个类别接头连接的数量。(c)基因模型边界的界定RNA-PET数据。直方图的情节RNA-PET数据与一致的基因模型的5′(假定的转录起始站点,TSS)和3′(假定的保利(A)网站,PAS)边界。一)圆形图描绘的九个甜橙基因组景观pseudochromosomes(Chr1~Chr9规模Mb)。每个轨道的外延上市是正确的。RPKM,每千碱基读取每百万映射读取外显子模型。(b

1 / 20
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功