DDBJ日本基因数据库

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

日本DNA数据库有关人类遗传与表型数据的基因型与表型档案摘要:日本DNA数据库中心(DDBJ)对生物信息保持并提供公共的存档、检索和分析服务。自从2013年10月,日本DNA数据库中心已经与我们的伙伴研究所日本科学技术振兴机构(NBDC)的国家生物科学数据库中心合作操作管理日本基因型与表型档案(JGA)。日本基因型与表型档案室能安全的存储收集自已经同意仅为特定的研究应用而授权数据发布的个人的基因型与表型数据,DDBJ中心为它提供数据库系统。NBDC拥有为共享来源人类数据制定的指导方针和政策并复查研究人员提交的数据和使用要求。除了JGA项目,日本DNA数据库中心还与生命科学中心合作发展了语义网技术以供数据整合和共享。本文介绍了JGA工程的概况、DDBJ数据库的更新和数据检索、分析与整合服务。1介绍自从1987年,国立遗传研究所的日本DNA数据库中心与国家生物技术信息中心的基因银行和欧洲生物信息学研究所欧洲分子生物学实验室银行合作收集了注释的核苷酸序列,它们都是国际核酸序列数据库合作联盟组织。为应对最近激增的新一代测序活动,DDBJ中心已经推出了新的数据库,包括从新一代测序平台上读取生物原料和校准数据的序列读取档案,(SRA),测序项目元数据的生物项目和INSDC框架内的生物样品的样品信息。核酸序列的综合资源和与之相关的信息符合INSDC政策的制度,确保有免费且不加限制的途径接近数据档案。一个更新的需求是有一个能够用大量个人基因组分析基因型和表型联系的分析平台。在尊重研究参与者隐私权和其知情同意下利用个人基因组数据,建立一个对于数据管理集中的仓库以及数据使用的策略是至关重要的。在美国和欧洲,NCBI的基因型和表型数据库与欧洲EBI基因型和表型档案室,分别的作为提供存取授权的中央仓库。至于政策,美国国家卫生研究所和韦尔科姆基金会已经建立指导方针为共享人类试验者对象数据。这则报道关注日本相对应的存档室和数据库中心,日本基因型与表型档案室还有我们的伙伴研究所日本科学技术振兴机构的国家生物科学数据库中心。NBDC已经建立共享源自人类的数据的指导方针和政策,NBDC的数据访问委员会(DAC)复查研究人员提交的数据和使用要求并对其做出决定。JGA旨在掌管几组日本研究的信息,收集日本的个体的基因组和医学记录。在由东京和东京大学实施的长滨零吉预防项目中,日本长滨和滋贺县超过10000个居民的基因组和其他有关健康的信息被收集。被收集的流行病学数据会被用来改善社区卫生。另一项研究,日本东北大学的东北医疗财团组织旨在发展一个新的医疗系统,其能结合医学和基因学信息来支持被日本东海大地震袭击的日本东北地区的卫生保健和福利。作为一部分成效,这个组织已经完成1000个健康参与者的全基因组测序且与JGA协作管理元数据。除了我们的JGA活动,本文还将介绍与生命科学数据库中心的密切合作来发展语义网技术以供数据整合和共享。我们将在接下来的部分中分别独立的列出这些成就。这里所述的资源全部可以在此网站获得。2DDBJ档案数据库2.1数据库目录从2013年6月到2014年5月,DDBJ周期性发布的注释的核苷酸序列数据库增加了7329558个序列条目和8375670146个碱基对。周期性发布的核苷酸序列不包括全基因组鸟枪测序(WGS)的序列和第三方数据文件的序列。DDBJ中心贡献了全部序列条目的18.0%和全部碱基对12.4%附加于INSDC注释的核苷酸序列数据。详细的统计学数据分解分析记录在我们的网址上是可以获得的。除了上述的数据,DDBJ发布了一共7841747个全基因组鸟枪测序序列条目,253011个传统测序条目,748个第三方数据测序条目,6374个第三方数据和鸟枪测序条目和1272个第三方数据和传统测序条目截止到2014年5月30日。2013年,提交到DDBJ的注释核苷酸序列大多来自亚洲国家,日本(3540次,77.1%),韩国(223次;4.9%),印度(223次;4.9%),中国(143次;3.1%),泰国(99次;2.2%),还有其他国家和地区(479次;10.4%)。DDBJ序列数据库中显著的数据集列出于表1中。这些数据集包括基因组集,康乃馨,多个草莓品种,珊瑚共生(共生藻)、日本鹌鹑和太平洋蓝鳍金枪鱼基因组;基因组勘测序列,小萝卜,大豆和伪虎鲸基因组;转录组序列,来源于珊瑚共生功能体,模式植物(短柄草),大麦的基因组;原排列的转录序列,从大多数哺乳动物的原细胞类型转录而测得,原细胞由FANTOM5共同体分析而得。2.2档案数据库服务的材料更新我们的网络提交注释核苷酸序列系统已经实现了一套11个模板的提交方式,设计用于对最常见的类型的序列提交。2014年,随着每一类序列的新模板集的发布,如细菌、植物和哺乳动物序列,模板系统已扩展。当使用模板时,提交者用具有预定义强制和可选字段功能的spreadsheettype编辑器提供核苷酸序列以及相关的注释,这个过程大大降低了提交过程的整体复杂度。作为INSDC的一个活动,2014年2月由DDBJ中心发起,生物样品数据库(BioSD)组织跨档案数据库的样品信息。DDBJBioSample使用与美国国家生物技术信息中心(NCBI)相同的图示。2014年5月,DDBJ序列读取档案(DRA)的研究和样本对象已经分别迁移到BioProject和BioSample档案。自该迁移,注册该BioProject和BioSample数据库已经要求在排序和对齐读取前可提交至DRA。DRA提交系统进行了改进,允许多个实验和运行对象作为一个制表符分隔的文本文件提交。2.3日本基因型与表型档案JGA是人类个体的基因型与表型数据的永久存档服务。JGA数据收集根据授权协议进行,其授权数据发布仅针对特定的研究用途。JGA日本科学技术振兴机构(NBDC)的国家生物科学数据库中心协同提供此服务。JGA数据的存储、管理和发布由国家广播发展委员会(NBDC)的政策和程序管理以供分享源自人类的数据。NBDC的DAC复查申请再提交数据到JGA,其必须满足两个条件:参与者知情同意协议,同意用于共享和使用以适当的方式获得的数据;整个研究计划包括数据提交和使用公共数据库已通过一个适当的机构审查批准。关于这些政策和指导方针的描述可以在NBDC的人类数据库网站上查询到。这个网站的英文版将会在2015年3月末准备完成以供海外研究人员使用。需要授权访问的人类数据不应该提交给开放获取资源的INSDC数据库如SRA。JGA接受提交者未标识的数据。可接受的数据类型包括从基于阵列或下一代测序平台的原始数据格式和与数据样本相关的表型数据。处理过或分析过的数据,如排比,集合和变化是可接受的。一经提交,JGA团队就会将原始数据文件归档在加密的形式的数据库中。JGA中的信息被组织在基于EGA分层的JGA数据模型中。JGA将具有独特的,固定的JGA前缀的标识符分配于研究和亚群的信息中,信息源于这些研究,包括样品,实验,基因型数据,分析结果和已获同意使用权的数据。DAC同时复查了研究工作者利用JGA数据做研究的请求。DAC保证国家的研究目的是与参与者同意相兼容的,而且首席研究员和机构将遵守国家广播发展委员会的指导和一个的数据集强加的具体的条款和条件。一旦访问权限被DAC授予,有访问允许权数据集的就可以用安全软件下载。根据国家广播发展委员会安全指南所述,建立一个安全的计算设备用以当地使用的下载数据是用户的责任。批准的申请被列在公共的国家广播发展委员会网页上,以保持JGA数据研究的透明度。批准的用户需要向国家广播发展委员会提交有关数据使用情况的年度报告。有关可用研究的信息(总结层面的数据)可以在JGA和NBDC网站上免费获得。截止到2014年10月22日,三项研究在JGA上是可用的:97个日本肺腺癌患者的全外显子测序研究,用以探究一种与大脑疾病脊髓小脑失调相关的扩展短串联重复序列的全基因组测序研究,23例初发低级别神经胶质瘤和切除于同一患者的复发肿瘤的全外显子测序研究。3DDBJ服务的发展3.1分析服务的更新DDBJ提供接受来自网页界面的请求的WebBLAST,ClustalW和VecScreen服务。DDBJ中心还为生物信息学提供新版网络应用程序接口(API),一个restfulwebAPI服务可以处理计算机程序的请求。这个服务包括WebBLAST,ClustalW和VecScreen,一个通过输入数字搜索和ARSA关键字搜索的数据检索DDBJ文件的getentry系统。Web应用程序和RESTfulWeb服务托管在NIG超级计算机系统。目前该超级计算机已经正在运行,从2012年3月起运(第一阶段),其系统在2014年3月增强(第二阶段)。NIG超级计算机是一个典型的高性能计算机集群系统,包括一般用途的节点(64GB内存有504个瘦节点)和内存密集型任务,包括测序读取从头组装物(每2TB内存有10个中节点和每10TB内存有1个胖节点)。这些节点由一个完整的二分法树状拓扑结构相互连接,有宽带四倍数据速率(QDR)(第一阶段)和宽带十四数据速率(FDR)(第二阶段)相连。为了让许多计算节点并行地读取和写入相同的文件,NIG超级计算机配备有一个高性能的大的外部存储系统装备的7PBLustre的并行分布式文件系统和一个5.5PBMAID归档的顺序读取存档数据。此DDBJ阅读批注管道在是一个高产量的网络注释系统,供新一代测序阅读在NIG超级计算机上运行完成。该管道有两个组件,第一个供参考基因组映射和从头组件,第二个用于随后的分析,如用银河接口将结构和功能注解。在2014年,两个从头组装工具已被添加。第一个是Platanus组装,用于高度杂合基因组,第二个是HGAP组装,用于长读取来自太平洋生物科学公司的序列。用户可以在完成组装过程后立即执行重叠群注释。3.2序列数据资源的语义表示为了提高序列注释数据的可重用性,我们已经与DBCLS合作开发了DDBJ记录的资源描述机构。RDF数据模型已与Ensembl数据库兼容,Ensembl数据库基于2014年5月DBCLS举行的在第一次首脑会议上的协议,这样让用户可以在这两个站点以同样的方式查询数据和检索注释。DDBJ继续保持其由几个生物信息学工具和库制定出来的半结构化文件格式,但现在一个更有效的工具是可能的,即使用RDF版本,语义符合INSDC特征表定义。为了用RDF从语义表示DDBJ核苷酸序列的注释,我们形成了两个本体:一个DDBJ注释核苷酸序列的本体是手动准备完成的,通过定义类和属性为描述元数据和特征,例举现有的DDBJ条目中的信息。本体论明确指定了给定的特征和可能的限定符之间的约束,通过检查与INSDC规格的一致性以保持注释的质量。另一个本体,DDBJ分类,由自动从NCBI分类数据库的taxdump文件生成。已经存在几种分类学本体的实现,如一个通过UniProt团队或OBO团队开发的实现。然而,前者使用它自己的统一资源标识符(URI)并且不与NCBI分类学完全兼容,后者缺乏许多必不可少的由原来的NCBI分类提供的分类注解。因为许多不同的URI为相同分类标识已在使用,我们决定主要使用Identifiers.orgURI作为资源URI,使第三方开发人员可以使用我们的本体而无需修改。我们两个本体可从我们的网浏览和下载。4未来方向在日本,大多数临床数据已经保持在一个有限的研究合作者集体中。JGA系统的核心是期待其将有利于更广泛地获取和共享人类数据。DDBJ中心和NBDC共同的与正在进行的大规模集群和临床研究合作,以支持高效的数据共享。另一个进步是我们与DBCLS的积极合作。DDBJ的Web界面目前只提供由DBCLS开发的链接至搜索的工具,但我们掌管其在NIG校园的开发团队,并加紧与此数据为中心的研究中心的合作。在后台,DDBJ的数据都在积极转换成国际上公认的本体RDF格式,使得使用SPARQL协议和RDF查询语言的先进查询变得可利用。RDF的引用有着重要的意义因其与其他组学信息有小的整合。NIG还存储从国家生物信息项目(NBRP)收集的信息,保存和分享真实

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功