生物信息学考试数据库论文翻译题目:GOBASE:theorganellegenomedatabase(GOBASE:细胞器基因组数据库)刘凯学号:021401007(山东大学生命科学学院2002级生命科学与技术基地班)2005年6月2核酸研究,2001,第29卷,第1期:128-132©2001牛津大学出版社GOBASE:细胞器基因组数据库NelliShimko,LinLiu,B.FranzLangandGertraudBurger*PrograminEvolutionaryBiology,CanadianInstituteforAdvancedResearch,DépartementdeBiochimie,UniversitédeMontréal,2900BoulevardEdouard-Montpetit,Montréal,Québec,H3T1J4,Canada收到:2000年10月2日;接受:2000年10月17日摘要GOBASE()是一个可以通过网络访问的生物学数据库,它在以下方面是独一无二的:将分类上覆盖很广的各种关于细胞器的生物学数据整合在一起,以及提供已被专家尽全力校正和完善的数据。目前我们主要关注线粒体数据。GOBASE包括所有已经发表的由线粒体基因组编码的核酸和蛋白质序列、经过筛选的由线粒体编码的RNA二级结构、全基因组遗传图谱、在数据库中出现其序列的物种的分类信息,以及重要原生真核生物的生物学描述。所有这些数据被整合和组织在一个正式的数据库结构中,它允许用生物学概念中固有的术语进行复杂的生物学检索。最重要的是,数据已经过确认、完善、校正和标准化,这是进行有意义的分析的一个先决条件。而且,对于缺少的关键数据,比如遗传图谱和RNA二级结构,则由GOBASE团队及其合作者补充到数据库中。这个数据库在数据库管理系统中得以实现,但又以界面实现的生物数据的面向对象的外观为特征。最后,我们发展了用于数据库完善的软件(如数据更新,确认和校正),这将在这篇论文中做较为详细的介绍。3介绍生物背景:细胞器和它们的基因组线粒体和叶绿体是被严格定义的,含有自身独特遗传物质的真核细胞的亚细胞组分(细胞器)。线粒体(mt)和叶绿体(cp)只编码一小部分参与细胞器翻译机制和呼吸/氧化磷酸化或者光合作用的细胞器组分。大部分的细胞器蛋白质是由核基因编码,在细胞质中翻译,并运输进细胞器的。(1)在某些物种中,一些结构RNA也是由细胞核编码而运入细胞器的。线粒体和叶绿体的研究覆盖了多种主题。细胞器的细菌起源提出了一个进化问题,它关于从内共生细菌到亚细胞组分的转换,细胞器基因组和核基因组在功能上的和系统发生上的关系,以及细胞器基因组、基因和基因表达模式的多样性。尤其是快速进化的线粒体产生了大量迷人的分子机制,比如通过核苷酸删除、插入和修饰实现的RNA转录后编辑,以及前-信使RNA的反式剪接。从生物化学的角度看,研究主题包括细胞器在能量产生中的作用(如氧化磷酸化和光合作用),蛋白质运输的分子机制,多次跨膜的膜结合酶复合体的组装过程,蛋白质和RNA的二级和三级结构。另一个热点集中于线粒体在人类疾病中的作用,种群内线粒体基因组的遗传多样性和染色体外遗传的规律。这个显然不完全的主题列表表明了细胞器研究的多样性。多年来,人们在进行大规模的细胞器全基因组测序方面做出了协调的努力,例如细胞器基因组百万测序项目[OGMP(2);],真菌线粒体基因组项目[FMGP(3);],以及线粒体基因组工作组[(4);~jboore/index.html]。现在,在公共数据库上可以获得116个完整线粒体DNA和17个叶绿体DNA序列。除了病毒,细胞器DNA构成了最大规模的完全测序的基因组系列,这使它们成为比较基因组研究的理想材料。现在可以获得的细胞器数据主要包括细胞器酶复合体结构的详细信息和它们的催化功能,蛋白质运输和包装途径,DNA复制和转录机制,超结构组件,以及基因组成和遗传。但是,这些数据广泛地分布于多种数据来源,比如书籍,4杂志,论文和电子数据库,所以,即使对于本领域的专家,搜索相关信息也是十分困难和费时的。由于这些原因,一个充分组织和整合的数据库成为了能够利用这些难于使用的信息财富的关键。细胞器数据的统一框架为了充分利用大部分分散的细胞器信息和将它们同储存这些细胞器的物种的信息(分类,形态等等)相整合,1995年,细胞器基因组数据库项目(GOBASE)被发起。从1996年起,这个数据库开始运作和通过因特网进行公开访问,由于它具有经过充分确认的内容,直观的界面和强大的搜索能力,它已经被线粒体研究领域的科学家们所经常使用。GOBASE的第一版以前已经在这本杂志(5)中描述过,包括数据库外观,数据库结构和它的运行的详细描述。在这篇论文中,我们将关注GOBASE同其他数据库的比较,然后讨论有重要帮助作用的用于数据库完善、数据确认和更新的软件工具。序列仓库与可检索的数据库公共的生物序列数据库,比如GenBank(6)(现在由美国国家生物技术信息中心维护),日本DNA数据库(DDBJ)(7),和欧洲分子生物学实验室(EMBL)(8),是分子生物学研究的重要财产。然而,这些数据库中的信息只是自然的被保存,比如,储存的序列只是在有限的水平上被确认(比如蛋白质翻译),而且基因和基因产物的术语没有标准化,同时数据获得系统(如Entrez)只支持适中复杂度的检索。一些现象将能够充分表明公共序列数据库在检索方面的局限性。首先,序列记录的提交者可以对不同物种中的同源基因,甚至特定物种中的相同基因使用不同的名称(例如,5S,rrn5和rrf都被用来指5SrRNA的编码基因,核糖体的一个组成部分)。这个矛盾和不支持以基因产物名称为基础进行搜索的事实,使得在公共数据库中直接鉴别基因同源性几乎不可能实现。序列相似性搜索可以在一定程度上弥补这个弱点,但是这个方法不仅费时而且对于保守性差的基因(如5S5rRNA)会产生不明确的结果。第二,序列特征注释不完善或不正确的记录经常被发布出来(例如,缺少基因名称,或者序列来源基因组的细胞定位不明确)。第三,许多重要的生物学特征,如细胞定位和基因产物的主要功能,在公共序列数据库是不可搜索的领域。定位这些关键特征的唯一办法是在全部领域中进行全文搜索,但是这个过程经常返回大量的假阳性信息。例如,用高级Entrez搜索短语:[mitochondr*[cellular_location]]AND[translation[Allfields]]检索参与翻译的线粒体组分,不仅产生一小部分期望的基因,而且获得数百条的假信息。GOBASE的特征GOBASE消除了许多上述的限制。为了反映基本的生物学概念,它的数据库方案把生物学信息划分为10个具有大量精确定义的特征的基本的类别或实体(序列,基因,蛋白质,信号,分类,等等)(见表1)。需要指出,我们没有采用国际核苷酸序列数据库(NCBI,EMBL,DDBJ)的分类方式,因为,它不能有效的区分高水平和低水平的生物学范畴(例如,不能区分一般的范畴,如保守结构域、外显子、内含子,与特殊的范畴,如iDNA,D-环,CAAT信号,而是同样的表示为“特征属性”)。GOBASE的第二个特征在于,它将各个类别中的信息交联起来,从而实现了在公共数据库中不可行的复杂生物学检索。作为例证,我们列出了以下几个在GOBASE中可以阐明但在其它可访问的公共数据库中无法实现的检索实例:(i)找到所有的线粒体编码的5SrRNA;(ii)找到所有参与动物线粒体翻译的蛋白质;(iii)找到所有来自原生生物的细胞色素c氧化酶的完整编码序列;(iv)找到所有的真菌线粒体质粒编码的完整蛋白质;(v)找到所有定位于线粒体内含子的确定的基因(不是开放阅读框);(vi)找到地钱中除了内含子开放阅读框以外的所有线粒体DNA的开放阅读框;(vii)找到所有使用TGA作为色氨酸线粒体翻译密码的生物。6种类特征属性序列类型,物种名称,分类名称,分类门类,完整性,质粒,拓扑,图谱可用性,序列长度,提交日期,最后更新日期,GBK,PIR,SWISS-PROT,Entrez和EMBL索取号,GOBASE号基因基因,产物,物种和分类名,分类门类,内含子基因,遗传密码,假基因,局部,反式剪接,叶绿体起源,内含子,质粒编码,基因定位,上游基因,下游基因,Entrez和GBK索取号,GOBASE基因和序列号蛋白产物,基因,物种和分类名,主要功能,酶复合体,EC号,分类门类,局部,质粒,序列长度,SWISS-PROT和Entrez索取号,GOBASE号核糖核酸基因,产物,物种和分类名,核糖核酸类型,分类门类,局部,二级结构可用性,Entrez和GBK索取号,GOBASE号外显子基因,物种和分类名,分类门类,外显子数,局部,定位,Entrez和GBK索取号,GOBASE号信号启动子,加工位点,茎环结构,翻译起始,复制起始,D-环,定位,Entrez和GBK索取号,GOBASE号内含子基因,物种和分类名,分类门类,内含子数,局部,包含的基因或开放阅读框,二级结构可用性,定位,Entrez和GBK索取号,GOBASE号基因和产物种类基因和产物名称,产物类型,产物主要功能,酶复合体,EC号,GOBASE号图谱物种名,PID记录可用性,序列可用性分类门,等级,学名,同义,线粒体遗传密码,图谱,PID记录可用性,GOBASE号表1.GOBASE数据分类:生物学信息被划分为10个基本的有大量专门用于比较基因组学研究的特征的类别。类别名称对应于数据库中检索页面的名称。7很显然,只有当数据完整、正确和更新的情况下,复杂的检索能力才有意义,这也是GOBASE的另一个重要使命。在呈现给公众之前,从GenBank提取的数据在基因和基因产物的术语、遗传密码、细胞定位和更多的方面被校正。由于这项工作需要生物学家大量的输入,我们使用了大量的帮助工具,这将在下面进行说明。除了来自GenBank的可获得信息(序列和分类数据)外,还有多种其它数据类型被整合进GOBASE。例如,对于数据库中所有呈现的序列,相关的基因功能信息可以获得(搜索页面“基因和产物”,表格1),通过指向专门的酶数据库的网站链接可以查看生化途径,通过指向原生生物数据库的链接()关于关键原生真核生物的物种信息可以获得,经过筛选的RNA二级结构图表和线粒体DNA遗传图谱也可以获得。这些后来的数据中的相当大的一部分是由GOBASE团队与M.W.Gray和M.Schnare(DalhousieUniversity,Halifax,NS,Canada)合作产生的。最后,GOBASE采用了真核生物分类的四界系统(动物,真菌,植物和原生生物),从而反映了一个广泛接受的观点,否则将不能被大多数其它分子生物学数据库所支持。GOBASE与其它线粒体数据库在过去的五年中,几个其它的线粒体数据库已经形成,但是,他们的目的、数据内容和功能性都与GOBASE十分不同。MitoDat(9)、MITOMAP(10)、MitOP(11)和AmmtDB(12)专攻与线粒体突变和丧失功能有关的人类疾病和紊乱,以及人类和动物中线粒体DNA的与种群相关的变化。MitBASE(13)在分类上涉及更广的范围,正是在这个意义上,与其它线粒体数据库相比,它与GOBASE有着更广泛的共同基础,但是MitBASE关注于数据的编辑,更强调植物中线粒体DNA的变化和RNA编辑,而GOBASE关注于为比较基因组学研究提供检索能力。8总之,GOBASE是独一无二的,因