内部资料仅供参考基因本体论基因本体论基因本体论基因本体论(Gene(Gene(Gene(GeneOntology)Ontology)Ontology)Ontology)数据库基本介绍数据库基本介绍数据库基本介绍数据库基本介绍VersionVersionVersionVersionNo.No.No.No.2010.10.032010.10.032010.10.032010.10.03西安电子科技大学计算机学院作者:孔垂亮电邮:morrain1987@foxmail.com导师:高琳目录目录第一部分GO是什么?·····················································································21.1基因本体论(geneontology)的建立·····························································21.2本体论(Theontologies)简介·····································································31.3本体论语义之间的关系及其组织结构························································41.3.1语义之间关系的基本理解·······························································41.3.2关系之间的推导···········································································51.3.3调节控制关系(theregulatesrelation)及其推导·······································61.3.4本体论的组织结构········································································71.4GO的注释(Annotation)···········································································8第二部分GO怎么用?····················································································102.1下载本体论文件和注释文件···································································102.2GO语义及其相关注释的浏览与搜索························································172.2.1AmiGO的基本使用说明·······························································172.2.2语义关系的图形化描述·································································202.2.3根据语义检索··············································································222.2.4根据基因产物检索·······································································25第一部分GO是什么-1-第一部分GOGOGOGO是什么?GO(geneontology)是基因本体联合会(GeneOnotologyConsortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能.1.11.11.11.1基因本体论((((genegenegenegeneontologyontologyontologyontology))))的建立现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样。不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人体中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个数据库描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。GeneOntology就是为了解决上述问题,使各种数据库中基因产物功能描述相一致而发起的一个项目。这个项目最初是由1988年对三个模式生物数据库的整合开始:theFlyBase(果蝇数据库Drosophila),theSaccharomycesGenomeDatabase(酵母基因组数据库SGD)和theMouseGenomeInformatics(小鼠基因组数据库MGI)。从那开始,GO不断发展扩大,现在已是包含数十个动物、植物、微生物的数据库(详见GOConsortiumPage)。GO开发了具有三级结构的语义词汇标准(Ontologies),根据基因产物的相关生物学途径、细胞学组件以及分子功能而分别给予定义,与具体物种无关。GO的工作大致可分为三个部分:第一,给予并维持语义(terms);第二,将位于数据库当中的基因、基因产物与GO本体论语言当中的语义(terms)进行关联,形成网络;第三,开发相关工具,使本体论标准语言的产生和维持更为便捷。GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高第一部分GO是什么-2-的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物的受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产物特性的认识。1.21.21.21.2本体论((((TheTheTheTheontologiesontologiesontologiesontologies))))简介GO提供了一系列的语义(terms)用来描述基因、基因产物的特性。这些语义分为三种不同的种类:细胞学组件,用于描述亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等;分子功能,用于描述基因、基因产物个体的功能,如与碳水化合物结合或ATP水解酶活性等;生物学途径,指分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等。基因产物可能分别具有分子生物学上的功能、生物学途径和在细胞中的组件作用。当然,它们也可能在某一个方面有多种性质。如细胞色素C,在分子功能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。注:基因产物和其生物功能常常被我们混淆。例如,“乙醇脱氢酶”既可以指放在Eppendorf试管里的基因产物,也表明了它的功能。但是这之间其实是存在差别的:一个基因产物可以拥有多种分子功能,多种基因产物也可以行使同一种分子功能。比如还是“乙醇脱氢酶”,其实多种基因产物都具有这种功能,而并不是所有的这些酶都是由乙醇脱氢酶基因编码的。一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛歧化酶”两种功能,甚至更多。所以,在GO中,很重要的一点在于,当使用“乙醇脱氢酶活性”这种术语时,所指的是功能,并不是基因产物。下面,将进一步的分别说明GO的具体定义情况。细胞组件即细胞中的位置,指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核糖体,蛋白酶体等)。分子功能分子功能描述在个体分子生物学上的活性,如催化活性或结合活性。GO分子功能用来定义功能而不是整体分子,而且不特异性地指出这些功能具体的时空信息。分子功能大部分第一部分GO是什么-3-指的是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能。定义功能的义项包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺苷酸环化酶活性或钟形受体结合活性等。生物学途径生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。举例来说,较为宽泛的是细胞生长和维持、信号传导。一些更为具体的例子包括嘧啶代谢或α-配糖基的运输等。一个生物学途径并不是完全和一条生物学通路相等。因此,GO并不涉及到通路中复杂的机制和所依赖的因素。1.31.31.31.3本体论语义之间的关系及其组织结构1.3.11.3.11.3.11.3.1语义之间关系的基本理解基因本体论组织类似于图,语义作为图的结点,语义之间的关系为图中的边。因此,一旦产生新的语义,其与其它语义之间的关系也会同时被定义。语义之间的关系有三种:isa、partof和regulates。关系表示的几点约定1.“语义”用图论的术语“结点”表示2.我们习惯于用父子结点来表示语义之间的关系,其中父结点离根结点较近,表示相对宽泛的语义,而子结点离叶子结点较近,相对父结点其语义所代表的内容更为具体。3.图中的实线表示结点之间的关系4.虚线表示推理而并未证明的关系上述可以用下图表示:AisaB;BispartofC第一部分GO是什么-4-从而可以得出:AispartofC,其形式化表示为:isa·partof→partofGO图具有树的性质,但与其不同的是,GO图中结点不但可能具有多个孩子结点,而且可能具有多个父亲结点,且与不同的父结点具有不同的关系,如下图所示:线粒体(mitochondrion)便有两个父亲结点,因为线粒体既是一种细胞器(organelle),又是细胞质(cytoplasm)的一部分。同样,细胞器(organelle)也有两个孩子结点,因为线粒体是一种细胞器(organelle),细胞器膜(organellemembrane)是细胞器的一部分。1.3.21.3.21.3.21.3.2关系之间的推导isisisisaaaa·isisisisaaaa→isisisisaaaaisa具有传递性,即如果AisaB,BisaC,那么AisaC。形式化表示为isa·isa→isa。如下图:线粒体(mitochondrion)是一种胞内细胞器(intracellularorganelle),而胞内细胞器是一种细胞器官(organelle),从而可以推出:线粒体是一种细胞器官。partpartpartpartofofofof·partpartpartpartofofofof→partpartpartpartofofofofpartof具有传递性,如果AispartofB,BispartofC,那么AispartofC。形式化表示为partof·partof→partof。同样如下图所示:线粒体(mitochondrion)是细胞质(cytoplasm)的一部分,细胞质又是细胞(cell)的一部分,从而可得出:线粒体是细胞的一部分。第一部分GO是什么-5-partpartpartpartofofofof·isisisisaaaa→partpartpartpartofofofof与isisisisaaaa·partpartpartpartofofofof→partpartpartpartofofofof如果关系isa与partof组合,则其关系均为partof。分别如下图所示:1.3.31.3.31.3.3