蛋白质序列数据库我们可以根据基因组序列预测新基因,预测编码区域,并推测其产物(即蛋白质)的序列。因此,随着基因组序列的不断增长,蛋白质序列也在不断增加。PIR历史上,蛋白质数据库的出现先于核酸数据库。在1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了《蛋白质序列与结构图册》。从这本图册中的数据,演化为后来的蛋白质信息资源数据库PIR(ProteinInformationResource)。PIR是由美国生物医学基金会NBRF(NationalBiomedicalResearchFoundation)于1984年建立的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统,用户可以迅速查找、比较蛋白质序列,得到与蛋白质相关的众多信息。目前,PIR已经成为一个集成的生物信息数据源,支持基因组研究和蛋白质组研究。至2004年,PIR有近30万个蛋白质的登录数据项,包括来自不同生物体的蛋白质序列。除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。对于数据库中的每一个登录项,有与其它数据库的交叉索引,包括到GenBank、EMBL、DDBJ、GDB、MELINE等数据库的索引。PIR中一个具体的登录项如图4.4所示。PIR提供三种类型的检索服务。一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。目前,PIR包括三个子数据库,分别是蛋白质序列数据库PIR-PSD、蛋白质分类数据库iProClass以及非冗余的蛋白质参考资料数据库PIR-NREF。SWISS-PROTSWISS-PROT是由Geneva大学和欧洲生物信息学研究所(EBI)于1986年联合建立的,它是目前国际上权威的蛋白质序列数据库。SWISS-PROT中的蛋白质序列是经过注释的。SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。2004年3月的SWISS-PROT43.0版本有146720序列登录项,包含摘自113719篇参考文献的54093154个氨基酸。与其它蛋白质序列数据库相比较,SWISS-PROT有三个明显的特点:(1)注释在SWISS-PROT中,数据分为核心数据和注释两大类。对于数据库中的每一个序列登录项,核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)等,而注释包括:①蛋白质的功能描述;②翻译后修饰;③域和功能位点,如钙结合区域、ATP结合位点等;④蛋白质的二级结构;⑤蛋白质的四级结构,如同构二聚体、异构三聚体等;⑥与其它蛋白质的相似性;⑦由于缺乏该蛋白质而引起的疾病;⑧序列的矛盾、变化等。(2)最小冗余对于给定的蛋白质,许多数据库根据不同的文献报道设置分立的登录项,而在SWISS-PROT中,尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。(3)与其它数据库的连接SWISS-PROT目前已经建立了与其它30多个相关数据库的交叉索引,即对于每一个SWISS-PROT的登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。例如,根据到蛋白质结构数据库的索引,用户不仅可以得到某个蛋白质的序列,还可以进一步得到其结构。现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。与前面介绍的核酸序列数据库EMBL类似,每一个SWISS-PROT的条目用外在的ASCII文件表示,两者主要差别在于特征表的不同。用户可以通过网络将蛋白质序列数据提交给SWISS-PROT,或者对蛋白质数据进行修改。SWISS-PROT提供序列序列查询及相似蛋白质序列搜索工具TrEMBL大多数蛋白质序列不是直接由实验得到,而是通过DNA序列映射而得到的。TrEMBL是一个计算机注释的蛋白质数据库,作为SWISS-PROT数据库的补充。该数据库主要包含从EMBL/Genbank/DDBJ核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且,这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分,分别是SP-TrEMBL(SWISS-PROTTrEMBL)和REM-TrEMBL(REMainingTrEMBL)。SP-TrEMBL包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。这部分数据可以看成是SWISS-PROT数据库的预备队。REM-TrEMBL包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。如人工合成的蛋白质序列、申请专利的序列、伪基因对应的蛋白质序列等。TrEMBL(16.0版,2001年3月)根据EMBL的核酸数据库(65.0版)建立,共有489620条序列,包括141347364个氨基酸。为了减少冗余,若根据核酸编码序列翻译的蛋白质序列已经出现在SWISS-PROT,则将对应的序列删除。TrEMBL数据库的26.0版(2004年3月)拥有1069649条蛋白质序列,总氨基酸长度达到335331748。目前,欧洲生物信息学研究所EBI将上述3个蛋白质数据库(即PIR、SWISS-PROT和TrEMBL)统一起来,建立了一个蛋白质数据仓库UniProt(UniversalProteinResource,)。UniProt包含3个部分:(1)UniProtKnowledgebase(UniProt),这是蛋白质序列、功能、分类、交叉引用等信息存取中心;(2)UniProtNon-redundantReference(UniRef)数据库,该数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;(3)UniProtArchive(UniParc),是一个资源库,记录所有蛋白质序列的历史。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。生物大分子结构数据库在生物学研究中,分子的结构是最重要的数据,它提供很多信息,包括生物分子的功能、作用机制、进化历史等。目前,国际上最主要的生物大分子结构数据库是PDB。PDB目前,国际上著名的生物大分子结构数据库是美国Brookhaven实验室的大分子结构数据库PDB()。PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,其中主要是蛋白质的三维结构,还包括核酸、糖类、蛋白质与核酸复合物的三维结构。截止2004年5月,PDB数据库已含有约25000个结构,其中90%是蛋白质的结构。对于每一个结构,包含名称、参考文献、序列、一级结构、二级结构和原子坐标等信息。PDB中的每条记录有两种序列信息,一种是显式序列信息(explicitsequence),一种是隐式序列信息(implicitsequence)。在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。对于氨基酸残基,采用三字符的表示方式,这一点与其它序列数据库不一样。PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。在实际应用中,PDB数据库应与结构模型显示软件结合起来。因为PDB的主要信息是三维结构,如果直接将三维结构信息以文本的形式返回给用户,用户将难以分析这些结构信息,实用的方法是,通过分子模型化软件,以图形方式显示三维结构。这样的软件在Internet网上有许多,如RasMol、ChemView等,这些软件能够以各种各样的模型显示生物大分子的三维结构,如结构骨架模型、棒状模型、球棒模型、空间填充模型、带状模型等。此外,在PDB中还说明蛋白质某些特定部位的二级结构类型,如螺旋和折叠。MMDB分子模型MMDB(MolecularModelingDatabase)是美国生物技术信息中心(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。该数据库实际上是生物大分子PDB的一个编辑版本,仅仅剔除PDB中理论计算的模型结构。MMDB的3W地址为。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,同时,还包括生物大分子之间关系的信息。此外,系统还提供生物大分子三维结构模型显示、结构分析和结构比较工具。MMDB采用ASN.1的记录格式,而非PDB格式。其它生物分子数据库蛋白质结构分类数据库SCOP具有相似结构的蛋白质很可能具有共同的祖先。几乎对于任何一个蛋白质都能找到与其它一些具有相似结构的蛋白质,其中的一些蛋白质拥有一个共同的进化原始结构。这种关系对于了解蛋白质的进化和发展是非常关键的,同样对于分析基因组序列数据也是非常重要的。为了分析蛋白质序列与结构之间的关系,认识不同折叠结构的进化过程,需要研究蛋白质结构分类的方法,并建立结构分类数据库。SCOP数据库(StructuralClassificationofProteins,)就是一个蛋白质结构分类数据库。SCOP的目标是提供关于已知结构蛋白质之间的结构和进化关系的信息,所涉及的蛋白质包括结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的链接,序列,参考文献,结构的图像等。从目前的技术来看,很难借助于自动的序列和结构比较工具发现蛋白质之间的结构和进化关系,因此,SCOP的结构分类主要是通过人工来完成的,通过图形显示器观察和比较蛋白质结构,并借助于一些软件工具进行分析,如同源序列搜索工具。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠,这些层次之间的界限在一定程度上是人为的。进化分类是保守的,只要对进化关系存在疑问,就在家族或超家族层次上建立一个新的分类。这样,有些研究人员倾向于着重研究分类树的高层,在这些层次上,结构相似的蛋白质聚类在一起。具有明显进化关系的蛋白质聚集到一个家族中,这意味着两个蛋白质之间的等同氨基酸残基数超过30%。然而,在某些情况下,虽然两个蛋白质序列不相似,但它们具有相似的结构和相似的功能,表明属于同一个家族。例如,许多球蛋白虽然序列相同部分只达到15%,但确实形成一个家族。超家族中的成员具有远源进化关系,具有共同的进化源。有些蛋白质,它们序列之间的相似性较低,序列等同部分短,但是结构和功能特征显示可能有一个共同的进化源,对于这些蛋白质将它们放入一个超家族中。属于同一个折叠类的蛋白质具有相似的折叠结构。如果两个蛋白质具有相同的主要二级结构,并具有相同的拓扑连接,那么,这些蛋白质就具有共同的折叠。