第二章生物数据库介绍生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据建立生物分子数据库生物信息数据库特征数据库的更新速度不断加快,数据量呈指数增长趋势数据库使用频率增长更快数据库的复杂程度不断增加数据库网络化面向应用先进的软硬件配置分子生物信息数据库分类序列数据库核酸序列数据库蛋白质序列数据库基因组数据库结构数据库:主要指蛋白质三维空间结构数据库功能数据库:主要指蛋白质和核酸功能注释的数据库由上述3类数据库和文献资料为基础构建的二次数据库序列数据库来自序列测定,基因组数据库来自基因组作图,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,称为基本数据库、初始数据库,也称一次数据库一次数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途数据库称为二次数据库二次数据库是对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的一次数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑;二次数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家序列数据库核酸序列数据库国际上权威的核酸序列数据库欧洲分子生物学实验室的EMBL美国生物技术信息中心的GenBank日本遗传研究所的DDBJ目前,这三个数据库已建立数据交换协议,每日同时更新核酸序列资料,对用户而言,在任意一个数据库中查询数据或向任意一个数据库中投送数据基本上是等价的,对于特定的查询,三个数据库的响应结果一样三个数据库相互合作,数据库中数据基本一致GenBank美国核酸数据库全称:GenBankGeneticSequencedataBank美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸序列,由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立从1979年开始建设,1982年正式运行GenBank数据库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学解释主要目标:收集世界范围内已发表和自行投送的核苷酸序列以及相关的文献资料,为大规模的核苷酸序列数据建立档案NCBI:NationalCenterforBiotechnologyInformation,美国国家生物技术信息中心为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;促进生物学研究人员和医护人员应用数据库和软件;努力协作以获取世界范围内的生物技术信息NCBI的主要服务功能PubMed:美国国家图书馆的一项服务,包括1950年以来生物医学所有文献记录,同时提供文献全文相关链接Entrez:数据库查询和检索系统,提供各种核酸序列、蛋白质序列、基因组数据及各种文献数据库的检索,可设定多种搜索条件,默认方式为“与”BLAST:最基本的局部序列比对排列搜索工具,是常用的序列相似性查询工具,主要包括核酸序列的比对,蛋白质序列的比对等OMIM:关于人类基因和遗传疾病的分类数据库,收集了已知的人类基因以及由于这些基因突变而导致的遗传疾病GenBank介绍是最早的DNA序列数据库,对每个序列,相关数据包括序列名称、序列、位点、关键字、来源、生物种类、参考文献、注释等最常用的是序列文件,序列文件基本单位为序列条目,包括核苷酸碱基排列顺序和注释两部分LOCUS:给出序列条目的名称,也称为标识符,包括序列长度,类型等DEFINITION:给出该序列的功能ACCESSION:序列编号,具有唯一性和永久性KEYWORDS:关键字字段,由序列提交这提供,包括序列的基因产物及其他相关信息(如何得到,从何处得到等)REFERENCE:参考文献字段,包括AUTHORS,TITLE,JOURNAL,PUBMEDFEATURES:序列特性表,详细描述序列的特性ORIGIN:碱基序列字段,给出序列中的碱基组成,以//结束EMBL(TheEuropeanMolecularBiologyLaboratory):欧洲分子生物学实验室1974年由欧洲14个国家加上亚洲的以色列共同发起建立,现在由欧洲30个成员国政府支持组成目的在于促进欧洲国家之间的合作来发展分子生物学的基础研究和改进仪器设备、教育工作等目前已发展成欧洲最重要和最核心的分子生物学基础研究和教育培训机构EMBL数据库基本单位:序列条目,包括核苷酸碱基排列顺序和注释ID:序列名称DE:序列简单说明AC:序列编号SV:序列版本号KW:与序列相关的关键词OS:序列来源的物种名OC:序列来源的物种学名和分类学位置RN:相关文献编号或递交序列的注册信息RA:相关文献作者或递交序列的作者RT:相关文献题目RL:相关文献杂志名或递交序列的作者单位RX:相关文献Mediline引文代码RC:相关文献注释RP:相关文献其他注释CC:关于序列的注释信息DR:相关数据库交叉引用号FH:序列特征表起始FT:序列特征表子项SQ:碱基种类统计数DDBJ(DNADataBankofJapan),日本DNA数据库,于1984年建立主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,亦接受其他国家呈递的序列数据库通过环球网,匿名FTP,e-mail或Gopher方式为广大研究人员服务。蛋白质序列数据库GenBankSWISS-PROTPIRSWISS-PROT:是经过注释的蛋白质序列数据库,也是注释最齐全的蛋白序列数据库,建立于1986年,1987年起由日内瓦大学(UniversityofGeneva)医学生物化学系和EMBL数据馆(现在的欧洲生物信息研究所EBI)共同维护数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成PIR(ProteinInformationresouce):是一个集成了关于蛋白质功能预测数据的公共资源的数据库,目的是支持基因组/蛋白质组研究其出现先于核酸数据库,1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了《蛋白质序列与结构图册》。从这本图册中的数据,演化为后来的蛋白质信息资源数据库PIR与其他组织合作,共同构成了PIR-国际蛋白质序列数据库(PSD)——一个主要的已预测的蛋白质数据库,包括250,000个蛋白除了蛋白质序列数据以外,PIR还包含以下信息:蛋白质名称、蛋白质的分类、蛋白质的来源;关于原始数据的参考文献;蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;序列中相关的位点、功能区域PIR提供三种类型的检索服务:基于文本的交互式查询,用户通过关键字进行数据查询标准的序列相似性搜索,包括BLAST、FASTA等结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等基因组数据库GDB(GeneDataBase)AceDBGDB:为人类基因组计划(HGP)保存和处理基因组图谱数据,目标是构建关于人类基因组的百科全书除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述目前GDB包括人类基因组区域(包括基因、克隆、amplimersPCR标记、断点breakpoints、细胞遗传标记cytogeneticmarkers、易碎位点fragilesites、EST序列、综合区域syndromicregions、contigs和重复序列)人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、contentcontig图谱和综合图谱等)人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)数据库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可搜索各种类型的对象,并以图形方式观看基因组图谱AceDB:一种线虫C.elegans数据库,是一种被广泛应用的管理和提供基因组数据的工具组1991年由RichardDurbin和JeanThierry-Mieg首先提供,用来支持和整理C.elegans领域中的大范围序列和物理图谱库内资源包括限制性图谱,基因结构信息,柯斯质粒图谱,序列数据,参考文献等该数据库通过专门的软件ACEDB来管理并浏览,该软件提供一个图形界面,使用户能从大到整个基因组小到物理序列的各个层次考察基因组数据结构数据库PROSITEPDBSCOPCOGPROSITE:收集了生物学中有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族例如,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可通过PROSITE的搜索找到隐含的功能模体,因此是序列分析的有效工具PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等除了序列模式之外,PROSITE还包括由多序列比对构建的序列谱,能更敏感地发现序列与profile的相似性PDB:是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责,RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载,以及关于PDB数据文件格式和其它文档的说明,另外,PDB数据还可从发行的光盘获得使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构SCOP:蛋白质结构分类数据库详细描述了已知的蛋白质结构间的关系,分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全α、全β、α/β、α+β和多结构域等几大类SCOP还提供一个非冗余的ASTRAIL序列库,该库通常被用