生物信息学Bioinformatics生物学数据库及其检索第一节生物学数据库简介Chapter2一、什么是数据库?数据库(database)是一类用于存储和管理数据的计算机文档,是统一管理的相关数据的集合,其储存形式有利于数据信息的检索与调用。二、生物学数据库在生物信息学者们的努力下,人类基因组序列数据连同其它多种模式生物的序列数据及各自相应的基因结构与功能信息皆可供众多生物学家们免费接入与使用。humanArabidopsisThermotogamaritimaEscherichiacoliBuchnerasp.APSRickettsiaprowazekiiUreaplasmaurealyticumBacillussubtilisDrosophilamelanogasterThermoplasmaacidophilumPlasmodiumfalciparumHelicobacterpylorimouseCaenorhabitiselegansratBorreliaburgorferiBorreliaburgorferiAquifexaeolicusNeisseriameningitidisZ2491Mycobacteriumtuberculosis模式生物模式生物基因组计划模式生物基因组计划酵母、线虫、果蝇、细菌、拟南芥等共约50多种已完成,70余种正在进行。目前总量已达60亿碱基对!virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenomesizesinnucleotidepairs(base-pairs)10410810510610710111010109bonyfishamphibians生物学数据库的分类根据数据存放类型:序列(三维)结构文献序列特征基因组图谱表达谱。。。根据数据存储的具体内容:一级数据库二级数据库专用数据库(一)一级数据库和二级数据库一级数据库(Primarydatabase):库中的主要内容来源于实验室操作所得到的原始数据(例如:测序得到的序列、X射线晶体衍射所得到的三维结构数据等),也包含一些基本的说明(序列所属的物种、类型、序列发表的文献出处等)。核酸序列数据库GenBank,EMBL,DDBJ及蛋白结构数据库PDB就是典型的一级数据库。二级数据库(Secondarydatabase):在一级数据库的信息基础上进行计算机加工处理并增加了许多的人为注释而构成的(例如:NCBI的RefSeq数据库等)。Primaryvs.SecondaryDatabasesGenBankTATAGCCGTATAGCCGTATAGCCGTATAGCCGSequencingCentersUniGeneRefSeqGenomeAssemblyLabsCuratorsAlgorithmsTATAGCCGAGCTCCGATACCGATGACAA(二)如何查找与研究相关的生物学资源1利用公共搜索引擎2了解重要的生物信息学门户站点3利用NucleicAcidResearch杂志每年的数据库专辑、网络服务器专辑。第二节常用数据库Chapter2常用数据库类型名称网址核酸序列一次数据库Genebank://://基因组一次数据库GDB蛋白质序列一次数据库SWISS-PROT://pir.georgetown.edu/TrEMBL://://mips.gsf.de/GenPept://复合数据库NRDB://+TrEMBL二次数据库PROSITE://://blocks.fhcrc.org/Pfam://dna.stanford.edu/identify/COGs://结构一次数据库PDB://二次数据库DSSP://://://~geigel/PSdb/PSdb.html/结构分类SCOP://://分类二次数据库ProtoMap蛋白质间功能关系Predictome蛋白质组分析ProteomeAnalysis二维凝胶电泳GELBANK://酵母蛋白质定位YPL.db模式生物蛋白质组BioknowledgeLibrnary=home/一、核酸数据库•(一)核酸序列数据库目前,国际上主要有Genbank、EMBL、DDBJ三大核酸序列数据库,三大核酸数据库之间每天相互交换数据,保持数据同步更新。GenBankPublicfreeAvailableviaInternetEMBLDataLibraryDDBJ(DNADataBankofJapan)三大基因数据库之间的关系Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NationalCenterofBiotechnologyInformation,NCBI)建立和维护的。Genbank网址:Genbank数据直接来源测序工作者提交的序列、测序中心提交的大量EST序列、其它测序数据以及与其它数据机构协作交换的数据。Genbank内容所有已知的核酸序列和蛋白质序列,还包括对序列的简要描述、科学命名、物种分类名称、参考文献、序列特征表等辅助信息。Genbank对数据记录的处理划分为细菌类、病毒类、灵长类、啮齿类,EST数据、基因组测序数据、大规模基因组序列数据等16类。由美国国立生物技术信息中心(NCBI)建立维护,其主页如图所示。•NCBI全称NationalCenterofBiotechnologyInformation(美国国家生物技术信息中心)•NCBI是美国国立卫生研究院(NIH)的美国国立医学图书馆(NLM)的一个分支。•1988年成立。•网址:简介当今世界最大的基于Internet的用于分子生物学研究的生物医学研究中心2.EMBL核酸序列数据库•1982年创建,由欧洲生物信息学研究所(EuropeanBioinformatiesInstitute,EBI)管理维护。使用序列提取系统(SRS)进行查询检索,利用基于网络的WEBIN工具,或利用Sequin软件向EMBL核酸序列数据库提交序列。EMBL网址:SRS的网址:WEBIN网址:Sequin网址:•1986年创建,由日本国家遗传学研究所(DNADataBankofJapan,DDBJ)负责维护和管理。使用SRS工具进行数据检索和序列分析,利用Sequin软件向该数据库提交序列。为方便检索DDBJ主页可进行日文和英文互换。DDBJ的日文版网址:DDBJ的英文版网址:数据库国际上最权威的核酸序列数据库日本国立遗传研究所的DDBJ(二)基因组数据库GDB•基因组数据库(GDB)创建于1990年,是一个专门汇集人类基因组数据的数据库,为人类基因组计划(HGP)保存和处理基因组图谱数据。•GDB的网址是:•(一)蛋白质序列数据库常用的蛋白质序列数据库有SWISS-PROT、PIR、TrEMBL、UniProt、GenPept等,分述如下。1.SWISS-PROTSWISS-PROT数据库提供蛋白质序列查询及相似蛋白质序列搜索等服务。二、蛋白质数据库Swiss-Prot数据库网站主页SWISS-PROT数据库内容核心数据:包括蛋白质序列、引用文献、分类信息等。注释:包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、与其它蛋白质的相似性等。SWISS-PROT将广泛收集的相关数据进行合并,且与蛋白质三维结构数据库(PDB)等其他数据库交互索引。通过SWISS-PROT数据库可以得到某蛋白质的序列,再通过交互引用从PDB数据库得到其结构。SWISS-PROT数据由数据行排列组成,数据格式与EMBL数据库数据格式基本相同。2.PIRPIR的子数据库:蛋白质序列数据库(PIR-PSD)蛋白质分类数据库(iProClass)非冗余的蛋白质参考资料数据库(PIR-NREF)PIR数据库按照数据性质和注释层次分四个部