第二章生物信息学数据库BioinformaticsdatabaseBackground背景19651970197519801985199019952000100,00010,0001,0001001010.10.010.001×1,000MedlineRecordsTransistors/ChipDNASequences3DStructuresCumulativeGrowthofBiologicalInformationandComputerPowerMarkBogulski(1998)Bioinformatics:ANewEra在数据处理中,通常计算比较简单,而管理较复杂。数据管理是指数据的收集、整理、组织、存储、维护、检索、传送等操作,这部分操作是数据处理业务必不可少的基本环节。在数据库系统中,由一种叫做数据库管理系统(DBMS:DatabaseManagementSystems)的系统软件来对数据进行统一的控制和管理,从而有效地减少了数据冗余,实现了数据共享,解决了数据独立性问题,并提供统一的安全性、完整性和并发控制功能。一、生物信息学数据库简介数据库技术在计算机的三大应用(科学计算、数据处理与过程控制)中,数据处理所占比重约为70%左右。在60年代末,数据库技术就是作为数据处理中的一门技术发展起来的。数据库技术是计算机软件领域的一个重要分支,已形成相当规模的理论体系和实用技术。数据库是在数据库管理系统的集中控制之下,按一定的组织方式存储起来的、相互关联的数据集合。在数据库中集中了一个部门或单位完整的数据资源,这些数据能够为多个用户同时共享,且具有冗余度小、独立性和安全性高等特点。数据库是……生物信息数据库近年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。随着因特网的普及,这些数据库大多可以通过网络来访问,或者通过网络下载。生物信息数据库分类一般而言,生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。一级数据库的特点一般说来,一级数据库的数据库量大,更新速度快,用户面广,通常需要高性能的计算机硬件、大容量的磁盘空间和专门的数据库管理系统支撑。例如,欧洲生物信息学研究所用Oracle数据库软件管理、维护核酸数据库EMBL。而基因组数据库GDB的管理、运行则基于Sybase数据库系统,即使是安装其镜象。也需要有Sybase支撑。Oracle和Sybase均为流行的数据库管理商业软件。二级数据库的特点二级数据库的容量则要小得多,更新速度也不象一次数据库那样快,也可以不用大型商业数据库软件支撑。许多二级数据库的开发基于Web浏览器,使用超文本语言HTML和Java程序编写的图形界面,有的还带有搜索程序。这类针对不同问题开发的二级数据库的最大特点是使用方便,特别适用于计算机使用经验并不丰富的生物学家。二级数据库种类繁多。生物信息数据库也可以分为4个大类,即:基因组数据库:来自基因组作图核酸和蛋白质一级结构序列数据库:来自序列测定生物大分子(主要是蛋白质)三维空间结构数据库:来自X-衍射和核磁共振结构测定以上述3类数据库和文献资料为基础构建的二次(级)数据库。根据功能:国际著名的生物信息中心NCBINationalCenterforBiotechnologyInformation(US)EBIEuropeanBioinformaticsInstitute(EU)HGMPHumanGenomeMappingProjectResourceCentre(UK)ExPASyExpertofProteinAnalysisSystem(Switzerland)CMBICentreofMolecularandBiomolecule(TheNetherlands)ANGISNationalGenomeInformationService(Australia)NIGNationalInstituteofGenetics(Japan)BICNationalBioinformaticsCentre(Singapore)欧洲分子生物学网络组织(EMBnet)EuropeanMolecularBiologyNetworkEMBnet为国际著名生物信息学组织,为世界各国提供生物信息资源,并合作进行生物信息的研究、开发、应用和人才培训。EMBnet国家节点欧洲:奥地利、比利时、丹麦、法国、芬兰、德国、希腊匈牙利、爱尔兰、以色列、意大利、挪威、波兰、葡萄牙、斯洛伐克、西班牙、瑞典、瑞士、荷兰、土耳其、英国亚洲:中国、印度澳洲:澳大利亚北美洲:加拿大非洲:南非南美洲:阿根廷、古巴、智利、墨西哥UK亚太生物信息学网络组织中国节点生物技术和信息技术是21世纪的两大经济发展支柱,生物信息学是生命科学和信息科学的结合点,是当今自然科学新的前沿领域。生物信息资源建设是生物信息研究开发的基础。1996年,北京大学加入欧洲分子生物学网络组织,成为该组织的中国国家节点,并成立生物信息中心,为生物、医学、制药、农业、环境等领域的研究开发提供生物信息资源服务,并开展二次数据库构建、软件集成、基因组分析等研究。欧洲分子生物学网络组织中国国家节点NationalNodeEuropeanMolecularBiologyNetwork北京大学生物信息中心CentreofBioinformaticsPekingUniversity国内生物信息中心举例CBIPKU:北京大学生物信息中心BioSino:中国生物信息中国科学院上海生命科学院生物信息中心上海生物信息技术研究中心中华民族基因多样性数据库转录因子细胞特异性数据库Cytomer蛋白质结构域数据库Domain蛋白质回环数据库Loop水稻矮缩病毒数据库RDV二硫键信息数据库Bridge国内构建的二次数据库中华民族基因多态性数据库水稻矮缩病毒基因组数据库转录因子细胞特异表达数据库蛋白质回环数据库蛋白质二硫键数据库廖黔宁,罗静初,周培爱,顾孝诚,梁宋平,虎纹捕鸟蛛毒素-I突变体的设计、合成和活性鉴定,中国生物化学和分子生物学学报,5(5):756-761,1999年。SYLu,PCDeng,XCLiu,JCLuo,RSHan,XCGu,SPLiang,XCWang,FLi,VLozanov,APatthyandSPongor,SolutionstructureoftheMajora-amylaseinhibitorofthecropplantamaranth,J.Biol.Chem.274(29):20473-20478,1999.拟南芥突变体库数据库—北大耶鲁合作项目二、生物信息学数据库种类《NucleicAcidsResearch》杂志每年的第一期中详细介绍最新版本的各种数据库。在2000年1月1日出版的28卷第一期115种通用和专用数据库。至2008年,生物信息学数据库总数已达1078个。比2007年增加110个。NucleicAcidsResearch杂志相关数据库及其主要分类1.核酸序列数据库2.RNA序列数据库3.蛋白质序列数据库4.结构数据库5.基因组数据库6.代谢酶相关产物7.人类和其他脊椎动物基因组8.人类基因和疾病9.其他数据和其他基因表达数据库10.蛋白组资源11.其他分子生物学数据库12.细胞器官数据库13.植物数据库14.免疫学数据库核酸序列数据库内容包括世界上所有已公布的核酸序列及其翻译产物序列报告和相关注释:GenBank美国基因数据银行Embl欧洲分子生物实验室DDBJ日本核酸数据库整合平台:Entrez综合数据库蛋白质序列数据库SWISS-PROT(瑞士日内瓦大学)蛋白质序列数据库内容包括序列及功能信息、蛋白识别、蛋白质结构预测及其他功能NCBI蛋白质数据库包括所有蛋白质序列,及其翻译产物序列PIR蛋白质序列信息资源库(美、德)蛋白疏水特性图蛋白质结构数据库PDBProteinDataBank,美国Brookhaven国家实验室管理生物大分子三维空间结构原子坐标数据库NCBISTRUCTUREMMDB(MolecularModellingDataBase),包含了从PDB获取的实验确定的生物高聚物结构分子模型数据库SCOP(Structuralclassificationofproteins)英国医学研究会(MRC)剑桥分子生物学实验室开发的蛋白质结构分类数据库。包含描述蛋白质域的家族、超家族、折叠、等级等信息。基因组数据库图谱和显示器主要内容:有基因组结构、基因单位、基因组图谱等(遗传图、叠连群图、放射杂交图等)分布:由各国基因组研究中心组建,分布在世界各地的信息中心、研究机构。代表性的有:美国人类基因组数据库GDB美国NCBI基因组数据库Genome英国人类基因图谱数据库HGMPGenomeWeb美国人类基因组资源整合体系人类疾病与基因数据库OMIM孟德尔遗传信息数据库CGAP:TheCancerGenomeAnatomyProject肿瘤基因组图谱知识库美国国立癌症研究所为解剖肿瘤细胞分子而建立。生物信息分析工具BLAST序列相似性对比PRIMER引物设计蛋白质结构预测数据库(EMBL)根据已知蛋白质序列,预测同族二级、三维等结构蛋白质功能预测数据库(EMBL)根据已知蛋白质序列,预测蛋白质功能我国生物信息相关网站中国生物信息网北京大学生物信息中心中国科学院(上海文献中心)三、生物信息数据库检索集成检索系统:Entrez系统(整合库)美国生物技术信息中心研制SRS系统(SequenceRetrievalSystem)欧洲分子生物学实验室开发h