第二章生物学数据库及其检索Halfdayontheweb,halfmonthinthelab.savesyou-AlanBleasby第一节生物数据库简介什么是数据库数据库类型生物学数据库重要的生物信息站点一、什么是数据库?数据库(database)是一类用于存储和管理数据的计算机文档,是统一管理的相关数据的集合。其存储形式有利于数据信息的检索与调用。图书馆用数据库保存书目和借阅情况;核酸序列数据库用来保存核酸序列和功能注释信息。二、数据库的类型到目前为止,生物学数据库使用了4种不同的数据库结构类型:平面文件、关系型数据库、面向对象数据库和基于Internet平台的XML。三、生物学数据库生物分子数据库:能够进行自动查询和修改的生物分子数据集。建立生物分子数据库动机生物信息数据库的5个主要需求时间性注释支撑数据实验数据数据质量集成性数据库间的交连生物信息数据库的特征数据库更新速度不断加快数据库使用频率增长更快数据库的复杂程度不断增加数据库网络化面向应用生物信息数据库分类一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。二级数据库:对原始生物分子数据进行整理、分类的结果,在一级数据库、实验数据和理论分析的基础上构建。如何查找与研究相关的生物学资源公共搜索引擎重要的生物信息学门户站点(NCBI、EBI等)《核酸研究》每年的数据库专辑/网络服务器专辑NAR杂志《核酸研究》(NucleicAcidsResearch,NAR)()杂志从1994年起,每年第一棋刊登生物学数据库专集;2000年起,出版《核酸研究》的牛津大学出版社设立了数据库目录网页,可以按字母或分类查找,并可链接到所需要的数据库。NAR(NucleicAcidResearch)数据库分类:核酸序列数据库(NucleicAcidSequence)基因表达数据库(GeneExpression)比较基因组学数据库(Comparativegenomics)基因识别与基因结构数据库(GeneIdentificationandStructure)遗传与物理图谱数据库(Geneticandphysicalmaps)基因组数据库(GenomicDatabases)分子相互作用数据库(Intermolecularinteractions)代谢途径和细胞调节数据库(MetabolicPathwaysandCellularRegulation)突变数据库(MutationDatabases)病理数据库(Pathology)蛋白质数据库(ProteinDatabases)蛋白质模体数据库(ProteinsequenceMotifs)蛋白质组数据库(ProteomeResources)RNA序列数据库(RNASequences)结构数据库(Structure)四、重要的生物信息站点重庆邮电大学生物信息学专业网站上有各种链接()NCBINCBI(),全称为NationalCenterforBiotechnologyInformation,建立于1988年11月4日,下属于美国国立卫生研究院(NationalInstitutesofHealth,简称NIH)的国立医学图书馆(NationalLibraryofMedicine,简称NLM)。中心的主要任务是创建公共可接入数据库,引导在计算生物学以及在基因组数据分析方面的软件开发,同时发布各类生物医学信息。NCBI的数据资源主要包括数据库、分析工具、数据提交及教育四个部分,每个部分的资源都有更为细致的分类EBIEBI(),全称是EuropeanBioinformaticsInstitute,是隶属于欧洲分子生物学研究室(EMBL)的一个非盈利性的学术机构,专门从事生物信息学方面的研究与服务。EBI的主要任务包括为科研团体免费提供数据及生物信息学服务;从生物信息学的角度上为推动特定科研项目的发展做出努力,为各阶层的科研人员提供高级生物信息学培训以及帮助向工业界发布最新技术等。EBI的网站在数据规模与承担的任务方面都与NCBI相当,其资源也分为数据库、工具、EBI研究小组、培训、帮助等几个部分,而全部资源及工具则显示在其SiteIndex页面()中。EMBnetEMBnet(EuropeanMolecularBiologyNetwork)建立于1988年,由多个位于欧洲及欧洲以外的成员国节点及专业节点组成。除了上面提到的欧洲生物信息学研究所EMBL-EBI,瑞士生物信息研究所SIB、澳大利亚国家基因组学信息服务(AGRIS)以及中国北京大学的生物信息中心PKU-CBI都是EMBnet的成员。它们不仅为本国用户提供生物信息资源及生物计算服务,同时提供用户支持、培训以及进行相关的生物信息研究与开发。比如专业蛋白质分析系统ExPASy就是由SIB开发及维护,而通用蛋白质资源UniProt则由EMBL-EBI及SIB、PIR共同进行维护的。由于EMBnet的成员国节点及专业节点各自包含了大量的公共数据信息及自行开发的数据库及分析工具,因此可作为生物学数据资源的补充来源。相关信息可以从和中查到。2020/3/28202014年启动的国际合作项目“蛋白组组计划”,由中国开发并维护的蛋白组组数据库iProX(),世界三大蛋白质组数据库之一。——由重庆邮电大学生物信息学研究所开发,军事医学科学院、北京蛋白组研究中心、国家超级计算长沙中心和太仓生命信息研究所共同维护。第二节生物学数据库的内容与结构数据数据存储基础平面文件格式序列格式XML格式关系型数据库数据中心法则DNA双螺旋结构JamesWatson,FrancisCrickWatson在开始研究DNA双螺旋时几乎完全不懂有机化学与物理化学;Crick本来是个物理学家,对生物学也知之甚少。当他们发现DNA的结构时并不认为需要知道(更不用说记住)四个核苷酸碱基的化学结构。当ErwinChargaff问他们在不知道DNA构成要素结构的情况下如何解决DNA结构问题时,他们问答说如果有需要的话总可以在书中查找到这个结构。——N.C.Jones&P.A.Pevzner,AnIntroductiontoBioinformaticsAlgorithmsDNA结构:碱基/核苷Uracil(U)核糖核苷酸Aribonucleotide脱氧核糖核苷酸deoxyribonucleotide双脱氧核糖核苷酸dideoxyribonucleotideDNA的结构RNA的结构氨基酸的结构氨基酸的性质及分类蛋白质标准密码子TheDNAsequenceofageneencodestheaminoacidsequenceofaprotein.DNA代码的标识氨基酸代码的标识符数据存储基础信息是存储在计算机临时或永久存储器中的一串字节。获取信息需要控制两个方面。第一是数据被编译为字节的方式,或者成为数据格式。第二是运用哪些程序能够编码(写)和解码(读)这些数据。目前最常用的格式类型:平面文件格式、XML和关系型数据库平面文件格式—FlatFile这种格式是将多个记录以特殊约定的分隔符(比如“/”或“|”)进行区分,而每一个记录内的众多字段也是通过一些特定的分隔符(如“,”或“:”)加以区分。数据库文件就是由这些字段及内容所组成,并不包含什么隐藏的计算机指令。优点:通用性(跨平台);容易为perl程序进行解析和处理;专用的flat-file数据分析器可以用来将数据导入到数据管理系统。缺点:检索复杂,冗余字段较多,大容量数据库难以处理Flatfile格式(UniProtCYC_HUMAN部分)Perl的正则表达式可用于解析Flatfile格式文件my$newEntry=1;while(STDIN){my($line)=$_;chomp($line);if($line=~/^ID/){#matchedIDline$newEntry=1;}if($line=~/^AC\s*(\w+)/){#matchedAClineif($newEntry==1){#printonlywhenatfirstlineprintPrimaryaccession.$1;}$newEntry=0;}if($line=~/^SQ\s*\w*\s*(\w*)/){#matchSQlineprintsequencelength:.$1.\n;}#ignoreotherlines}例程输出:perlexample.pluniprot.datPrimaryaccessionQ4U9M9sequencelength:893PrimaryaccessionP15711sequencelength:924PrimaryaccessionQ43495sequencelength:102PrimaryaccessionP18646sequencelength:75PrimaryaccessionP13813sequencelength:296………三、序列格式序列格式主要在布局和序列码行的形成上不同,而一些格式同时提供描述或元数据或行集。对于许多软件工具来说,它们能很自然地自动区分和接受不同格式的序列常用格式:Fasta;GenBank;SwissProt等XML格式XML(extensiblemarkuplanguage,可扩展标记语言)是一种在文本文件中组织数据的语言。一个XML文件代表一个嵌套的信息树。树中的每一个节点能包含像一串子节点或者一些属性这样的数据,并且一个XML文件始于根节点。一个XML文件有一个文本,在文本中每一个节点的内容及其子节点被一对相互封闭的标签划定。形式上类似html。XML文档的结构XML文档的结构是根据一种文件类型定义(DTD)组织的。一个DTD定义了一类遵从一系列规则的XML文档。这些规则中包括例如一个节点中有多少个,怎样类型,怎样组织的子节点。一个DTD是通过一个文件类型声明与XML文档联系在一起的,这个声明指出了这个XML文档是依附于结构由该DTD定义的文档类。一个DTD是通过XML确定其特殊性的,在这个XML文档里可能直接包含了关于类型的声明。为了更方便,DTD是以独立文件的形式进行存储和调用的。MedlineCitationOwner=NLMStatus=MEDLINEPMID10697468/PMID[…………]ArticlePubModel=PrintJournalISSNIssnType=Print0099-2399/ISSNJournalIssueCitedMedium=PrintVolume1/VolumeIssue6/IssuePubDateYear1975/YearMonthJun/Month/PubDate/JournalIssueTitleJournalofendodontics/Title/JournalArticleTitleMethodologyandcriteriaintheevaluationofdentalimplants.