第2章 生物数据库介绍

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章生物数据库介绍生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据建立生物分子数据库本章目的:介绍储存这些数据的数据库,以及从这些数据库中获取需要的信息的方法。数据库(database)是存储在某种存储介质上的相关数据的有组织的集合。存储生物大分子信息数据的数据库称为分子生物学数据库(molecularbiologydatabase),也称生物信息学数据库(bioinformaticsdatabase)。数据库,特别是分子生物学数据库,具有三个特征:(1)数据库是可以检索的,即具有检索(index)功能;(2)数据库应该是定时更新的,即不断有新版内容发布(release);(3)数据库是交叉引用的(cross-referenced),特别是在互联网时代,数据库应该通过超链接(hyperlinks)与其他数据库相连。生物信息学数据库的分类:生物信息学数据库一级数据库二级数据库一级数据库直接来源于实验获得的原始数据(DNA序列、蛋白质序列、蛋白质结构等),只经过简单的归类、整理和注释。一级核酸数据库(3):GenBank数据库、EMBL数据库、DDBJ数据库一级蛋白质序列数据库(2):SWISS-PROT库、PIR蛋白信息数据库一级蛋白质结构数据库(1):PDB数据库二级数据库在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库,旨在使基本数据库更加便于使用。人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质序列功能位点数据库Prosite等。生物信息学数据库一级数据库DNA数据库二级数据库基因组数据库蛋白质序列数据库蛋白质结构数据库建立分子生物信息数据库的流程图contents2.1序列数据库2.2基因组数据库2.3结构数据库2.4功能数据库2.5基本序列数据库注释及序列格式2.1序列数据库2.1.1三大核酸序列数据库GenBank(美国NCBI)EMBL(欧洲EBI)DDBJ(日本NIG)2.1.2两大蛋白序列数据库SWISS-PROT库PIR库2.1.1三大核酸序列数据库1982年4月:由以下三个机构联合建立•GenBank数据库最初设在美国洛斯阿拉莫斯国家实验室(LANL),现由位于美国马里兰州Bethesda的国家生物技术研究中心(NCBI)维护管理。数据库每日更新,每年发行六版。•其中所收集的序列包括:基因组DNA序列、cDNA序列、EST序列、STS序列、载体序列、人工合成序列及HTG序列等。•NIH(NationalInstituteofHealth,美国国立卫生研究院)•NCBI(NationalCenterforBiotechnologyInformation,美国国家生物技术信息中心(做日常维护))•NLM(NationalLibraryofMedicine,美国国立医学图书馆)2.1.1.1GenBank(美国国家生物技术信息中心,NCBI)NCBI主页:下拉菜单检索关键词主页的导航条有七大类:PubMed:上千万条文献记录及许多在线期刊id连接;AllDatabases:NCBI中的各种数据库集合;BLAST:局部比对的序列相似性搜索工具;OMM:在线人类孟德尔遗传性状数据库,人类基因和遗传异常的索引;Books:在线的参考书籍,包含于PubMEd的链接;Taxonomy:囊括主要生物类别的分类信息浏览器;Structure:分子建模数据库,记录了大分子的三维结构收录的物种中20种测序最多的物种(09年8月15日发布的第173.0版)EntriesBasesSpecies通用名1283879513669851495Homosapiens人73476368445993792Musmusculus小鼠19979766284206670Rattusnorvegicus大鼠21357475319815212Bostaurus牛38704065007807286Zeamays玉米25564924229790475Susscrofa猪16953623074615557Daniorerio斑马鱼2281531352840985Strongylocentrotuspurpuratus紫海胆17526541184330809Nicotianatabacum烟草12179831176024629OryzasativaJaponicaGroup水稻14230461146732476Xenopus(Silurana)tropicalis爪蟾12021271038512618Drosophilamelanogaster果蝇213217997816950Pantroglodytes黑猩猩2240601950139115Arabidopsisthaliana拟南芥1434100931176470Canislupusfamiliaris家犬655658910760908Vitisvinifera葡萄806871884489747Gallusgallus鸡1828912846429180Glycinemax大豆78410808403289Macacamulatta恒河猴1216132748153905Cionaintestinalis海鞘:U12345Twolettersfollowedbysixdigits,e.g.:AY123456,AF123456GenPeptSequenceRecords(whichcontaintheaminoacidtranslationsfromGenBank/EMBL/DDBJrecordsthathaveacodingregionfeatureannotatedonthem)Threelettersandfivedigits,e.g.:AAA12345ProteinSequenceRecordsfromSWISS-PROTandPIRAllaresixcharacters:Character/Format1[O,P,Q]2[0-9]3[A-Z,0-9]4[A-Z,0-9]5[A-Z,0-9]6[0-9]e.g.:P12345andQ9JJS7各种登录号(索引号)的类型TypeofRecordSampleAccessionFormatProteinSequenceRecordsfromPRFAseriesofdigits(oftensixorseven)followedbyaletter,e.g.:1901178ARefSeqNucleotideSequenceRecordsTwoletters,anunderscorebar,andsixdigits,e.g.:mRNArecords(NM_*):NM_000492genomicDNAcontigs(NT_*):NT_000347completegenomeorchromosome(NC_*):NT_000907genomicregion(NG_*):NG000019RefSeqProteinSequenceRecordsTwoletters(NP),anunderscorebar,andsixdigits,e.g.:NP_000483RefSeqModel(predicted)SequenceRecordsfromtheHumanGenomeannotationprocessTwoletters(XM,XP,orXR),anunderscorebar,andsixdigits,e.g.:XM_000483ProteinStructureRecordsPDBaccessionsgenerallycontainonedigitfollowedbythreeletters,e.g.:1TUPMMDBIDnumbersgenerallycontainfourdigits,e.g.:3973.各种登录号(索引号)的类型(续)=helpentrez&part=EntrezHelpWhatisanaccessionnumber?Anaccessionnumberislabelthatusedtoidentifyasequence.Itisastringoflettersand/ornumbersthatcorrespondstoamolecularsequence.Examples(allforretinol-bindingprotein,RBP4):X02775GenBankgenomicDNAsequenceNT_030059GenomiccontigRs7079946dbSNP(singlenucleotidepolymorphism)N91759.1Anexpressedsequencetag(1of170)NM_006744RefSeqDNAsequence(fromatranscript)NP_007635RefSeqproteinAAC02945GenBankproteinQ28369SwissProtprotein1KT7ProteinDataBankstructurerecordDNARNAproteinGenBankGenBank网址下拉菜单检索内容2.1.1.2EMBL(欧洲分子生物学实验室,EMBL)EMBL数据库是建立最早的核酸数据库,由德国海德堡的欧洲分子生物学实验室(EMBL)1982年3月创建,现由英国Hinxton的欧洲生物信息学研究所(EBI)维护管理。数据库每日更新,每年发行四版。子库包括:表达序列标签(ESTs)、病毒(Viruses)、噬菌体(Bacteriophage)、原核生物(Prokaryotes)、真菌(Fungi)、植物(Plants)、无脊椎动物(Invertebrates)、脊椎动物(Vertebrates)、啮齿动物(Rodents)、哺乳动物(Mammals)、人类(Human)、细胞器(Organelles)、高通量基因组序列(HTG)等。EBIEBI网址主页下拉菜单检索内容2.1.1.3DDBJ(日本国家遗传学研究所,NIG)1986年:日本国立遗传学研究所(NationalInstituteofGenetics,NIG)建立了日本DNA数据库(DNADataBankofJapan,DDBJ),后来也加入GenBank和EMBL的国际合作,互通有无,同步更新,每年发行四版。DDBJDDBJ网址:这三大数据库虽然各自有不同的数据记录格式,但对核酸序列均采用相同的记录标准,同时每天交换数据以达到数据更新和一致。从地域角度看,EMBL主要负责收集欧洲的数据,GenBank负责美洲,DDBJ负责亚洲。由于国际互联网的发展,用户可以任意的向其中任意一个数据库提交序列,所提交的序列也将从公布之日起同时在三大数据库中出现。示例LOCUSNC_01261815494bpDNA

1 / 94
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功