2生物学常用网站

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

分子生物信息数据库简介2生物信息学广西医学科学实验中心xy数据库类型随着近年来生物学实验方法和检测手段的不断发展与提高,积累了大量生物学的实验数据,通过对这些数据按一定目标与功能分类收集整理,形成了目前数以百计的生物信息数据库。核酸和蛋白一级数据库、基因组数据库生物大分子三维空间结构数据库以上一级数据库为基础而形成的二级数据库3生物信息学广西医学科学实验中心xy1960年代,第一个分子生物学数据库——FredSanger的胰岛素序列测定(1955)——蛋白质数据库PSD(ProteinSequenceDatabase)——MargaretDayhoff:1960年代,创立PSD,即PIR的前身1978,scoringmatrices——PAM分子生物信息数据库概述PioneerinBioinformaticsDr.MargaretO.Dayhoff(1925-1983)FredSangeratTheWellcomeTrustSangerInstitute4生物信息学广西医学科学实验中心xy1982年,第一个核酸序列数据库GenBank(LosAlamos)——1982年,606条序列,长度680,338bp——2008年,约98,868,465条序列,长度99,116,431,942bp5生物信息学广西医学科学实验中心xy生物信息数据库几个明显的特征:(1)数据库的更新速度不断加快数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置6生物信息学广西医学科学实验中心xy一级数据库直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。一级核酸数据库:GenBank数据库、EMBL数据库、DDBJ数据库一级蛋白质序列数据库:SWISS-PROT库、PIR库一级蛋白质结构数据库:PDB数据库二级数据库在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质序列功能位点数据库Prosite等。7生物信息学广西医学科学实验中心xy建立分子生物信息数据库的流程图8生物信息学广西医学科学实验中心xy一个数据库记录(entry)一般由两部分组成:1.原始序列数据(sequencedata)2.描述这些数据生物学信息的注释(annotation)注释中包含的信息与相应的序列数据同样重要和有应用价值数据的完整性和注释工作量:1.序列数据广,序列注释不够完整2.库数据面窄,序列注释全面数据库的动态更新:1.不断增加2.不断修正9生物信息学广西医学科学实验中心xy一级数据库世界三大核酸序列数据库(公共序列数据库,PublicSequenceDatabase)GenBank(美国)EMBL(欧洲)DDBJ(日本)GenBankDDBJEMBLA)核酸(DNA)序列数据库10生物信息学广西医学科学实验中心xyGenBank(美国国家生物技术信息中心,NCBI)1988NIH(NationalInstituteofHealth)LosAlamosNationalLabNCBI(NationalCenterforBiotechnologyInformation)NLM(NationalLibraryofMedicine)GenBankDataYearBasePairsSequences1982680,33860619832,274,0292,42719843,368,7654,17519855,204,4205,70019869,615,3719,978198715,514,77614,584198823,800,00020,579198934,762,58528,791199049,179,28539,533199171,947,42655,6271992101,008,48678,6081993157,152,442143,4921994217,102,462215,2731995384,939,485555,6941996651,972,9841,021,21119971,160,300,6871,765,84719982,008,761,7842,837,89719993,841,163,0114,864,570200011,101,066,28810,106,023200115,849,921,43814,976,310200228,507,990,16622,318,883200336,553,368,48530,968,418200444,575,745,17640,604,319200556,037,734,46252,016,762200669,019,290,70564,893,747200783,874,179,73080,388,382200899,116,431,94298,868,46511生物信息学广西医学科学实验中心xyGenBank网址生物信息学广西医学科学实验中心xyEMBL(欧洲分子生物学实验室,EMBL)1982EuropeanMolecularBiologyLaboratoryEBI(EuropeanBioinformaticsInstitute)13生物信息学广西医学科学实验中心xyEMBL网址生物信息学广西医学科学实验中心xyDDBJ(日本国家遗传学研究所,NIG)1986DatabankofJapanNIG(NationalInstituteofGenetics)E-mail查询地址:ddbj@ddbj.nig.ac.jp递交数据E-mail地址:ddbjsub@ddbj.nig.ac.jp查询引用文献E-mail地址:ddbjupdt@ddbj.nig.ac.jp电话:+81-559-81-6853Fax:+81-559-81-684915生物信息学广西医学科学实验中心xyDDBJ网址年,最早获得的生物基因组全序列是噬菌体(53kb)1995年,第一个自由生物体流感嗜血菌(H.inf)被完全测序B)基因组数据库17生物信息学广西医学科学实验中心xy部分生物基因组计划网址老鼠(Mouse)小鼠(Rat)狗(Dog)牛(Cow)猪(Pig)羊(Sheep)鸡(Chicken)斑马鱼(Zebrafish)线虫(C.elegans)果蝇(Drosophila)蚊子(Mosquito)拟南芥(Arabidopsis)棉花(Cotton)玉米(Maize)水稻(Rice)大豆(Soya)树(Trees)(美国、加拿大)1990年,JohnHopkins大学建立,后由加拿大儿童医院生物信息中心管理,2003年起,GDB-relatedsoftwareandpublicdataweretransferredtoRTIInternational.数据内容:基因组结构数据、基因组图谱、基因多态性数据与其它分子生物信息网络资源(EMBL、GenBank…)的链接19生物信息学广西医学科学实验中心xyGDB网址生物信息学广西医学科学实验中心xyAceDB线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献…21生物信息学广西医学科学实验中心xyAceDB网址-PROT(欧洲)PIR(美国)C)蛋白质序列数据库23生物信息学广西医学科学实验中心xySWISS-PROT1.日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(1986年);2.在EMBL和GenBank数据库上均建立了镜像站点;3.数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释;4.数据记录包括两部分:序列注释(结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰、突变体等)5.数据存在滞后性TrEMBL数据库的建立24生物信息学广西医学科学实验中心xySWISS-PROT()是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据25生物信息学广西医学科学实验中心xy注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括:(A)蛋白质的功能描述;(B)翻译后修饰;(C)域和功能位点,如钙结合区域、ATP结合位点等;(D)蛋白质的二级结构;(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质的相似性;(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。26生物信息学广西医学科学实验中心xySWISS-PROT的网址:生物信息学广西医学科学实验中心xyPIR(proteininformationresource)1.由美国NCBI翻译自GenBank的DNA序列(1984年);2.在EMBL和GenBank数据库上均建立了镜像站点;3.数据依据注释的质量分为4类。分类名称(Name)说明(Comment)记录数(Numberofentries)PIR1已分类、已注释(Classifiedandannotated)13572PIR2已注释(Annotated)69368PIR3未核实(Unverified)7508PIR4未翻译(Unencodedoruntranslated)196PIR数据库的分类情况(Release51.03)2

1 / 85
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功