华中农业大学生物信息学课件Bioinf02-1

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章数据库(I)生物信息学什么是数据库(Database)?用于收集、整理、储存、加工、发布和检索数据的系统。生物类的数据库种类很多(序列、结构、生物分子互作、其它)向国际刊物投稿文章首先要将核苷酸序列、蛋白质序列或者其他相关数据(如基因表达数据、生物大分子三维结构等)提交到指定的数据库中什么是数据库(Database)?数据库记录通常包括两部分原始数据对这些数据进行的生物学意义的注释一个数据库通常链接了多个相关数据库核苷酸数据库-水稻抗病相关基因OsDR8Taxonomy数据库Pubmed数据库NCBI-Protein数据库DQ176424其他数据库(一)数据库工具建立纯文本数据库GenBank数据库、EMBL核苷酸数据库数据库工具SQL(结构化查询语言)是世界上流行的和标准化的数据库语言能够快速灵活存储记录文件和图像小型生物信息学数据库常用MySQL()AccessSQLOracleAceDB数据库工具AceDB:AC.elegansDataBase(线虫数据库)被广泛应用的管理和提供基因组数据的工具数据形式丰富遗传图谱物理图谱新陈代谢途径序列G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63L1044NBS119RM144Y6855RA0.00111gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactgatacagaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataaatactttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac(一)数据库工具(二)各种生物数据库1、核苷酸数据库DNA、mRNA、tRNA、rRNA序列RNA序列以cDNA序列的形式收集核苷酸序列直接来源于实验数据大量氨基酸序列主要是非实验来源数据codingsequence(CDS,编码序列)EXONINTRONCDS(codingsequence)ORF(openreadingframe)1、核苷酸数据库1、核苷酸数据库三大核苷酸数据库GenBank(美国)、ENA(欧洲)、DDBJ(日本)UnitedStatesPatentandTrademarkOffice(USPTO)EuropeanPatentOffice(EPO)JapanPatentOffice(JPO)专利核苷酸序列信息资源共享:以天为基础进行数据库之间的序列数据交换GenBankENADDBJ://://国际核苷酸序列数据库合作协议(InternationalNucleotideSequenceDatabaseCollaboration)收集的核苷酸来源1、核苷酸数据库(1)GenBank:D30-D35美国NCBI的数据库生物信息学领域的一个重要的管理机构建立和管理分子生物学和生物医学领域的公共数据库发展新的分析软件NCBIsitemapGenBank数据库中包括部分蛋白质序列,源于核酸序列注释结果数据每天更新,每年发行六版releaseRelease206(2015.2.15)181,336,445sequences187,893,826,750bases来源于260,000多个物种大约13%的序列来源于人(Homosapiens)排列前5的物种:Homosapiens、Musmusculus、Rattusnorvegicus、Bostaurus、Zeamays(1)GenBank(1)GenBank……Locusname(位点名,目前大多以登录号代替)Accessionnumber(注册号或登陆号)GI(GenInfoidentifier)序列默认显示GenBankflatfile格式每条序列有三个专有的编号或标识(identifier)Samplerecord(1)GenBankGenBankflatfile格式LOCUSDQ1764241980bpDNAlinearPLN12-MAR-2006DEFINITIONOryzasativa(indicacultivar-group)pathogen-induceddefense-responsiveprotein8(DR8)gene,completecds.ACCESSIONDQ176424VERSIONDQ176424.1GI:73918052GBDivisionLocusNameDEFline(Title)ModificationDatemol-typemRNA(=cDNA)rRNAsnRNADNASequencelengthAccessionNumberAccession.versionGInumberThedivisions(分支)ofGenBank:organismaldivisions分支缩写分支全称PRI灵长类序列(primatesequence)ROD啮齿类序列(rodentsequence)MAM其它哺乳类序列(othermammaliansequence)VRT其它脊椎动物序列(othervertebratesequence)INV无脊椎动物序列(invertebratesequence)PLN植物、真菌和海藻类序列(plant,fungal,andalgalsequence)BCT细菌序列(bacterialsequence)VRL病毒序列(viralsequence)PHG噬菌体序列(bacteriophagesequence)ENV环境样品(environmentalsample)(微生物混和测序)SYN人工合成序列(syntheticsequence)UNA未注释的序列(unannotatedsequence)分支缩写分支全称EST表达序列标签(expressedsequencetag)STS序列标签位点(sequencetaggedsite)GSS基因组勘测序列(genomesurveysequence)HTG高通量基因组序列(highthroughputgenomicsequence)HTC高通量cDNA序列(highthroughputcDNAsequence)WGS全基因组鸟枪法测序序列(wholegenomeshotgun)TSA转录组鸟枪法测序拼接序列(transcriptomeshotgunassembly)CON重叠群(contigs)(不包含序列,但指示构成重叠群的序列的编号,比如NZ_AQFF01000050)PAT已申请专利的序列(patentsequence)Thedivisions(分支)ofGenBank:functionaldivisionsGenBankflatfile格式KEYWORDS.SOURCEOryzasativaIndicaGroupORGANISMOryzasativaIndicaGroupEukaryota;Viridiplantae;Streptophyta;Embryophyta;Tracheophyta;Spermatophyta;Magnoliophyta;Liliopsida;Poales;Poaceae;BEPclade;Ehrhartoideae;Oryzeae;Oryza.REFERENCE1(bases1to1980)AUTHORSWang,G.,Ding,X.,Yuan,M.,Qiu,D.,Li,X.,Xu,C.andWang,S.TITLEDualfunctionofriceOsDR8geneindiseaseresistanceandthiamineaccumulationJOURNALPlantMol.Biol.60(3),437-449(2006)PUBMED16514565REFERENCE2(bases1to1980)AUTHORSWang,S.andWang,G.TITLEDirectSubmissionJOURNALSubmitted(23-AUG-2005)NationalKeyLaboratoryofCropGeneticImprovement,HuazhongAgriculturalUniversity,Wuhan430070,ChinaLegacyfieldexceptionESTGSSHTGHTCTPATSAAcceptedcommonnameScientificnameTaxonomiclineageCitationSubmitterblockKeywords,Source-organismFEATURESLocation/Qualifierssource1..646/organism=Dicathaisorbita/organelle=mitochondrion/mol_type=mRNA/db_xref=taxon:69583/clone=20006E09/note=mitochondrialandribosomalsequencesproducedbysuppressivesubtractivehybridizationCDS1..646/note=COXI/codon_start=1/transl_table=5/product=cytochromeoxidasesubunitI/protein_id=ACT34372.1/db_xref=GI:253740054/translation=GTLYILFGMWSGLVGTALSLLIRAELGQPGALLGDDQLYNVIVTAHAFVMIFFLVMPMMIGGFGNWLVPLMLGAPDMAFPRLNNMSFWLLPPALLLLLSSAABiologicalsourceCodingsequence/AnnotationAnnotatedproteinORIGIN1ggtacattatatattctgtttggaatatgatcaggcctagtgggaactgctttaagttta61cttattcgagctgagttaggacaacctggggccctattaggggatgatcaattatataat121gttattgttacagcacacgcttttgtaataatttttttcttagttatacctataatgatcSequence(2)EST数据库dbEST(Databaseo

1 / 53
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功